不是“画蛇添足”而是“窥一斑而知全豹”想象一下这个场景你站在一个陌生的城市角落手机对着街角拍下一张照片——不是360°全景只是一张普通的透视照片。现在你想看这张照片“背后”是什么——这条街向左拐会通向哪里如果往前走几步会看到什么甚至你想绕着整个街区走一圈看看这条街的全貌。这就是单图像新视角合成Single-Image Novel View Synthesis, NVS面临的终极挑战。从单一图像中合成新的、甚至相距遥远的视角并保持全场的一致性——这几乎是一项不可能完成的任务。因为视角偏离过大时大部分内容都是完全未被观察到的区域模型只能“凭空想象”。来自墨尔本大学的研究团队在ACM MM 2025发表的《Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion》为这一挑战提供了一个优雅而强大的解法。他们提出的两阶段扩散框架将问题巧妙地分解为“先看全貌再看细处”两步第一阶段——全景生成从输入的单张透视图中“向外看”扩画出整个场景的360°全景图第二阶段——视角插值在全景图的引导下沿着用户指定的任意相机轨迹生成视角一致、时序连贯的完整视频。这一设计使得模型在面对长距离乃至闭环漫游轨迹时依然能保持全局的视觉一致性。实验表明该方法在几何一致性mTSED匹配率和视频质量FVD等关键指标上显著优于现有方法实现了可控且鲁棒的单图场景漫游。以下我们从问题起点、核心方法、实验验证、创新价值与未来方向几个维度逐层拆解这篇论文的精妙之处。一、问题的起点为什么单张图像“看背后”那么难1.1 单图像NVS的两大“敌人”敌人一信息剧增。从一张图出发你的“可见视角”只是整个球面的一小块。当视角偏离输入图像时新视图中几乎全是未被观察到的区域Large Unobserved Regions。这本质上是一个高度不适定highly ill-posed的重建问题它要求模型在极少信息下“凭空填充”大量内容。敌人二视图发散。当我们要求模型生成一条长距离漫游路径甚至让相机绕一圈、回到起点附近Loop‑closure时现有的扩散模型往往在反复生成中被推入“几何发散”的深渊——最初几帧看起来还不错但越往后走生成的场景与真实的物理布局之间的差距越大。你可能会看到“左边明明是墙走了几步墙跑到了右边”这种匪夷所思的画面。1.2 现有方法是怎么做的为什么不够市面上有一些单图生成新视角的工具比如Zero123、PhotoNVS或Cat3D。它们要么直接在3D场景空间中重建显式几何这需要大量高精度3D训练数据要么在2D视频扩散模型的隐藏状态中进行隐式生成。但这些方法处理长距离或多视角时都会遇到一个共同瓶颈它们难以捕捉整个场景的全局几何布局。没有一块“地图”来锚定相机的位置和朝向模型很容易在错综复杂的新视角中逐渐“迷失”。1.3 “全景视频”两步走专治发散论文团队提供了一种极具几何直觉的方案我们不直接从“透视帧A”跳到“透视帧B”而是利用全景图作为全局锚点。全景图像一个不可见的脚手架把所有视图钉在了准确的空间位置上。场景走了很远的路只要时时回头看一眼“全貌地图”方向就不会错。二、方法的核心Look Beyond——全景为骨视频为肉Look Beyond的核心理念可以概括为先造一个环绕的“全景骨架”再填充流体的“视频血肉”。2.1 全景扩散——从“一孔窥豹”到“全景画布”这是解决长距离视角发散的第一个绝招用全景图锁死全局几何。给定一张单透视输入图 ( \mathbf{x}_0 )比如站在房间角落往前方看以及一个对应的相机位姿朝向、角度。模型首先将输入图像映射到一张 360° 全景图Equirectangular Projection, ERP的遮罩Mask上——也就是在大饼图上点一个点告诉扩散模型“输入的内容对应全景图上的这一块”。接着一个基于扩散TransformerDiT的全景扩散模型通过反向去噪推断并生成整个全景图 ( \mathbf{X}_0 )。在推理的“外扩画幅”Outpainting过程中模型利用输入视图作为几何先验对遮罩外的未知区域进行合理填补。扩散过程在VAE隐空间中进行模型的DiT架构包含24个块在32×64的隐尺寸上运行最终输出分辨率为256×512的全景图像。值得注意的是虽然近期的PanoDiffusion也是全景扩散模型但它在生成中丢失了输入图像的上下文线索导致生成的全景图与原透视视图的视觉特征差距极大。Look Beyond通过CLIP编码并结合遮罩区域引导能够更好地继承输入视图的纹理与光照为后续提供真正的“全局地图”。2.2 全景→视角关键帧——从球面上“切蛋糕”有了全景图之后模型的下一步是把“蛋糕切片”——将全景图分解为透视关键帧。模型采用了“邻近旋转”和“走近特效”Walk‑in Motion两种提取策略邻近旋转在全景图水平视域中以 ( 30-60^\circ ) 的固定间隔生成关键帧覆盖一个旋转环路。走近特效模拟物理世界的“向目标走近”通过调节目标视口的缩放因子 ( s )计算深度 ( \hat{d} ) 与最大场景深度 ( d_{\text{Max}} ) 的比例 ( c )从而获取“向前走”的画面。二者结合为第二阶段的插值生成提供了丰富的、存在重叠纹理的“源—目标”帧对。2.3 轨迹感知视频扩散——让相机“动起来”第二阶段的任务是根据用户定义的相机轨迹在关键帧之间平滑地插入中间帧。为此论文设计了一个轨迹感知的视频扩散模型它接收三类输入条件关键帧对 ( (\mathbf{x}i, \mathbf{x}{i1}) )作为插值推理的头尾图像Plücker嵌入光线图 ( \mathbf{W}_\mathbf{r} )基于相机位姿 ( \mathbf{R}_i ) 与平移 ( \mathbf{T}_i ) 生成的射线表征编码了相机的几何信息扩散噪声( \epsilon_\theta )反向去噪过程中逐步恢复画面内容。模型在处理视频流时引入了空间插值Spatial Interpolation机制。它对每一帧计算与前一个关键帧之间的位置权重 ( \omega_{i}^{j} ) 与方向相似度 ( \beta_{i}^{j} )通过加权融合得到 ( \gamma_{i}^{j} ) 以引导帧之间的空间一致性。最终通过DDPM反向扩散解码出关键帧间的高质量插值帧。值得一提的是该模型不是从头训练而是对预训练的Stable Video DiffusionSVD进行轻量化微调LoRA 仅训练Raymap条件编码层在H100上约需3天兼顾了生成质量与计算效率。三、实验的答卷多种评价指标下的全面优势3.1 评估设置与数据集实验在三个关键基准上进行全面评估Matterport3D大规模室内3D场景数据集提供精准的相机位姿与全景图标签用于全景生成与室内漫游测试RealEstate10K室外/室内结合的数据集虽然不包含全景图真值但论文利用其丰富的透视视频来进行第二阶段的插值评估。评价指标采用了像素差异PSNR、结构相似性SSIM、感知相似性LPIPS、图像分布FID、视频时序连贯性FVD以及几何一致性度量——中值阈值对称对极误差median Thresholded Symmetric Epipolar Distance, mTSED。3.2 主要实验结果大幅度的领先全景生成第一阶段与Diffusion360和PanoDiffusion相比论文的方法在全景生成质量上的提升是肉眼可见的——输入视图的细节得到了更好保留光照和场景元素保持了整体一致性。定量指标上LPIPS低至0.49越近0越好FID低至52.51均为当期最优。新视角插值第二阶段在RealEstate10K与Matterport3D的视频生成任务上该方法全面超越ViewCrafter、VistaDream与PhotoNVS等基线。定性对比显示在闭环漫游场景中该方法仍能保持几何对齐而竞品生成的画面会随路径延长而逐渐“飘移”。特别是在几何一致性指标mTSED匹配成功率上文章方法以超过47.3%的成绩大幅领先第二名23.1%这意味着生成的视频在三维空间结构上更接近真实布局。虽然在PSNR21.88 vs 21.01和SSIM0.71 vs 0.68上与最佳基线PhotoNVS仅微弱领先但在FID33.57 vs 35.29和LPIPS0.19 vs 0.21等感知指标上均有稳定提升。此外FVD指标的大幅优化也证明了该方法在跨帧生成时序连贯性上的强大优势。在用户视角漫游演示中该方法能在给定单张室内/室外图后生成长达30秒12帧/秒的平滑导航视频即使在“走进门后转180度看门后”这种剧烈视角变换中也不产生鬼影或断裂。四、创新的价值Look Beyond给单图像NVS带来了什么范式改变4.1 全景作为几何锚点从根本上抑制长距离扩散发散大多数扩散式单视图生成没有明确的“空间参考系”。通过引入全景图作为3D世界的几何先验再在这个先验的加持下进行视频扩散Look Beyond相当于在剧烈运动中给扩散模型装上了“不动陀螺仪”。这种方法从根本上解决了长距离乃至闭环漫游的几何漂移问题。4.2 两阶段解耦极强的任务泛化性将“单图生成”分解为“全景生成 视角插值”两个独立的可控子任务让算法拥有了模块化的威力——你可以独立地升级全景模型或者替换第二阶段的视频扩散模型而整个系统依然能够无缝工作。相比端到端的“黑盒预测”这种两阶段设计在可解释性、调试难度和任务定制化上优势明显。4.3 灵活的相机控制与轨迹适应性传统的视频扩散模型通常绑定于预设的相机路径如平滑前进或简单旋转而Look Beyond由于引入了基于Raymap的位姿编码理论上可以支持任意用户指定的任意相机轨迹——只需提供相关的6自由度位姿序列系统就能自动完成视角插值与内容生成。4.4 预训练扩散模型的高效适配论文没有从零开始训练庞大的扩散网络而是选择在已有强大基座模型Stable Video Diffusion与DiT上做轻量微调。这意味着Look Beyond的整体算法逻辑是轻量级的具备较强的可复现性。五、未来的追问从Look Beyond到真正的沉浸式全场景构建5.1 从“室内”到“无限室外”当前模型在Matterport3D室内场景上表现优异但室外场景尤其是广域3D街区的全景生成与漫游仍然是一个开放挑战。随着更多样室外数据的引入该框架完全有能力延伸到更广阔的城市级虚拟漫游中。5.2 从“单图”到“多图连贯”的条件生成目前模型的输入是一张图。当场景复杂度过高时单张图的先验信息可能不足以支撑高精度的全景重建。多张稀疏输入比如从不同角度输入2-3张图的组合潜力值得挖掘。它可以有效降低全景生成的模糊性并让视角插入的精准度继续大幅提升。5.3 与高斯泼溅/3D重建的深度融合当前Look Beyond的输出是视频与全景图。但它生成的连续新视点恰好可以为3D高斯泼溅3D Gaussian Splatting提供丰富的观测视角从而构建出完整的3D场景模型。将两阶段生成与3D重建结合形成“视图生成 → 实时3D建模”的闭环将是通向“一张照片玩转一整间房”的真正起点。5.4 计算的轻量化与实时化目前该模型在高性能计算硬件上H100仍需要数天训练和秒级推理。如果想要用于AR/VR的实时内容生成需要进一步对模型进行蒸馏、裁剪或适配于移动端硬件。5.5 伦理思考当生成场景与现实难以区分Look Beyond可以创建极其逼真的室内或城市场景让游客足不出户即可“漫游地球”。但这也引发了深度造假风险若单张图片可重构某一私人室内空间的完整样貌则可能对隐私权构成潜在威胁。生成结果的显著“合成”标记和水印机制可能是未来应用部署中不可或缺的技术伦理设计。关键信息速览维度内容论文标题Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion作者Xueyang Kang, Zhengkang Xiang, Zezheng Zhang, Kourosh Khoshelham所属单位墨尔本大学 (The University of Melbourne)发表会议ACM MM 2025 (The 33rd ACM International Conference on Multimedia)2025年10月27-31日爱尔兰都柏林arXiv / DOIDOI: 10.1145/3746027.3754779模型名称Look Beyond核心架构第一阶段全景扩散模型DiT Outpainting第二阶段轨迹感知视频扩散模型SVD微调 Raymap编码 空间插值输入输出单张透视图像 用户指定相机轨迹 → 360°全景图 沿轨道的完整一致视频核心创新首次将单图NVS分解为“全景生成 视角插值”两阶段利用全景图作为全局几何锚点解决长距离和闭环漫游的发散问题支持灵活、用户指定的相机控制关键结果全景生成各项指标均优于SOTALPIPS 0.49FID 52.51新视角合成在mTSED几何匹配率上达到47.3%领先第二名的23.1%FID/LPIPS指标全面领先开源地址https://github.com/YiGuYT/LookBeyond当AI真正学会了“看完左边看右边看完前面看后面”——并且保证这一圈全景镜头的切换中还不会“断片”时才能说它在三维空间中完成了对一个场景真正的、整体的“理解”。Look Beyond所做的就是为这个“从局部到全景”的视觉扩展提供了一个坚实的两阶段引擎它既是一次扩散模型在虚拟视觉中的深度技巧应用也是一条通往沉浸式全场景构建的崭新道路。
从一张图到一条街:ACM MM 2025 论文深度解读《Look Beyond》
不是“画蛇添足”而是“窥一斑而知全豹”想象一下这个场景你站在一个陌生的城市角落手机对着街角拍下一张照片——不是360°全景只是一张普通的透视照片。现在你想看这张照片“背后”是什么——这条街向左拐会通向哪里如果往前走几步会看到什么甚至你想绕着整个街区走一圈看看这条街的全貌。这就是单图像新视角合成Single-Image Novel View Synthesis, NVS面临的终极挑战。从单一图像中合成新的、甚至相距遥远的视角并保持全场的一致性——这几乎是一项不可能完成的任务。因为视角偏离过大时大部分内容都是完全未被观察到的区域模型只能“凭空想象”。来自墨尔本大学的研究团队在ACM MM 2025发表的《Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion》为这一挑战提供了一个优雅而强大的解法。他们提出的两阶段扩散框架将问题巧妙地分解为“先看全貌再看细处”两步第一阶段——全景生成从输入的单张透视图中“向外看”扩画出整个场景的360°全景图第二阶段——视角插值在全景图的引导下沿着用户指定的任意相机轨迹生成视角一致、时序连贯的完整视频。这一设计使得模型在面对长距离乃至闭环漫游轨迹时依然能保持全局的视觉一致性。实验表明该方法在几何一致性mTSED匹配率和视频质量FVD等关键指标上显著优于现有方法实现了可控且鲁棒的单图场景漫游。以下我们从问题起点、核心方法、实验验证、创新价值与未来方向几个维度逐层拆解这篇论文的精妙之处。一、问题的起点为什么单张图像“看背后”那么难1.1 单图像NVS的两大“敌人”敌人一信息剧增。从一张图出发你的“可见视角”只是整个球面的一小块。当视角偏离输入图像时新视图中几乎全是未被观察到的区域Large Unobserved Regions。这本质上是一个高度不适定highly ill-posed的重建问题它要求模型在极少信息下“凭空填充”大量内容。敌人二视图发散。当我们要求模型生成一条长距离漫游路径甚至让相机绕一圈、回到起点附近Loop‑closure时现有的扩散模型往往在反复生成中被推入“几何发散”的深渊——最初几帧看起来还不错但越往后走生成的场景与真实的物理布局之间的差距越大。你可能会看到“左边明明是墙走了几步墙跑到了右边”这种匪夷所思的画面。1.2 现有方法是怎么做的为什么不够市面上有一些单图生成新视角的工具比如Zero123、PhotoNVS或Cat3D。它们要么直接在3D场景空间中重建显式几何这需要大量高精度3D训练数据要么在2D视频扩散模型的隐藏状态中进行隐式生成。但这些方法处理长距离或多视角时都会遇到一个共同瓶颈它们难以捕捉整个场景的全局几何布局。没有一块“地图”来锚定相机的位置和朝向模型很容易在错综复杂的新视角中逐渐“迷失”。1.3 “全景视频”两步走专治发散论文团队提供了一种极具几何直觉的方案我们不直接从“透视帧A”跳到“透视帧B”而是利用全景图作为全局锚点。全景图像一个不可见的脚手架把所有视图钉在了准确的空间位置上。场景走了很远的路只要时时回头看一眼“全貌地图”方向就不会错。二、方法的核心Look Beyond——全景为骨视频为肉Look Beyond的核心理念可以概括为先造一个环绕的“全景骨架”再填充流体的“视频血肉”。2.1 全景扩散——从“一孔窥豹”到“全景画布”这是解决长距离视角发散的第一个绝招用全景图锁死全局几何。给定一张单透视输入图 ( \mathbf{x}_0 )比如站在房间角落往前方看以及一个对应的相机位姿朝向、角度。模型首先将输入图像映射到一张 360° 全景图Equirectangular Projection, ERP的遮罩Mask上——也就是在大饼图上点一个点告诉扩散模型“输入的内容对应全景图上的这一块”。接着一个基于扩散TransformerDiT的全景扩散模型通过反向去噪推断并生成整个全景图 ( \mathbf{X}_0 )。在推理的“外扩画幅”Outpainting过程中模型利用输入视图作为几何先验对遮罩外的未知区域进行合理填补。扩散过程在VAE隐空间中进行模型的DiT架构包含24个块在32×64的隐尺寸上运行最终输出分辨率为256×512的全景图像。值得注意的是虽然近期的PanoDiffusion也是全景扩散模型但它在生成中丢失了输入图像的上下文线索导致生成的全景图与原透视视图的视觉特征差距极大。Look Beyond通过CLIP编码并结合遮罩区域引导能够更好地继承输入视图的纹理与光照为后续提供真正的“全局地图”。2.2 全景→视角关键帧——从球面上“切蛋糕”有了全景图之后模型的下一步是把“蛋糕切片”——将全景图分解为透视关键帧。模型采用了“邻近旋转”和“走近特效”Walk‑in Motion两种提取策略邻近旋转在全景图水平视域中以 ( 30-60^\circ ) 的固定间隔生成关键帧覆盖一个旋转环路。走近特效模拟物理世界的“向目标走近”通过调节目标视口的缩放因子 ( s )计算深度 ( \hat{d} ) 与最大场景深度 ( d_{\text{Max}} ) 的比例 ( c )从而获取“向前走”的画面。二者结合为第二阶段的插值生成提供了丰富的、存在重叠纹理的“源—目标”帧对。2.3 轨迹感知视频扩散——让相机“动起来”第二阶段的任务是根据用户定义的相机轨迹在关键帧之间平滑地插入中间帧。为此论文设计了一个轨迹感知的视频扩散模型它接收三类输入条件关键帧对 ( (\mathbf{x}i, \mathbf{x}{i1}) )作为插值推理的头尾图像Plücker嵌入光线图 ( \mathbf{W}_\mathbf{r} )基于相机位姿 ( \mathbf{R}_i ) 与平移 ( \mathbf{T}_i ) 生成的射线表征编码了相机的几何信息扩散噪声( \epsilon_\theta )反向去噪过程中逐步恢复画面内容。模型在处理视频流时引入了空间插值Spatial Interpolation机制。它对每一帧计算与前一个关键帧之间的位置权重 ( \omega_{i}^{j} ) 与方向相似度 ( \beta_{i}^{j} )通过加权融合得到 ( \gamma_{i}^{j} ) 以引导帧之间的空间一致性。最终通过DDPM反向扩散解码出关键帧间的高质量插值帧。值得一提的是该模型不是从头训练而是对预训练的Stable Video DiffusionSVD进行轻量化微调LoRA 仅训练Raymap条件编码层在H100上约需3天兼顾了生成质量与计算效率。三、实验的答卷多种评价指标下的全面优势3.1 评估设置与数据集实验在三个关键基准上进行全面评估Matterport3D大规模室内3D场景数据集提供精准的相机位姿与全景图标签用于全景生成与室内漫游测试RealEstate10K室外/室内结合的数据集虽然不包含全景图真值但论文利用其丰富的透视视频来进行第二阶段的插值评估。评价指标采用了像素差异PSNR、结构相似性SSIM、感知相似性LPIPS、图像分布FID、视频时序连贯性FVD以及几何一致性度量——中值阈值对称对极误差median Thresholded Symmetric Epipolar Distance, mTSED。3.2 主要实验结果大幅度的领先全景生成第一阶段与Diffusion360和PanoDiffusion相比论文的方法在全景生成质量上的提升是肉眼可见的——输入视图的细节得到了更好保留光照和场景元素保持了整体一致性。定量指标上LPIPS低至0.49越近0越好FID低至52.51均为当期最优。新视角插值第二阶段在RealEstate10K与Matterport3D的视频生成任务上该方法全面超越ViewCrafter、VistaDream与PhotoNVS等基线。定性对比显示在闭环漫游场景中该方法仍能保持几何对齐而竞品生成的画面会随路径延长而逐渐“飘移”。特别是在几何一致性指标mTSED匹配成功率上文章方法以超过47.3%的成绩大幅领先第二名23.1%这意味着生成的视频在三维空间结构上更接近真实布局。虽然在PSNR21.88 vs 21.01和SSIM0.71 vs 0.68上与最佳基线PhotoNVS仅微弱领先但在FID33.57 vs 35.29和LPIPS0.19 vs 0.21等感知指标上均有稳定提升。此外FVD指标的大幅优化也证明了该方法在跨帧生成时序连贯性上的强大优势。在用户视角漫游演示中该方法能在给定单张室内/室外图后生成长达30秒12帧/秒的平滑导航视频即使在“走进门后转180度看门后”这种剧烈视角变换中也不产生鬼影或断裂。四、创新的价值Look Beyond给单图像NVS带来了什么范式改变4.1 全景作为几何锚点从根本上抑制长距离扩散发散大多数扩散式单视图生成没有明确的“空间参考系”。通过引入全景图作为3D世界的几何先验再在这个先验的加持下进行视频扩散Look Beyond相当于在剧烈运动中给扩散模型装上了“不动陀螺仪”。这种方法从根本上解决了长距离乃至闭环漫游的几何漂移问题。4.2 两阶段解耦极强的任务泛化性将“单图生成”分解为“全景生成 视角插值”两个独立的可控子任务让算法拥有了模块化的威力——你可以独立地升级全景模型或者替换第二阶段的视频扩散模型而整个系统依然能够无缝工作。相比端到端的“黑盒预测”这种两阶段设计在可解释性、调试难度和任务定制化上优势明显。4.3 灵活的相机控制与轨迹适应性传统的视频扩散模型通常绑定于预设的相机路径如平滑前进或简单旋转而Look Beyond由于引入了基于Raymap的位姿编码理论上可以支持任意用户指定的任意相机轨迹——只需提供相关的6自由度位姿序列系统就能自动完成视角插值与内容生成。4.4 预训练扩散模型的高效适配论文没有从零开始训练庞大的扩散网络而是选择在已有强大基座模型Stable Video Diffusion与DiT上做轻量微调。这意味着Look Beyond的整体算法逻辑是轻量级的具备较强的可复现性。五、未来的追问从Look Beyond到真正的沉浸式全场景构建5.1 从“室内”到“无限室外”当前模型在Matterport3D室内场景上表现优异但室外场景尤其是广域3D街区的全景生成与漫游仍然是一个开放挑战。随着更多样室外数据的引入该框架完全有能力延伸到更广阔的城市级虚拟漫游中。5.2 从“单图”到“多图连贯”的条件生成目前模型的输入是一张图。当场景复杂度过高时单张图的先验信息可能不足以支撑高精度的全景重建。多张稀疏输入比如从不同角度输入2-3张图的组合潜力值得挖掘。它可以有效降低全景生成的模糊性并让视角插入的精准度继续大幅提升。5.3 与高斯泼溅/3D重建的深度融合当前Look Beyond的输出是视频与全景图。但它生成的连续新视点恰好可以为3D高斯泼溅3D Gaussian Splatting提供丰富的观测视角从而构建出完整的3D场景模型。将两阶段生成与3D重建结合形成“视图生成 → 实时3D建模”的闭环将是通向“一张照片玩转一整间房”的真正起点。5.4 计算的轻量化与实时化目前该模型在高性能计算硬件上H100仍需要数天训练和秒级推理。如果想要用于AR/VR的实时内容生成需要进一步对模型进行蒸馏、裁剪或适配于移动端硬件。5.5 伦理思考当生成场景与现实难以区分Look Beyond可以创建极其逼真的室内或城市场景让游客足不出户即可“漫游地球”。但这也引发了深度造假风险若单张图片可重构某一私人室内空间的完整样貌则可能对隐私权构成潜在威胁。生成结果的显著“合成”标记和水印机制可能是未来应用部署中不可或缺的技术伦理设计。关键信息速览维度内容论文标题Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion作者Xueyang Kang, Zhengkang Xiang, Zezheng Zhang, Kourosh Khoshelham所属单位墨尔本大学 (The University of Melbourne)发表会议ACM MM 2025 (The 33rd ACM International Conference on Multimedia)2025年10月27-31日爱尔兰都柏林arXiv / DOIDOI: 10.1145/3746027.3754779模型名称Look Beyond核心架构第一阶段全景扩散模型DiT Outpainting第二阶段轨迹感知视频扩散模型SVD微调 Raymap编码 空间插值输入输出单张透视图像 用户指定相机轨迹 → 360°全景图 沿轨道的完整一致视频核心创新首次将单图NVS分解为“全景生成 视角插值”两阶段利用全景图作为全局几何锚点解决长距离和闭环漫游的发散问题支持灵活、用户指定的相机控制关键结果全景生成各项指标均优于SOTALPIPS 0.49FID 52.51新视角合成在mTSED几何匹配率上达到47.3%领先第二名的23.1%FID/LPIPS指标全面领先开源地址https://github.com/YiGuYT/LookBeyond当AI真正学会了“看完左边看右边看完前面看后面”——并且保证这一圈全景镜头的切换中还不会“断片”时才能说它在三维空间中完成了对一个场景真正的、整体的“理解”。Look Beyond所做的就是为这个“从局部到全景”的视觉扩展提供了一个坚实的两阶段引擎它既是一次扩散模型在虚拟视觉中的深度技巧应用也是一条通往沉浸式全场景构建的崭新道路。