这项由NVIDIA研究团队主导的研究成果于2026年5月以预印本形式发布论文编号为arXiv:2605.15178感兴趣的读者可通过该编号查阅完整原文。给你一张照片再给你一条摄像机的移动路线然后电脑自动生成一段完整的一分钟高清视频视频里的世界会随着摄像机的移动展开——草地、建筑、室内空间所有细节都保持连贯仿佛那个世界真实存在。这件事听起来像是科幻电影里的情节但NVIDIA的研究人员已经把它做出来了而且用的硬件普通玩家也买得起。这个系统叫做SANA-WMWM代表世界模型World Model。它有26亿个参数能生成720p分辨率的视频时长可以达到整整一分钟。更关键的是训练它只用了64块H100显卡跑15天生成视频只需要一块显卡用消费级的RTX 5090配合特殊的压缩技术34秒就能生成一段完整的60秒720p视频。为什么这件事值得关注因为在此之前能做到类似效果的系统要么体量极其庞大参数量达到十几亿乃至更高要么需要八块乃至更多的高端服务器显卡同时运行要么生成质量离真实差距明显。SANA-WM试图证明花更少的钱、用更少的数据、在更便宜的硬件上也能造出质量接近工业级的世界模型。---一、什么是世界模型为什么研究人员要造它在理解SANA-WM之前先弄清楚世界模型这个词的意思。普通的视频生成工具比如大家熟悉的文字生成视频类产品做的是给一段文字描述生成一段看起来合理的视频。这本质上是一种创作工具就像让AI按照剧本画连环画。而世界模型做的事情不一样它试图模拟一个真实存在的三维空间你告诉它摄像机要往左转20度、向前走5米它需要生成一段视频视频里展示的画面要和真实摄像机做这个动作之后看到的画面高度吻合。这两者的区别有点像画家和建筑师的区别。画家负责创作漂亮的画面建筑师需要在脑子里维持一个完整的三维空间确保从任何角度看这栋建筑都是一致的、合理的。世界模型追求的是建筑师的能力——对场景的空间一致性和物理合理性的理解。这种能力对机器人、自动驾驶、游戏引擎、虚拟现实等领域极其重要。机器人在真实环境里学习太贵也太慢如果有一个逼真的虚拟世界它可以在里面以极低的成本反复练习各种情境。自动驾驶的测试场景需要海量多样化的道路环境一一实地拍摄成本高昂用世界模型生成则便宜得多。研究团队面临的核心问题是现有的世界模型系统要么需要巨量的计算资源要么视频时间太短只能生成几秒到十几秒要么无法精确跟随摄像机的移动指令。SANA-WM的目标就是同时解决这三个问题。---二、长视频为什么那么难生成从记笔记的角度理解计算瓶颈生成一秒钟的720p视频需要处理大约30帧画面每帧画面包含1280×720个像素点。生成一分钟就意味着要同时想清楚近1800帧画面而且这些画面之间必须保持空间连贯性——如果第5秒看到一棵树在画面左侧第45秒摄像机转回来那棵树还得在左侧而不是凭空消失或者跑到右边去。传统的注意力机制可以理解为AI回忆之前内容的方式有一个致命的问题它需要把之前看过的所有内容都存在记忆里随着视频变长这个记忆会以平方级增长。生成10秒的视频需要100单位的记忆生成60秒就需要3600单位——这正是为什么大多数视频生成系统在60秒面前束手无策不是算法不够好是内存直接爆掉了。SANA-WM解决这个问题的核心思路可以用随手笔记本来理解。传统注意力机制就像一个拍照记忆的学生把遇到的每一帧内容都完整保存下来考试的时候翻出来看。这当然准确但笔记本会越来越厚最后厚到根本翻不完。SANA-WM使用的门控增量网络Gated DeltaNet简称GDN机制则更像一个善于做总结的学生它维护一个固定大小的笔记本每次遇到新内容就把新内容消化进笔记本里同时淡化那些已经不那么重要的旧内容。笔记本永远只有一本不管视频有多长记忆的大小保持不变。但仅仅靠这本总结笔记本还不够——有时候你需要精确回忆某个特定的细节这不是总结能做到的你得翻出原始记录。所以SANA-WM在大量使用GDN的同时每隔几层就安插一个传统的精确注意力层相当于在总结笔记本之外每隔一段时间拍一张高清照片存档。这种混合设计在节省内存的同时保留了关键细节的精确回忆能力。具体来说整个网络有20层其中15层使用GDN做高效的记忆更新第3、7、11、15、19层使用传统的精确注意力。这个比例经过了反复实验调整在速度和质量之间找到了最优平衡点。另一个加速生成的关键技术是视频压缩。SANA-WM使用了LTX2的视频编码器VAE这个编码器能把原始视频压缩到极小的体积——比同类系统小2到8倍。打个比方原始视频是一部厚厚的词典LTX2 VAE把它压缩成一张小卡片AI只需要处理这张卡片而不是整本词典。等生成完成之后再把卡片还原成完整的词典。这个压缩率的提升直接把训练时间和推理时间大幅压缩。---三、摄像机控制如何让AI精确听懂往左转20度世界模型的另一个核心挑战是动作控制——你指定摄像机的移动轨迹AI生成的视频必须忠实还原这个轨迹。这件事比听起来难得多。想象一个导演告诉摄影师把镜头缓慢向右平移3米。摄影师不仅要移动摄像机还要确保整个过程中焦距、构图、光线都保持合理前一秒画面里的每个物体在下一秒出现的位置要符合三维空间的几何关系。AI需要做同样的事情但它面对的是压缩后的、抽象的数学表示而不是真实的三维空间。SANA-WM采用了双路摄像机控制设计来解决这个问题这两条路分别负责不同精度的控制信号。第一条路负责大方向。它使用一种叫做UCPE统一摄像机位置编码的技术把摄像机在每个时刻的完整6自由度姿态位置X/Y/Z加上俯仰/偏转/滚转三个角度合计6个数字转化为一种特殊的几何信号直接注入到AI处理信息的注意力层里。这就像给AI一个精确的GPS坐标让它知道摄像机现在在哪、朝向哪里。但这里有一个问题视频编码器会把连续的8帧原始视频压缩成1帧潜在变量。也就是说经过压缩之后原本8个不同位置的摄像机姿态在AI眼里只剩下1个代表性姿态8帧之间的细微移动信息丢失了。第二条路就是为了弥补这个损失而设计的。它使用普吕克射线图Plücker Raymap技术在原始帧率未压缩下为每一帧生成一张描述每个像素视线方向的图。对于压缩成1个潜在帧的8个原始帧系统把这8帧的射线图打包成一个48通道的信息通过一个专门的处理模块注入到网络里从而恢复那些被压缩丢失的精细摄像机运动信息。两条路各司其职大路负责全局轨迹小路负责局部精度。实验证明只用其中一条路的效果都不如两条路同时使用——特别是摄像机运动一致性这个指标双路方案比单独用UCPE或者单独用普吕克方案都要好很多。---四、生成分两步走先打草稿再细细打磨即使有了高效的骨干网络和精确的摄像机控制SANA-WM的团队发现单阶段生成的视频质量还不够理想——特别是在细节纹理、局部清晰度和长时间保持稳定方面。于是他们引入了第二阶段精炼器。整个流程类似于先用铅笔打草稿再用钢笔和水彩精细刻画。第一阶段的SANA-WM负责生成结构正确、动作连贯的草稿视频第二阶段的精炼器则在这个草稿的基础上大幅提升细节质量。精炼器使用了一种叫做截断-σ流匹配的训练方式。简单解释它学习的是如何把一段加了大量噪点的草稿视频还原成清晰的高质量视频而不是从完全的噪点中凭空生成视频。这个区别很关键——因为它已经知道大致的内容是什么草稿只需要专注于让画面更清晰这件事任务更专注效果自然更好。精炼器的基础是一个更大的模型——LTX-2参数量高达170亿是SANA-WM主体的将近7倍。但研究团队没有对这个巨大的模型进行全量训练而是只训练了一小部分参数称为LoRA适配器秩为384这让精炼阶段的训练成本保持在可接受范围内。值得一提的是精炼器是专门针对一分钟长视频场景重新训练的而不是直接使用原版LTX-2的精炼器。实验对比表明如果直接用原版短视频精炼器处理一分钟视频效果非常差——视觉质量反而下降摄像机控制精度也大幅劣化。专门适配过的长视频精炼器则在各项指标上都有明显提升特别是视频后半段的画面稳定性用ΔIQ指标衡量从4.65降至0.31越低越稳定。---五、数据从哪来从公开视频里挖出带坐标的训练集一个常被忽视但同等重要的问题是训练数据从哪来要训练摄像机控制能力AI不仅需要看视频还需要知道每个视频里摄像机在每一帧的精确位置和朝向——也就是6自由度的摄像机姿态标注。这种标注在工业界通常是花大价钱专门采集的或者来自有GPS记录的专业设备拍摄的视频。SANA-WM的团队选择了另一条路从公开互联网视频里自动推算摄像机轨迹。他们开发了一套自动标注流水线核心是把几个现有的工具组合起来使用。这套流水线的工作方式可以类比成从一段行车记录仪视频里推算出汽车的GPS轨迹。系统首先用一个叫VIPE的工具做视觉跟踪和特征匹配相当于找出视频里的路标然后用Pi3X分析每帧之间的三维结构关系相当于用路标位置推算汽车的移动最后用MoGe-2来恢复真实的物理尺度相当于确定路标之间的真实距离而不只是相对比例。这套组合有一个之前版本没解决好的问题原版VIPE使用的深度估计模型在长视频上表现不稳定。研究团队把深度估计模块换成了Pi3X擅长处理长序列的三维一致性和MoGe-2擅长提供精确的真实尺度并且把两者的结果通过加权最小二乘法融合再用时间平滑处理消除帧间抖动。此外他们还把原本固定焦距的假设改成了每帧独立优化焦距这让系统能正确处理那些焦距会变化的互联网视频。经过这套流水线处理他们从多个公开数据集里筛选出了约21.3万段视频涵盖真实室内外场景、游戏画面、合成场景等多种类型每段视频都附带了经过验证的精确摄像机轨迹标注。其中还有一个有趣的数据增强环节对于那些只有静态3D场景扫描数据的数据集DL3DV团队用高斯散点绘制技术3D Gaussian Splatting把静态场景还原成可以飞行的三维模型然后设计各种各样的摄像机运动路径从中渲染出全新的视频。这相当于用一张建筑模型图生成了在这栋建筑里从各种角度、用各种运动方式拍摄的视频大幅增加了训练数据的多样性。---六、怎么训练循序渐进从简单到复杂SANA-WM的训练不是一步到位的而是分四个阶段循序渐进每个阶段聚焦解决一个问题稳定之后再进入下一阶段。第一阶段让AI学会说一种新的压缩语言。原始SANA-Video模型使用的是一种视频压缩格式但SANA-WM要换用更高压缩比的LTX2格式。这两种格式的数据分布差异很大就像一个习惯写繁体字的人要切换到简体字——内容相同但书写规则完全不同。这一阶段对整个模型做了5万步的全量微调约耗时3.5天。第二阶段引入混合注意力机制。把GDN块和传统精确注意力块交替组合的新架构替换进来但只在短视频5秒上训练原因是短视频训练更快、更容易调试、出问题也更容易定位。这一阶段约耗时2天。第三阶段真正的长视频训练。序列长度延伸到60秒961帧同时把双路摄像机控制也加进来。这是最耗时的阶段约需8天并且使用了上下文并行技术把长序列切分到多块GPU上并行处理。第四阶段生成质量的精细调优以及推理加速。从双向生成模型出发训练一个逐段生成的自回归变体用于边生成边输出的流式场景然后用自强迫蒸馏技术把推理步数从60步压缩到4步速度提升约27倍。为了让它能在内存较小的消费级显卡上运行还加入了注意力锚点Attention Sink机制把滑动窗口注意力的内存占用控制在常数级别。---七、横向比较SANA-WM在同类系统中处于什么位置为了公平评测研究团队专门构建了一套全新的评测基准因为现有的评测标准没有一个是专门为一分钟世界模型设计的。他们用一个叫做Nano Banana Pro的图像生成工具生成了80张初始场景图片覆盖游戏风格、室内、城市户外、自然户外四类场景每类20张。每张图片配有两套摄像机轨迹一套是简单轨迹平滑的单向直线或弧线运动另一套是困难轨迹包含大角度旋转、垂直运动、螺旋、双重循环等复杂路径。评测视频时长统一为60秒帧率16fps。评测指标分为两大类视觉质量用VBench一套业界认可的视频质量评测工具来衡量包含主体一致性、背景一致性、时间闪烁、运动流畅度、美学质量、图像清晰度等多个维度摄像机控制精度则用Pi3X从生成视频里反推摄像机轨迹再与输入的目标轨迹做比较得到旋转误差RotErr单位度、平移误差TransErr和摄像机运动一致性CamMC三个数字越小越好。在所有参与比较的系统中被比较的包括Infinite-World13亿参数480p单GPU、LingBot-World14B加14B双模型480p需要8块GPU、HY-WorldPlay80亿参数480p需要8块GPU、Matrix-Game 3.050亿参数720p需要8块GPU。摄像机控制精度方面SANA-WM加精炼器版本在简单轨迹上的旋转误差为4.50度在困难轨迹上为8.34度这两个数字都比所有对比系统要好其中最接近的竞争者在简单轨迹上的旋转误差是10.47度LingBot-World困难轨迹上是18.79度Matrix-Game 3.0。视觉质量方面SANA-WM加精炼器在简单轨迹上得到80.62分的VBench综合分困难轨迹上是81.89分与LingBot-World的81.82/81.89基本持平。考虑到LingBot-World使用的是两个14B模型串联、需要8块GPU、且分辨率只有480pSANA-WM能在720p分辨率下单GPU运行并达到接近的视觉质量这个对比相当有说服力。推理效率方面SANA-WM在8块H100上的吞吐量达到24.1个视频/小时加精炼器后22.0个/小时而最快的480p基准系统Infinite-World只有5.9个/小时也就是说SANA-WM的生产效率比同等硬件下最快的480p竞品还快约4倍比LingBot-World快约36倍。另外还有一个专门测试场景记忆的指标当摄像机转了一圈又回到接近原来的位置时生成视频里的场景是否还能和出发时保持一致SANA-WM加精炼器在困难轨迹上的PSNR峰值信噪比达到14.80分贝在所有对比系统中排名第一。这意味着即使经历了60秒的复杂移动SANA-WM生成的世界在回访时仍然最接近之前看到的样子。---八、在更小的设备上运行从服务器到消费级显卡从研究原型到实际可用还有一段路要走。SANA-WM的团队花了不少精力把推理成本压缩到消费级硬件可以承担的范围。从原始的60步推理开始第一步是蒸馏——用一种叫做自强迫蒸馏的技术训练一个学生模型让它只用4步就能完成原来60步的工作。这一步把推理时间从21.7分钟压缩到43秒DiT部分速度提升约30倍而质量损失在可接受范围内。之后加入注意力锚点机制把软注意力层改成固定大小的滑动窗口使得显存占用不随视频长度增加。这让系统能在RTX 5090上消费级旗舰显卡显存80GB以下运行总时间进一步降至48秒。最后一步是NVFP4量化——把模型权重的数值精度从标准的BF16每个参数16位压缩到FP4每个参数4位数据量减少为原来的四分之一。这个优化把最终时间压到了34秒完成一段60秒的720p视频约合实时速度的1.8倍生成速度比视频本身的播放速度快80%。整个优化路径清晰展示了从实验室原型到实际可用的工程化过程每一步的收益都有明确的数据支撑。---九、这项研究的局限和未来方向研究团队在论文中坦诚地列出了SANA-WM目前的不足之处。模型规模仍然有限——26亿参数对于捕捉复杂世界的多样性来说并不算多在动态场景有移动物体、罕见视角、超过一分钟的超长视频这些情况下质量会有明显下降。与此同时SANA-WM目前没有显式的三维场景记忆它通过神经网络隐式记住场景而不是像游戏引擎那样维护一个明确的三维模型这在非常长的视频或非常大角度的绕行场景里仍然会出现漂移。在控制信号方面SANA-WM目前只支持摄像机轨迹控制。未来的方向包括加入机器人关节控制、物体运动跟踪、点云追踪等更丰富的控制接口以及支持实时流式生成目前仍需要提前确定整段视频的轨迹。从数据的角度看21.3万段视频的训练集规模相对较小——这是研究者在有限资源下做出的折衷但也意味着模型在某些场景类型特别是训练集覆盖不足的场景上的泛化能力有待提升。---归根结底SANA-WM要证明的核心命题是大不一定好聪明的工程设计可以用小模型做出接近大模型的事情。它在五个关键环节上都做了非平庸的选择——高压缩比的视频编码、混合记忆机制的长序列处理、双路摄像机控制的精度、两阶段生成的质量提升、以及从公开数据里自动挖掘姿态标注——每一个选择都直接作用于训练或推理成本的节省而不是纯粹追求质量数字。这对普通用户意味着什么最直接的影响是一年或两年之后类似的世界模型技术可能出现在消费级游戏引擎、VR内容制作工具、乃至手机应用里。届时你只需要拍一张照片并用手指划出一条移动路线就能看到那个场景在你的路线下展开的样子。当然研究者们也提醒了潜在的风险高质量的生成视频很容易被误认为真实记录特别是在来源不明的情况下。这不是世界模型独有的问题但随着质量的持续提升这个问题会变得越来越值得认真对待。对这个话题感兴趣的读者可以通过arXiv编号2605.15178找到SANA-WM的完整论文论文附有详细的技术细节、消融实验和附录数据供有兴趣深入了解技术细节的读者参考。---QAQ1SANA-WM和普通的文字生成视频工具有什么区别ASANA-WM是世界模型需要输入一张图片加上摄像机移动轨迹生成的视频要忠实还原指定的空间移动路径注重三维空间的一致性。普通文字生成视频工具只需要文字描述不需要精确跟随任何物理轨迹更像创作工具而非空间模拟工具。两者的核心目标不同——SANA-WM要模拟空间普通视频生成工具要创作内容。Q2SANA-WM生成视频需要什么硬件ASANA-WM有多个版本适应不同硬件。基础版需要一块H100专业显卡用60步推理生成一分钟视频约需22分钟。蒸馏加速版结合4步推理和FP4量化后可以在消费级RTX 5090显卡上运行34秒生成一段完整的60秒720p视频。训练阶段使用了64块H100运行15天但推理只需单卡。Q3SANA-WM的摄像机控制精度有多准A在官方评测基准的简单轨迹上SANA-WM含精炼器的旋转误差为4.50度明显优于所有对比系统最接近的竞品旋转误差在10度以上。在包含大角度旋转、螺旋、双重循环的困难轨迹上旋转误差为8.34度同样排名第一。不过在极长视频或特别复杂的动态场景里控制精度仍有下降空间。
NVIDIA突破:单显卡实现图片驱动720p长视频世界模型生成能力提升
这项由NVIDIA研究团队主导的研究成果于2026年5月以预印本形式发布论文编号为arXiv:2605.15178感兴趣的读者可通过该编号查阅完整原文。给你一张照片再给你一条摄像机的移动路线然后电脑自动生成一段完整的一分钟高清视频视频里的世界会随着摄像机的移动展开——草地、建筑、室内空间所有细节都保持连贯仿佛那个世界真实存在。这件事听起来像是科幻电影里的情节但NVIDIA的研究人员已经把它做出来了而且用的硬件普通玩家也买得起。这个系统叫做SANA-WMWM代表世界模型World Model。它有26亿个参数能生成720p分辨率的视频时长可以达到整整一分钟。更关键的是训练它只用了64块H100显卡跑15天生成视频只需要一块显卡用消费级的RTX 5090配合特殊的压缩技术34秒就能生成一段完整的60秒720p视频。为什么这件事值得关注因为在此之前能做到类似效果的系统要么体量极其庞大参数量达到十几亿乃至更高要么需要八块乃至更多的高端服务器显卡同时运行要么生成质量离真实差距明显。SANA-WM试图证明花更少的钱、用更少的数据、在更便宜的硬件上也能造出质量接近工业级的世界模型。---一、什么是世界模型为什么研究人员要造它在理解SANA-WM之前先弄清楚世界模型这个词的意思。普通的视频生成工具比如大家熟悉的文字生成视频类产品做的是给一段文字描述生成一段看起来合理的视频。这本质上是一种创作工具就像让AI按照剧本画连环画。而世界模型做的事情不一样它试图模拟一个真实存在的三维空间你告诉它摄像机要往左转20度、向前走5米它需要生成一段视频视频里展示的画面要和真实摄像机做这个动作之后看到的画面高度吻合。这两者的区别有点像画家和建筑师的区别。画家负责创作漂亮的画面建筑师需要在脑子里维持一个完整的三维空间确保从任何角度看这栋建筑都是一致的、合理的。世界模型追求的是建筑师的能力——对场景的空间一致性和物理合理性的理解。这种能力对机器人、自动驾驶、游戏引擎、虚拟现实等领域极其重要。机器人在真实环境里学习太贵也太慢如果有一个逼真的虚拟世界它可以在里面以极低的成本反复练习各种情境。自动驾驶的测试场景需要海量多样化的道路环境一一实地拍摄成本高昂用世界模型生成则便宜得多。研究团队面临的核心问题是现有的世界模型系统要么需要巨量的计算资源要么视频时间太短只能生成几秒到十几秒要么无法精确跟随摄像机的移动指令。SANA-WM的目标就是同时解决这三个问题。---二、长视频为什么那么难生成从记笔记的角度理解计算瓶颈生成一秒钟的720p视频需要处理大约30帧画面每帧画面包含1280×720个像素点。生成一分钟就意味着要同时想清楚近1800帧画面而且这些画面之间必须保持空间连贯性——如果第5秒看到一棵树在画面左侧第45秒摄像机转回来那棵树还得在左侧而不是凭空消失或者跑到右边去。传统的注意力机制可以理解为AI回忆之前内容的方式有一个致命的问题它需要把之前看过的所有内容都存在记忆里随着视频变长这个记忆会以平方级增长。生成10秒的视频需要100单位的记忆生成60秒就需要3600单位——这正是为什么大多数视频生成系统在60秒面前束手无策不是算法不够好是内存直接爆掉了。SANA-WM解决这个问题的核心思路可以用随手笔记本来理解。传统注意力机制就像一个拍照记忆的学生把遇到的每一帧内容都完整保存下来考试的时候翻出来看。这当然准确但笔记本会越来越厚最后厚到根本翻不完。SANA-WM使用的门控增量网络Gated DeltaNet简称GDN机制则更像一个善于做总结的学生它维护一个固定大小的笔记本每次遇到新内容就把新内容消化进笔记本里同时淡化那些已经不那么重要的旧内容。笔记本永远只有一本不管视频有多长记忆的大小保持不变。但仅仅靠这本总结笔记本还不够——有时候你需要精确回忆某个特定的细节这不是总结能做到的你得翻出原始记录。所以SANA-WM在大量使用GDN的同时每隔几层就安插一个传统的精确注意力层相当于在总结笔记本之外每隔一段时间拍一张高清照片存档。这种混合设计在节省内存的同时保留了关键细节的精确回忆能力。具体来说整个网络有20层其中15层使用GDN做高效的记忆更新第3、7、11、15、19层使用传统的精确注意力。这个比例经过了反复实验调整在速度和质量之间找到了最优平衡点。另一个加速生成的关键技术是视频压缩。SANA-WM使用了LTX2的视频编码器VAE这个编码器能把原始视频压缩到极小的体积——比同类系统小2到8倍。打个比方原始视频是一部厚厚的词典LTX2 VAE把它压缩成一张小卡片AI只需要处理这张卡片而不是整本词典。等生成完成之后再把卡片还原成完整的词典。这个压缩率的提升直接把训练时间和推理时间大幅压缩。---三、摄像机控制如何让AI精确听懂往左转20度世界模型的另一个核心挑战是动作控制——你指定摄像机的移动轨迹AI生成的视频必须忠实还原这个轨迹。这件事比听起来难得多。想象一个导演告诉摄影师把镜头缓慢向右平移3米。摄影师不仅要移动摄像机还要确保整个过程中焦距、构图、光线都保持合理前一秒画面里的每个物体在下一秒出现的位置要符合三维空间的几何关系。AI需要做同样的事情但它面对的是压缩后的、抽象的数学表示而不是真实的三维空间。SANA-WM采用了双路摄像机控制设计来解决这个问题这两条路分别负责不同精度的控制信号。第一条路负责大方向。它使用一种叫做UCPE统一摄像机位置编码的技术把摄像机在每个时刻的完整6自由度姿态位置X/Y/Z加上俯仰/偏转/滚转三个角度合计6个数字转化为一种特殊的几何信号直接注入到AI处理信息的注意力层里。这就像给AI一个精确的GPS坐标让它知道摄像机现在在哪、朝向哪里。但这里有一个问题视频编码器会把连续的8帧原始视频压缩成1帧潜在变量。也就是说经过压缩之后原本8个不同位置的摄像机姿态在AI眼里只剩下1个代表性姿态8帧之间的细微移动信息丢失了。第二条路就是为了弥补这个损失而设计的。它使用普吕克射线图Plücker Raymap技术在原始帧率未压缩下为每一帧生成一张描述每个像素视线方向的图。对于压缩成1个潜在帧的8个原始帧系统把这8帧的射线图打包成一个48通道的信息通过一个专门的处理模块注入到网络里从而恢复那些被压缩丢失的精细摄像机运动信息。两条路各司其职大路负责全局轨迹小路负责局部精度。实验证明只用其中一条路的效果都不如两条路同时使用——特别是摄像机运动一致性这个指标双路方案比单独用UCPE或者单独用普吕克方案都要好很多。---四、生成分两步走先打草稿再细细打磨即使有了高效的骨干网络和精确的摄像机控制SANA-WM的团队发现单阶段生成的视频质量还不够理想——特别是在细节纹理、局部清晰度和长时间保持稳定方面。于是他们引入了第二阶段精炼器。整个流程类似于先用铅笔打草稿再用钢笔和水彩精细刻画。第一阶段的SANA-WM负责生成结构正确、动作连贯的草稿视频第二阶段的精炼器则在这个草稿的基础上大幅提升细节质量。精炼器使用了一种叫做截断-σ流匹配的训练方式。简单解释它学习的是如何把一段加了大量噪点的草稿视频还原成清晰的高质量视频而不是从完全的噪点中凭空生成视频。这个区别很关键——因为它已经知道大致的内容是什么草稿只需要专注于让画面更清晰这件事任务更专注效果自然更好。精炼器的基础是一个更大的模型——LTX-2参数量高达170亿是SANA-WM主体的将近7倍。但研究团队没有对这个巨大的模型进行全量训练而是只训练了一小部分参数称为LoRA适配器秩为384这让精炼阶段的训练成本保持在可接受范围内。值得一提的是精炼器是专门针对一分钟长视频场景重新训练的而不是直接使用原版LTX-2的精炼器。实验对比表明如果直接用原版短视频精炼器处理一分钟视频效果非常差——视觉质量反而下降摄像机控制精度也大幅劣化。专门适配过的长视频精炼器则在各项指标上都有明显提升特别是视频后半段的画面稳定性用ΔIQ指标衡量从4.65降至0.31越低越稳定。---五、数据从哪来从公开视频里挖出带坐标的训练集一个常被忽视但同等重要的问题是训练数据从哪来要训练摄像机控制能力AI不仅需要看视频还需要知道每个视频里摄像机在每一帧的精确位置和朝向——也就是6自由度的摄像机姿态标注。这种标注在工业界通常是花大价钱专门采集的或者来自有GPS记录的专业设备拍摄的视频。SANA-WM的团队选择了另一条路从公开互联网视频里自动推算摄像机轨迹。他们开发了一套自动标注流水线核心是把几个现有的工具组合起来使用。这套流水线的工作方式可以类比成从一段行车记录仪视频里推算出汽车的GPS轨迹。系统首先用一个叫VIPE的工具做视觉跟踪和特征匹配相当于找出视频里的路标然后用Pi3X分析每帧之间的三维结构关系相当于用路标位置推算汽车的移动最后用MoGe-2来恢复真实的物理尺度相当于确定路标之间的真实距离而不只是相对比例。这套组合有一个之前版本没解决好的问题原版VIPE使用的深度估计模型在长视频上表现不稳定。研究团队把深度估计模块换成了Pi3X擅长处理长序列的三维一致性和MoGe-2擅长提供精确的真实尺度并且把两者的结果通过加权最小二乘法融合再用时间平滑处理消除帧间抖动。此外他们还把原本固定焦距的假设改成了每帧独立优化焦距这让系统能正确处理那些焦距会变化的互联网视频。经过这套流水线处理他们从多个公开数据集里筛选出了约21.3万段视频涵盖真实室内外场景、游戏画面、合成场景等多种类型每段视频都附带了经过验证的精确摄像机轨迹标注。其中还有一个有趣的数据增强环节对于那些只有静态3D场景扫描数据的数据集DL3DV团队用高斯散点绘制技术3D Gaussian Splatting把静态场景还原成可以飞行的三维模型然后设计各种各样的摄像机运动路径从中渲染出全新的视频。这相当于用一张建筑模型图生成了在这栋建筑里从各种角度、用各种运动方式拍摄的视频大幅增加了训练数据的多样性。---六、怎么训练循序渐进从简单到复杂SANA-WM的训练不是一步到位的而是分四个阶段循序渐进每个阶段聚焦解决一个问题稳定之后再进入下一阶段。第一阶段让AI学会说一种新的压缩语言。原始SANA-Video模型使用的是一种视频压缩格式但SANA-WM要换用更高压缩比的LTX2格式。这两种格式的数据分布差异很大就像一个习惯写繁体字的人要切换到简体字——内容相同但书写规则完全不同。这一阶段对整个模型做了5万步的全量微调约耗时3.5天。第二阶段引入混合注意力机制。把GDN块和传统精确注意力块交替组合的新架构替换进来但只在短视频5秒上训练原因是短视频训练更快、更容易调试、出问题也更容易定位。这一阶段约耗时2天。第三阶段真正的长视频训练。序列长度延伸到60秒961帧同时把双路摄像机控制也加进来。这是最耗时的阶段约需8天并且使用了上下文并行技术把长序列切分到多块GPU上并行处理。第四阶段生成质量的精细调优以及推理加速。从双向生成模型出发训练一个逐段生成的自回归变体用于边生成边输出的流式场景然后用自强迫蒸馏技术把推理步数从60步压缩到4步速度提升约27倍。为了让它能在内存较小的消费级显卡上运行还加入了注意力锚点Attention Sink机制把滑动窗口注意力的内存占用控制在常数级别。---七、横向比较SANA-WM在同类系统中处于什么位置为了公平评测研究团队专门构建了一套全新的评测基准因为现有的评测标准没有一个是专门为一分钟世界模型设计的。他们用一个叫做Nano Banana Pro的图像生成工具生成了80张初始场景图片覆盖游戏风格、室内、城市户外、自然户外四类场景每类20张。每张图片配有两套摄像机轨迹一套是简单轨迹平滑的单向直线或弧线运动另一套是困难轨迹包含大角度旋转、垂直运动、螺旋、双重循环等复杂路径。评测视频时长统一为60秒帧率16fps。评测指标分为两大类视觉质量用VBench一套业界认可的视频质量评测工具来衡量包含主体一致性、背景一致性、时间闪烁、运动流畅度、美学质量、图像清晰度等多个维度摄像机控制精度则用Pi3X从生成视频里反推摄像机轨迹再与输入的目标轨迹做比较得到旋转误差RotErr单位度、平移误差TransErr和摄像机运动一致性CamMC三个数字越小越好。在所有参与比较的系统中被比较的包括Infinite-World13亿参数480p单GPU、LingBot-World14B加14B双模型480p需要8块GPU、HY-WorldPlay80亿参数480p需要8块GPU、Matrix-Game 3.050亿参数720p需要8块GPU。摄像机控制精度方面SANA-WM加精炼器版本在简单轨迹上的旋转误差为4.50度在困难轨迹上为8.34度这两个数字都比所有对比系统要好其中最接近的竞争者在简单轨迹上的旋转误差是10.47度LingBot-World困难轨迹上是18.79度Matrix-Game 3.0。视觉质量方面SANA-WM加精炼器在简单轨迹上得到80.62分的VBench综合分困难轨迹上是81.89分与LingBot-World的81.82/81.89基本持平。考虑到LingBot-World使用的是两个14B模型串联、需要8块GPU、且分辨率只有480pSANA-WM能在720p分辨率下单GPU运行并达到接近的视觉质量这个对比相当有说服力。推理效率方面SANA-WM在8块H100上的吞吐量达到24.1个视频/小时加精炼器后22.0个/小时而最快的480p基准系统Infinite-World只有5.9个/小时也就是说SANA-WM的生产效率比同等硬件下最快的480p竞品还快约4倍比LingBot-World快约36倍。另外还有一个专门测试场景记忆的指标当摄像机转了一圈又回到接近原来的位置时生成视频里的场景是否还能和出发时保持一致SANA-WM加精炼器在困难轨迹上的PSNR峰值信噪比达到14.80分贝在所有对比系统中排名第一。这意味着即使经历了60秒的复杂移动SANA-WM生成的世界在回访时仍然最接近之前看到的样子。---八、在更小的设备上运行从服务器到消费级显卡从研究原型到实际可用还有一段路要走。SANA-WM的团队花了不少精力把推理成本压缩到消费级硬件可以承担的范围。从原始的60步推理开始第一步是蒸馏——用一种叫做自强迫蒸馏的技术训练一个学生模型让它只用4步就能完成原来60步的工作。这一步把推理时间从21.7分钟压缩到43秒DiT部分速度提升约30倍而质量损失在可接受范围内。之后加入注意力锚点机制把软注意力层改成固定大小的滑动窗口使得显存占用不随视频长度增加。这让系统能在RTX 5090上消费级旗舰显卡显存80GB以下运行总时间进一步降至48秒。最后一步是NVFP4量化——把模型权重的数值精度从标准的BF16每个参数16位压缩到FP4每个参数4位数据量减少为原来的四分之一。这个优化把最终时间压到了34秒完成一段60秒的720p视频约合实时速度的1.8倍生成速度比视频本身的播放速度快80%。整个优化路径清晰展示了从实验室原型到实际可用的工程化过程每一步的收益都有明确的数据支撑。---九、这项研究的局限和未来方向研究团队在论文中坦诚地列出了SANA-WM目前的不足之处。模型规模仍然有限——26亿参数对于捕捉复杂世界的多样性来说并不算多在动态场景有移动物体、罕见视角、超过一分钟的超长视频这些情况下质量会有明显下降。与此同时SANA-WM目前没有显式的三维场景记忆它通过神经网络隐式记住场景而不是像游戏引擎那样维护一个明确的三维模型这在非常长的视频或非常大角度的绕行场景里仍然会出现漂移。在控制信号方面SANA-WM目前只支持摄像机轨迹控制。未来的方向包括加入机器人关节控制、物体运动跟踪、点云追踪等更丰富的控制接口以及支持实时流式生成目前仍需要提前确定整段视频的轨迹。从数据的角度看21.3万段视频的训练集规模相对较小——这是研究者在有限资源下做出的折衷但也意味着模型在某些场景类型特别是训练集覆盖不足的场景上的泛化能力有待提升。---归根结底SANA-WM要证明的核心命题是大不一定好聪明的工程设计可以用小模型做出接近大模型的事情。它在五个关键环节上都做了非平庸的选择——高压缩比的视频编码、混合记忆机制的长序列处理、双路摄像机控制的精度、两阶段生成的质量提升、以及从公开数据里自动挖掘姿态标注——每一个选择都直接作用于训练或推理成本的节省而不是纯粹追求质量数字。这对普通用户意味着什么最直接的影响是一年或两年之后类似的世界模型技术可能出现在消费级游戏引擎、VR内容制作工具、乃至手机应用里。届时你只需要拍一张照片并用手指划出一条移动路线就能看到那个场景在你的路线下展开的样子。当然研究者们也提醒了潜在的风险高质量的生成视频很容易被误认为真实记录特别是在来源不明的情况下。这不是世界模型独有的问题但随着质量的持续提升这个问题会变得越来越值得认真对待。对这个话题感兴趣的读者可以通过arXiv编号2605.15178找到SANA-WM的完整论文论文附有详细的技术细节、消融实验和附录数据供有兴趣深入了解技术细节的读者参考。---QAQ1SANA-WM和普通的文字生成视频工具有什么区别ASANA-WM是世界模型需要输入一张图片加上摄像机移动轨迹生成的视频要忠实还原指定的空间移动路径注重三维空间的一致性。普通文字生成视频工具只需要文字描述不需要精确跟随任何物理轨迹更像创作工具而非空间模拟工具。两者的核心目标不同——SANA-WM要模拟空间普通视频生成工具要创作内容。Q2SANA-WM生成视频需要什么硬件ASANA-WM有多个版本适应不同硬件。基础版需要一块H100专业显卡用60步推理生成一分钟视频约需22分钟。蒸馏加速版结合4步推理和FP4量化后可以在消费级RTX 5090显卡上运行34秒生成一段完整的60秒720p视频。训练阶段使用了64块H100运行15天但推理只需单卡。Q3SANA-WM的摄像机控制精度有多准A在官方评测基准的简单轨迹上SANA-WM含精炼器的旋转误差为4.50度明显优于所有对比系统最接近的竞品旋转误差在10度以上。在包含大角度旋转、螺旋、双重循环的困难轨迹上旋转误差为8.34度同样排名第一。不过在极长视频或特别复杂的动态场景里控制精度仍有下降空间。