生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收 ProPhy团队 投稿量子位 | 公众号 QbitAI当人们谈到“世界模型”World Models时很多人会首先想到近年来迅速发展的生成式视频模型。从通用生成模型Wan到NVIDIA的视频世界模型Cosmos这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景看起来仿佛真实世界的录像。在很多情况下这种能力已经足够令人惊叹模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看它们似乎已经“学会了”世界的运行方式。然而如果仔细观察这些视频就会发现一个耐人寻味的现象它们看起来很真实却未必真正“理解”物理世界。例如在一些生成视频中会看到无中生有、不断蔓延的蜂蜜△Wan△Prophy斧头劈柴结果不同步……△Wan△Prophy这些违背常识的细节正在暴露一个关键问题现有的视频生成模型本质上仍然停留在“外观拟合”而非真正的“物理建模”。换句话说它们可以生成“像物理”的画面却未必真正理解物体为何运动力如何传递物理现象应当在何处发生这也引出了一个越来越受到关注的问题生成式视频模型究竟是在“模拟世界”还是仅仅在“模仿世界”为突破这一瓶颈中山大学和MBZUAI等机构联合提出了ProPhy。该工作构建了一种全新的渐进式物理对齐框架使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力——不仅能够判断应当呈现何种物理现象更能够精准定位物理现象应发生在画面的何处。ProPhy的提出标志着视频生成模型从“视觉逼真”迈向“物理一致”向真正意义上的“世界模拟器”迈出了关键一步。目前该论文已被CVPR2026接近满分接收项目的论文和代码均已开源思考为什么视频模型学不会物理尽管现有模型在视觉逼真度上突飞猛进但在物理一致性方面却屡屡“翻车”。论文指出现有方法存在两个根本性瓶颈1. 缺乏显式的物理建模当前大多数方法依赖隐式学习或仅使用粗粒度的全局物理类别标签进行辅助。这种方式本质上只是让模型“模仿现象”却没有真正形成可区分、可组合的物理先验。换句话说模型或许能生成“像燃烧”“像碰撞”的画面但并未真正理解不同物理规律之间的差异是什么各类物理现象在现实世界中应如何演化。结果是——物理规律在模型内部仍然是模糊、混合且不可分解的。2. 缺乏细粒度空间对齐真实世界的物理现象往往发生在局部区域火焰在燃烧处、水花在接触点飞溅但模型往往“各向同性”响应缺乏对空间区域的差异化建模无法精准定位物理事件发生的位置。这意味着模型即使“知道”有火也未必能在正确位置燃烧即使“知道”有碰撞也未必遵守动量守恒。ProPhy把“物理专家”植入视频模型不再让模型模糊地“猜物理”而是让不同“物理专家”分别掌握不同物理规律并通过渐进式对齐进行协调两阶段物理专家机制MoPE第一阶段语义物理专家SEBSEB负责建立对场景整体物理结构的宏观理解。在这一阶段模型首先从文本提示中解析潜在的物理语义信息识别场景中可能涉及的物理现象类型。通过语义路由机制不同的物理专家如燃烧、反射、折射、流体运动等被动态激活并融合为统一的视频级物理先验表示。这一阶段的核心目标是回答一个全局问题“这个视频涉及哪些物理规律”第二阶段细粒度物理专家Refinement Expert Block, REB如果说SEB建立的是“物理种类”的认知框架那么REB则负责“物理位置”的精确落地。在获得全局物理先验之后模型进一步进入精细化对齐阶段。REB在token级别执行专家路由为每个空间位置动态分配最合适的物理专家使不同区域对不同物理规律产生差异化响应从而实现空间各向异性的物理建模。这一阶段解决的是一个更加关键的问题“物理现象具体发生在画面的哪里”专家知识向VLM借“物理感知能力”论文中一个极具启发性的发现是在“物理现象定位”这一能力上Vision-Language Model如Qwen2.5-VL往往比视频生成模型更精准。换言之生成模型擅长“画出来”但未必擅长“看清楚”。而VLM在跨模态理解与空间注意力分布上反而具备更强的物理事件定位能力。基于这一观察作者做了一件相当大胆的尝试——将VLM的物理感知能力迁移到生成模型中。具体而言利用VLM进行物理现象问答例如“视频中燃烧现象发生在哪里”提取对应的attention map构建token级物理定位信号将该信号对齐到生成模型的Refinement Router这本质上是一种跨模型的物理能力蒸馏与迁移。实验结果不仅更“守物理”更“会运动”定量评估在权威物理常识评测基准VideoPhy2上ProPhy展现出显著优势在Wan2.1-1.3B基座模型上Joint指标提升19.7%Physical CommonsensePC与Semantic AdherenceSA同步提升这意味着模型在“物理正确性”与“语义一致性”两个维度上同时增强而不是以牺牲语义为代价换取物理分数。在CogVideoX-5B上多项指标达到SOTA或次优水平在整体与困难子集HARD上均表现稳定ProPhy并非针对某一特定架构调优而是具备良好的通用性与可迁移性。在强调视频动态表现能力的VBench评测中Dynamic Degree指标显著提升综合质量评分同步提高视觉对比ProPhy带来的不仅是画质的提升更是物理逻辑层面的彻底重构。相比于传统方法中频发的现象触发错位、动量守恒违背或空间穿模ProPhy在动态表现上展现出了极高的现实一致性动作更严谨无论是掷铁饼时的瞬间扬尘还是球体碰撞的动量传递均清晰可辨交互更自然液体流向不再违背容器结构足球轨迹与落点保持逻辑统一。这标志着模型从追求视觉“形似”向遵循“世界规则”的本质跨越——它生成的不再只是视频而是一个受现实约束的动态世界。更多的定性分析也能够表明ProPhy能够在多个物理领域下生成更加符合物理实际的视频。更深层意义通向“可控物理世界模型”论文中还有一个极具启发性的实验。当研究者人为反转物理专家的路由权重时模型生成的结果发生了戏剧性变化——原本刚性的汽车车门竟然像布料一样随风飘动。这一现象并非偶然的生成失误而是一个强有力的证据不同物理专家模块确实学习到了彼此区分的物理先验。换句话说模型内部已经形成了结构化、可分解的物理知识表示。当研究团队干预专家选择时等于直接操控了物理规则本身。这不只是一次性能优化而是一次能力边界的拓展——视频生成模型第一次展现出向“可控物理世界模型”演化的潜力。未来这种结构化物理建模方式可能带来一系列全新的能力可控物理属性编辑让刚体变柔性让流体变黏稠直接操控物体的物理属性。物理规律迁移将某种物理行为模式迁移到新的场景或对象上实现跨场景物理泛化。物理参数调节调整重力强度、碰撞弹性、流体阻力等隐含参数实现“物理可编程生成”。可解释物理建模通过专家激活模式理解模型内部“相信”的物理规律提升透明度与可分析性。△Inverted Experts