点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Jiawei Zhou等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球最近自动驾驶 world model 确实很火。前两天和大家聊的是理想的前馈 GS 方案 StreetForward今天分享的是浙大 小米的 PhyGenesis。PhyGenesis 主要针对的是当前自动驾驶 world model 的一个“结构性缺陷”模型在视觉上可以生成合理视频但在物理上并不成立一旦输入条件异常就会彻底失真。从去年开始大家已经越来越习惯看各种 multi-view driving video generation 的 demo给一帧初始图像、给一段未来轨迹模型就能把未来十几帧甚至几十帧场景生成出来。白天变夜晚正常驾驶、变道超车、路口会车看起来都挺像那么回事。但这个方向一直有一个很尴尬的问题它们生成出来的视频很多时候只是“视觉上像”不一定“物理上真”。平时你给它一个正常轨迹它问题不大。可一旦输入条件开始变脏 —— 比如 planner 给了一个不太合理的轨迹仿真器吐出了一个带碰撞穿插的未来场景或者你故意给它一个反事实条件 —— 模型就很容易原形毕露车会穿模物体会变形碰撞之后不该继续往前的车还在往前滑甚至整个场景直接开始垮掉。所以本质问题可以归纳为两点1输入条件空间不受约束模型不会判断“物理可行性”2训练数据分布过于单一模型缺乏对异常动力学的建模能力。因此当前 world model 更接近“conditional video generator”而不是“可用于仿真和决策验证的物理世界模型”。小米的这篇 PhyGenesis 就是想补上这一层 —— 让生成模型具备物理一致性physical consistency和错误轨迹纠正能力trajectory correction。它尝试回答一个更底层的问题自动驾驶 world model到底是一个 trajectory-to-video 的条件生成器还是一个真的能理解物理世界约束的“世界模型”从这个角度看PhyGenesis 的核心思想可以用一句话概括先让世界变得合理再去渲染这个世界。这句话听起来很朴素但它其实是在重构自动驾驶 world model 的问题定义 —— Physical AI。过去很多方法更像是在做trajectory → video而 PhyGenesis 想做的是trajectory → physics-consistent state → video也就是在“生成视频”之前显式插入一层物理世界推理层。这不是小修小补而是结构层面的改写。论文标题Toward Physically Consistent Driving Video World Models under Challenging Trajectories论文链接https://arxiv.org/abs/2603.24506项目主页https://wm-research.github.io/PhyGenesis/为什么现在自动驾驶仿真会卡在“物理一致性”PhyGenesis 总结了两个根本问题我觉得说得非常准。第一现有模型普遍没有轨迹可行性意识。仿真器、规划器甚至用户交互给出的 trajectory可能存在重叠、穿透、速度不连续、曲率异常这些违反物理约束的情况。但很多 world model 本质上只是一个 condition-to-pixel translator。你给它什么条件它就硬着头皮往视觉上翻译至于这个条件本身合不合理它并不会判断。第二现有模型普遍没见过足够多的“坏世界”。主流真实数据集尤其像 nuScenes 这种绝大部分都还是安全、正常的驾驶行为。碰撞、越界、急停、失控、多车极端交互本来就是稀缺样本。结果就是模型训练时只学会了“安全世界该怎么长”一旦推理到 corner case就会崩。PhyGenesis 里反复强调的其实就是这个分布过于单一的问题。所以 PhyGenesis 不是在解决“画质不够好”的问题而是在解决一个更现实的落地问题当输入本身不干净甚至不合理的时候world model 还能不能输出一个物理上自洽的未来场景。PhyGenesis 的核心是两层分工PhyGenesis 整体由两部分组成第一层叫Physical Condition Generator 第二层叫Physics-Enhanced Multi-view Video GeneratorPE-MVGen。你可以把它理解成一个“先纠错再渲染”的双阶段系统。也就是我们前面说的“先让世界变得合理再去渲染这个世界。”Physical Condition Generator第一层的Physical Condition Generator它的作用不是生成图像而是对输入的 agent trajectory 做“物理修复”。这里的关键不是简单平滑轨迹而是做一个多智能体、受地图约束、符合动力学的6-DoF状态重建它会显式建模车辆之间的交互例如避免空间重叠、考虑地图约束例如不能开出道路边界并在时间维度上保持连续性避免速度/加速度突变。可以把它理解成一个“learned physics engine”输入是可能错误的轨迹输出是一个最接近原始意图但符合物理约束的轨迹版本。这部分是 PhyGenesis 最值得讲的地方。具体地说系统拿到的是未来 (T) 帧里所有车辆的二维位置问题在于这种 2D 轨迹表示虽然和主流 planner / simulator 的输出格式兼容但它天然不包含姿态、俯仰、翻滚和垂向信息更不具备“碰撞以后该怎么变”的物理表达能力。于是论文的第一步就是把它变成物理对齐的 6-DoF trajectory。这里最关键的一点是它不是在做轨迹平滑而是在做轨迹纠错。这和很多人第一眼看到时的直觉不一样。不是“把抖动变顺”而是“把错误世界修成合理世界”。这也就是论文里面说的learned physics engine我觉得非常贴切。因为它确实同时在建模三件事车辆之间的交互避免空间重叠和相互穿透地图约束不能直接开出道路边界时间连续性不能出现不合理的速度/加速度突变。而真正让这个模块work的是“反事实轨迹纠错”训练任务。整体看下来 PhyGenesis 最有意思的地方还不是架构而是训练数据构造。他们没有满足于“拿真实轨迹做监督”而是主动构造了一种counterfactual trajectory rectification任务。做法是这样对于 simulated collision clip碰撞前的轨迹保留原样碰撞后的部分故意用碰撞前速度继续往前外推于是就制造出一种“物理上不该发生、但规划器可能真会吐出来”的错误轨迹而 simulator 里的真实日志则作为纠正目标。这本质上是在教模型一件很重要的事什么叫“错误的物理”。而且它不是靠手写规则去教而是靠“错误轨迹 → 正确轨迹”的学习配对去教。一句话总结这一层就是Physical Condition Generator 的意义在于它把 planner 的脏输出当成了 world model 的正式输入分布。PE-MVGen不只是生成视频而是在“物理修正之后”生成视频。第二层的Physics-Enhanced Video Generator这一部分才是我们熟悉的 world model类似 diffusion / video generation但关键在于它的输入已经不再是“脏的 trajectory”而是经过物理修正后的条件因此生成时不需要“猜测物理是否合理”而是只需专注于视觉一致性、多视角一致性以及时序平滑。换句话说物理约束被前置成条件而不是让生成模型隐式学习。PE-MVGen底子来自Wan2.1这个高容量 的 diffusion transformer再加上 3D VAE 做 latent 编码。它会把多视角 clip 编码到 latent space 里并通过把 view 维拼进 spatial 轴的方式让同一个 self-attention 同时建模 cross-view dependency。具体来说PhyGenesis 会把未来帧的 3D agent boxes 和 map polylines 投影到每个相机树胶形成 view-specific 的 control image再编码成layout条件送进 DiT。训练目标沿用 Wan2.1 的 rectified flow / flow matching 范式并通过去学习从噪声到视频 latent 的速度场。但 PE-MVGen 真正有价值的地方不在于“它用了 DiT”而在于它吃进去的 condition 已经不再是原始轨迹而是经过物理修正后的条件。物理约束被前置成了条件生成器可以专注在多视角一致性、时间一致性和视觉保真度上。只靠真实世界数据不够这一点也非常关键。PhyGenesis 并不是只靠架构获胜它的另一半战斗力来自数据。PhyGenesis用 CARLA 构建了一套物理富集的异构数据集。原始仿真数据大约 31 小时其中 CARLA-Adv 有 15.5 小时、约 76 万个标注框CARLA-Ego 有 15.2 小时、约 83 万个框。然后再利用碰撞传感器 和 HD map 元数据精确筛出 9.7 小时的 物理挑战性 clips最后和 4.6 小时真实世界数据一起组成 heterogeneous dataset。这些数据不是随便跑出来的他们会扰动 route 和 target speed专门诱导 碰撞、出车道、突然变速 这些极端事件。这一步也是想利用仿真的能力补齐真实数据最稀缺的corner case也就是失败世界、异常世界、碰撞世界。实验结果1在 2D 轨迹下PhyGenesis 全面领先。Table 1 里nuScenes 用 nominal trajectoriesCARLA Ego 和 CARLA ADV 用 physics-violating trajectories。结果 PhyGenesis 在三套数据上都拿了最好的结果。尤其在两套更难的 CARLA 数据上优势非常明显2输入真值它也还是更强论文又做了一组实验不给反事实轨迹所有方法都吃真实轨迹。 按理说这时候 Physical Condition Generator 的价值会变小因为输入本身已经是合理的。可结果依然是 PhyGenesis 最强。说明它的提升不只是“前面多了个纠错器”后面的 PE-MVGen 由于见过更多 physics-rich data本身也真的学会了更复杂的物体—环境交互。换句话说它不只是会修输入也更能理解极端世界。3Physical Condition Generator 确实在“修世界”不是装饰件Table 3 专门测了 trajectory rectification 的效果。4消融实验的结论很硬这其实已经给出一个很强的结构性结论了只把模型做大、只在 nominal data 上继续刷并不能自然长出“物理一致性”。你得明确告诉系统哪一部分负责判断世界是否合理哪一部分负责在合理世界上做渲染。最后看一些可视化结语回头看PhyGenesis 的价值不在于提出了一个更强的 video generator而在于想明确指出并验证一件事自动驾驶 world model 不必只靠生成模型本身学习物理规律也可以显式的引入“物理约束层”或“状态修正机制”。把world model从“视觉生成问题”重新定义为一个三层结构轨迹理解trajectory reasoning 物理一致性建模physics layer 视觉生成rendering这是一个非常关键的范式转变。所以世界模型需要向 “可用于决策闭环” 的方向发展只有当模型能够处理错误输入、生成合理交互并覆盖极端场景时它才有可能真正用于仿真测试、planner evaluation 甚至训练闭环而不仅仅是做 demo 视频生成。这篇论文也是在补一块基础能力让生成世界具备“纠错能力”和“物理可信度”这才是从“AI生成内容”走向“AI模拟现实”的关键一步。自动驾驶之心求点赞求分享求喜欢
小米最新的 PhyGenesis,也在把Physical AI注入到自动驾驶世界模型
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Jiawei Zhou等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球最近自动驾驶 world model 确实很火。前两天和大家聊的是理想的前馈 GS 方案 StreetForward今天分享的是浙大 小米的 PhyGenesis。PhyGenesis 主要针对的是当前自动驾驶 world model 的一个“结构性缺陷”模型在视觉上可以生成合理视频但在物理上并不成立一旦输入条件异常就会彻底失真。从去年开始大家已经越来越习惯看各种 multi-view driving video generation 的 demo给一帧初始图像、给一段未来轨迹模型就能把未来十几帧甚至几十帧场景生成出来。白天变夜晚正常驾驶、变道超车、路口会车看起来都挺像那么回事。但这个方向一直有一个很尴尬的问题它们生成出来的视频很多时候只是“视觉上像”不一定“物理上真”。平时你给它一个正常轨迹它问题不大。可一旦输入条件开始变脏 —— 比如 planner 给了一个不太合理的轨迹仿真器吐出了一个带碰撞穿插的未来场景或者你故意给它一个反事实条件 —— 模型就很容易原形毕露车会穿模物体会变形碰撞之后不该继续往前的车还在往前滑甚至整个场景直接开始垮掉。所以本质问题可以归纳为两点1输入条件空间不受约束模型不会判断“物理可行性”2训练数据分布过于单一模型缺乏对异常动力学的建模能力。因此当前 world model 更接近“conditional video generator”而不是“可用于仿真和决策验证的物理世界模型”。小米的这篇 PhyGenesis 就是想补上这一层 —— 让生成模型具备物理一致性physical consistency和错误轨迹纠正能力trajectory correction。它尝试回答一个更底层的问题自动驾驶 world model到底是一个 trajectory-to-video 的条件生成器还是一个真的能理解物理世界约束的“世界模型”从这个角度看PhyGenesis 的核心思想可以用一句话概括先让世界变得合理再去渲染这个世界。这句话听起来很朴素但它其实是在重构自动驾驶 world model 的问题定义 —— Physical AI。过去很多方法更像是在做trajectory → video而 PhyGenesis 想做的是trajectory → physics-consistent state → video也就是在“生成视频”之前显式插入一层物理世界推理层。这不是小修小补而是结构层面的改写。论文标题Toward Physically Consistent Driving Video World Models under Challenging Trajectories论文链接https://arxiv.org/abs/2603.24506项目主页https://wm-research.github.io/PhyGenesis/为什么现在自动驾驶仿真会卡在“物理一致性”PhyGenesis 总结了两个根本问题我觉得说得非常准。第一现有模型普遍没有轨迹可行性意识。仿真器、规划器甚至用户交互给出的 trajectory可能存在重叠、穿透、速度不连续、曲率异常这些违反物理约束的情况。但很多 world model 本质上只是一个 condition-to-pixel translator。你给它什么条件它就硬着头皮往视觉上翻译至于这个条件本身合不合理它并不会判断。第二现有模型普遍没见过足够多的“坏世界”。主流真实数据集尤其像 nuScenes 这种绝大部分都还是安全、正常的驾驶行为。碰撞、越界、急停、失控、多车极端交互本来就是稀缺样本。结果就是模型训练时只学会了“安全世界该怎么长”一旦推理到 corner case就会崩。PhyGenesis 里反复强调的其实就是这个分布过于单一的问题。所以 PhyGenesis 不是在解决“画质不够好”的问题而是在解决一个更现实的落地问题当输入本身不干净甚至不合理的时候world model 还能不能输出一个物理上自洽的未来场景。PhyGenesis 的核心是两层分工PhyGenesis 整体由两部分组成第一层叫Physical Condition Generator 第二层叫Physics-Enhanced Multi-view Video GeneratorPE-MVGen。你可以把它理解成一个“先纠错再渲染”的双阶段系统。也就是我们前面说的“先让世界变得合理再去渲染这个世界。”Physical Condition Generator第一层的Physical Condition Generator它的作用不是生成图像而是对输入的 agent trajectory 做“物理修复”。这里的关键不是简单平滑轨迹而是做一个多智能体、受地图约束、符合动力学的6-DoF状态重建它会显式建模车辆之间的交互例如避免空间重叠、考虑地图约束例如不能开出道路边界并在时间维度上保持连续性避免速度/加速度突变。可以把它理解成一个“learned physics engine”输入是可能错误的轨迹输出是一个最接近原始意图但符合物理约束的轨迹版本。这部分是 PhyGenesis 最值得讲的地方。具体地说系统拿到的是未来 (T) 帧里所有车辆的二维位置问题在于这种 2D 轨迹表示虽然和主流 planner / simulator 的输出格式兼容但它天然不包含姿态、俯仰、翻滚和垂向信息更不具备“碰撞以后该怎么变”的物理表达能力。于是论文的第一步就是把它变成物理对齐的 6-DoF trajectory。这里最关键的一点是它不是在做轨迹平滑而是在做轨迹纠错。这和很多人第一眼看到时的直觉不一样。不是“把抖动变顺”而是“把错误世界修成合理世界”。这也就是论文里面说的learned physics engine我觉得非常贴切。因为它确实同时在建模三件事车辆之间的交互避免空间重叠和相互穿透地图约束不能直接开出道路边界时间连续性不能出现不合理的速度/加速度突变。而真正让这个模块work的是“反事实轨迹纠错”训练任务。整体看下来 PhyGenesis 最有意思的地方还不是架构而是训练数据构造。他们没有满足于“拿真实轨迹做监督”而是主动构造了一种counterfactual trajectory rectification任务。做法是这样对于 simulated collision clip碰撞前的轨迹保留原样碰撞后的部分故意用碰撞前速度继续往前外推于是就制造出一种“物理上不该发生、但规划器可能真会吐出来”的错误轨迹而 simulator 里的真实日志则作为纠正目标。这本质上是在教模型一件很重要的事什么叫“错误的物理”。而且它不是靠手写规则去教而是靠“错误轨迹 → 正确轨迹”的学习配对去教。一句话总结这一层就是Physical Condition Generator 的意义在于它把 planner 的脏输出当成了 world model 的正式输入分布。PE-MVGen不只是生成视频而是在“物理修正之后”生成视频。第二层的Physics-Enhanced Video Generator这一部分才是我们熟悉的 world model类似 diffusion / video generation但关键在于它的输入已经不再是“脏的 trajectory”而是经过物理修正后的条件因此生成时不需要“猜测物理是否合理”而是只需专注于视觉一致性、多视角一致性以及时序平滑。换句话说物理约束被前置成条件而不是让生成模型隐式学习。PE-MVGen底子来自Wan2.1这个高容量 的 diffusion transformer再加上 3D VAE 做 latent 编码。它会把多视角 clip 编码到 latent space 里并通过把 view 维拼进 spatial 轴的方式让同一个 self-attention 同时建模 cross-view dependency。具体来说PhyGenesis 会把未来帧的 3D agent boxes 和 map polylines 投影到每个相机树胶形成 view-specific 的 control image再编码成layout条件送进 DiT。训练目标沿用 Wan2.1 的 rectified flow / flow matching 范式并通过去学习从噪声到视频 latent 的速度场。但 PE-MVGen 真正有价值的地方不在于“它用了 DiT”而在于它吃进去的 condition 已经不再是原始轨迹而是经过物理修正后的条件。物理约束被前置成了条件生成器可以专注在多视角一致性、时间一致性和视觉保真度上。只靠真实世界数据不够这一点也非常关键。PhyGenesis 并不是只靠架构获胜它的另一半战斗力来自数据。PhyGenesis用 CARLA 构建了一套物理富集的异构数据集。原始仿真数据大约 31 小时其中 CARLA-Adv 有 15.5 小时、约 76 万个标注框CARLA-Ego 有 15.2 小时、约 83 万个框。然后再利用碰撞传感器 和 HD map 元数据精确筛出 9.7 小时的 物理挑战性 clips最后和 4.6 小时真实世界数据一起组成 heterogeneous dataset。这些数据不是随便跑出来的他们会扰动 route 和 target speed专门诱导 碰撞、出车道、突然变速 这些极端事件。这一步也是想利用仿真的能力补齐真实数据最稀缺的corner case也就是失败世界、异常世界、碰撞世界。实验结果1在 2D 轨迹下PhyGenesis 全面领先。Table 1 里nuScenes 用 nominal trajectoriesCARLA Ego 和 CARLA ADV 用 physics-violating trajectories。结果 PhyGenesis 在三套数据上都拿了最好的结果。尤其在两套更难的 CARLA 数据上优势非常明显2输入真值它也还是更强论文又做了一组实验不给反事实轨迹所有方法都吃真实轨迹。 按理说这时候 Physical Condition Generator 的价值会变小因为输入本身已经是合理的。可结果依然是 PhyGenesis 最强。说明它的提升不只是“前面多了个纠错器”后面的 PE-MVGen 由于见过更多 physics-rich data本身也真的学会了更复杂的物体—环境交互。换句话说它不只是会修输入也更能理解极端世界。3Physical Condition Generator 确实在“修世界”不是装饰件Table 3 专门测了 trajectory rectification 的效果。4消融实验的结论很硬这其实已经给出一个很强的结构性结论了只把模型做大、只在 nominal data 上继续刷并不能自然长出“物理一致性”。你得明确告诉系统哪一部分负责判断世界是否合理哪一部分负责在合理世界上做渲染。最后看一些可视化结语回头看PhyGenesis 的价值不在于提出了一个更强的 video generator而在于想明确指出并验证一件事自动驾驶 world model 不必只靠生成模型本身学习物理规律也可以显式的引入“物理约束层”或“状态修正机制”。把world model从“视觉生成问题”重新定义为一个三层结构轨迹理解trajectory reasoning 物理一致性建模physics layer 视觉生成rendering这是一个非常关键的范式转变。所以世界模型需要向 “可用于决策闭环” 的方向发展只有当模型能够处理错误输入、生成合理交互并覆盖极端场景时它才有可能真正用于仿真测试、planner evaluation 甚至训练闭环而不仅仅是做 demo 视频生成。这篇论文也是在补一块基础能力让生成世界具备“纠错能力”和“物理可信度”这才是从“AI生成内容”走向“AI模拟现实”的关键一步。自动驾驶之心求点赞求分享求喜欢