事件驱动的视觉-语言-动作预训练新范式01 引言具身智能的下一程近年来具身基础模型Embodied Foundation Models的进展日益受到多模态理解模型与视频基础模型的驱动。从 RT-2 到 π0从 OpenVLA 到 Gr00t N1视觉-语言-动作Vision-Language-Action, VLA模型正在将互联网规模的语义先验迁移到机器人控制领域。然而一个结构性难题始终横亘在规模化路径之上语言描述的是语义目标与事件视觉演化遵循连续的场景动力学而动作则运行在控制级的时间尺度上——三者被迫塞进同一个固定长度的预测窗口本质上造成了粒度不匹配。WALL-WMWorld Action Model at Event Joints正是针对这一不匹配提出的系统性解决方案。该项目由 X Square Robot Team 提出核心思想是将视频-动作学习的原子单位从固定长度动作块fixed-length action chunk转向语义连贯的动作事件action-grounded semantic event例如接近-抓取-提升-转移-放置等可命名、可观测、可执行的物理行为片段。通过事件驱动的 VLA 预训练与配套的数据生态WALL-WM 在多样化语言指令、场景与任务中展现出广泛的泛化能力并在大规模真实机器人评估中取得了领先表现。图 1WALL-WM 模态层次对齐概念图与综合性能对比。左侧展示了文本、视觉、动作与触觉在语义抽象度与时空精度上的层次差异右侧柱状图显示其在机器人操作与视频生成指标上的优势。来源WALL-WM 技术报告 Figure 102 核心挑战固定块带来的结构性错配现有大多数具身基础模型采用一种便捷的块中心chunk-centric范式从当前观测与语言指令出发预测固定长度的未来动作块。这种形式在数据批量处理与工程部署上确实高效但其背后隐藏着一个根本性的结构问题——它用外部时钟切割具身动力学而语言、视觉与动作本就在不同的语义与时间尺度上演化。具体而言语言指令通常描述全局任务或语义事件如将散落的物品整理成整齐有序的排列视觉观测在每一帧都发生变化呈现连续的场景动力学而动作对接触、时机与微小扰动极为敏感需要在毫秒级精度上响应。将这三者强行对齐到同一个固定长度窗口会导致训练过程退化为短视域相关拟合short-horizon correlation fitting模型不仅未能充分利用预训练得到的视觉-语义先验反而可能用块级别的动作捷径覆盖掉这些先验最终削弱组合泛化与长程泛化能力。WALL-WM 将这一观察提炼为三项设计原则几何保持Geometry Preservation连接语言、视频与动作但避免将其原生结构坍缩到单一的共享嵌入空间先验保持Prior Preservation与视频基础模型继承而来的文本描述→视频生成结构保持兼容可执行因果性Executable Causality提供具有清晰时序支撑的预测目标同时允许持续时间跟随任务本身而非固定时钟。基于上述原则WALL-WM 将固定长度动作块替换为以动作为基础的语义事件一个时间连贯的可执行行为片段其起点与终点由底层可执行行为的变化决定而非外部计时器。这种事件在语言中可被命名在视频中可被观测在动作中可被实现从而同时满足三大模态的需求。03 架构设计事件中心的世界动作建模3.1 整体框架层耦合的视频-动作去噪器WALL-WM 的架构可被概括为先验对齐的多模态预训练栈一个继承自 Wan 系列文本-视频模型的视频塔Video Tower与一个随机初始化的动作 DiTDiffusion Transformer进行层间耦合。在预训练阶段视频编码器保持固定跨模态对齐通过逐层视频-动作耦合学习得到。整个预训练围绕事件级别组织每个样本是从长程 episode 中雕刻出的原子事件模型在当前观测条件下对事件对齐的未来视频与动作进行去噪。图 3WALL-WM 整体框架。系统通过语言引导推理生成下一事件描述随后由多视角视频 DiT 与动作 Transformer 联合去噪未来视频隐变量与末端执行器轨迹执行与回滚构成闭环。来源WALL-WM 技术报告 Figure 33.2 多视角视觉世界事件建模视频塔在 Wan 单视角 DiT 的基础上扩展为多视角、多具身视频生成器。研究团队引入了三个关键扩展多视角适配Multi-View Adaptation在每个 DiT 块中于常规单视角自注意力之后增加跨视角分支。该分支将多路相机在同一帧内的空间 token 拼接为联合序列并执行自注意力再通过零初始化的输出投影器与 AdaLN 门控加回单视角流。由于投影器初始化为零该分支在初始化时不产生任何影响确保预训练的单视角行为被完整保留跨视角交互仅在训练过程中逐步习得。Camera RoPE为支撑大规模多具身训练WALL-WM 为每个相机赋予可学习的旋转身份rotary identity无需在推理时输入标定参数。研究者在标准 RoPE 的基础上增加视角轴将每个头的频率库划分为 (f, h, w, view) 四个维度其中视角旋转来自一个跨层共享的可学习嵌入。增减相机仅需修改嵌入表无需重新设计网络结构。跨视角几何掩码Cross-View Geometric Masking训练时引入两种互补的几何感知掩码机制。视锥掩码Sight-Cone Masking基于相机内外参与畸变参数为每对视频 token 判断其反投影视线锥是否在三维空间中相交仅在几何共视的 token 对之间允许跨视角注意力其余路径以负无穷偏置屏蔽。Tube Patch Masking则以一定概率在单视角的时空管状区域上施加掩码迫使模型只能通过其他视角恢复被掩内容从而强化跨视角对应关系。两种掩码仅在训练时使用推理阶段完全丢弃保证部署时无需标定。图 4WALL-WM 跨视角掩码机制示意图。左视锥掩码判断两 token 是否共享三维视域右Tube Mask 在单视角时空管上施加掩码迫使跨视角信息恢复。来源WALL-WM 技术报告 Figure 43.3 事件中心动作动力学建模动作塔是与视频塔等深的动作 DiT。在每个层级动作 token 通过交叉注意力读取对应视频块的特征整个堆栈通过流匹配flow matching对末端执行器轨迹进行去噪。为了处理视频与动作的不同时间密度WALL-WM 设计了两种窗口布局事件中心窗口Event-Centric Window用于预训练与事件模式推理。每个事件配有独立描述模型仅需学习该事件内部的视频-动作联合分布。此时禁用绝对窗口索引所有 token 通过相对帧索引 τ 对齐。观察中心窗口Observation-Centered Window用于统一模式部署。窗口扩展为 M 帧历史、1 帧锚点与 N 帧未来激活绝对窗口索引与相对索引的联合嵌入。3D VAE 以 14N 的时间编解码规则将原始帧压缩为隐变量历史帧与未来帧在同一趟编码中完成无重新编码接缝动作侧则采用相对于锚点姿态的位移编码保持时间原点一致。图 5观察中心窗口示意M1。3D VAE 单趟编码 14M4N 原始帧缓冲为 1MN 隐变量动作 token 与隐变量帧按相对姿态对齐。来源WALL-WM 技术报告 Figure 5在训练策略上视频塔先进行事件级流匹配预训练随后冻结动作塔在固定视频塔的基础上进行动作流匹配训练。为了平衡视觉结构保真与动作监督精度研究者采用非对称 1-to-Nd 映射将视频去噪过程锚定在一个中等噪声步 s★动作塔的每一步交叉注意力均读取该锚定步的视频特征而动作自身则在全噪声调度上独立采样。这一设计避免了高噪声视频特征与低噪声动作目标之间的错配。3.4 语言引导推理Staircase 隐式思维链长程操作不仅需要动作生成更需要场景理解、事件分解与时序进度估计。WALL-WM 在 Qwen3.5-9B 骨干之上构建了推理模块并通过Staircase Decoding实现高效的并行隐式思维链Chain-of-Thought, CoT生成。与传统自回归 CoT 逐个生成离散 token 不同Staircase 机制将 Transformer 在继电器深度 N_r 处划分为上下两段下层编码共享的视觉-语言接地特征上层通过独立的因果缓存更新并行生成 K_c 个连续隐式推理状态。第一个隐式位置遍历下层全部层产生共享的继电器表示其余隐式状态随后在上层块中并行前向。这种深度并行策略避免了每一步重复计算低层视觉-语言特征显著降低了长程推理的推理延迟。图 6三种思维链推理机制对比。左传统 CoT 自回归生成离散词表 token中隐式 CoT 以连续向量替代但仍保持串行依赖右Staircase 隐式推理通过继电器深度实现并行连续隐式变量生成。来源WALL-WM 技术报告 Figure 6监督方面WALL-WM 不直接蒸馏自回归隐藏状态而是通过冻结的隐式-文本重建目标进行监督生成的隐式推理状态经前缀投影器映射为轻量级冻结语言模型Qwen3.5-0.8B的软前缀该模型自回归重建对应的文本 CoT 轨迹。训练仅优化 Staircase 推理分支与前缀投影器重建模型全程冻结从而鼓励隐式状态编码高层推理语义而非复制精确的 token 级解码轨迹。04 数据引擎层次化标注与平衡采样高质量的数据生态是事件中心预训练得以规模化的基石。WALL-WM 的数据地图横跨四大象限通用互联网视频、第一人称人类视频、无机器人 UMI 式录制以及异构遥操作数据。中心位置则专门保留人类干预与失败恢复数据用于丰富接触密集型的修正行为。图 8WALL-WM 数据源地图。四象限涵盖通用互联网视频、第一人称视频、非具身数据与异构遥操作/开放机器人数据中心为人类干预与失败恢复数据。来源WALL-WM 技术报告 Figure 84.1 四层层次化标注与为整条轨迹赋予单一自由形式描述不同WALL-WM 将每个 episode 分解为四个核心时间层级外加可选的人工标注层TaskL3episode 全局字符串概括整体目标如打开抽屉SubtaskL2将 episode 划分为若干连续的语义阶段如接近目标、建立抓取、运输物体ActionL1将子任务进一步细化为短操作原语如接近、对齐、闭合手指、提升SegmentL0最细粒度的时间分解捕捉仅持续数帧的局部事件。图 12单条 episode 的四级标注轨道可视化。从上至下依次为 TaskL3、SubtaskL2、ActionL1与 SegmentL0与视频时间轴严格对齐。来源WALL-WM 技术报告 Figure 12这一多层模式对机器人恢复行为尤为重要。许多有价值的演示并非完美的线性执行而是包含重新抓取、接触失败后的姿态修正、滑落后的重试等。若整条 episode 仅由单一标题概括这些修正行为会被平均进全局描述难以被模型识别。层次化结构使得恢复相关区间可以在训练中被显式采样与重加权而无需丢弃更广泛的任务上下文。4.2 时序同步与后处理对于遥操作或无机器人采集数据视频流与动作流之间往往存在恒定的相位偏移如相机编码、控制器日志、中间件延迟等引入的百毫秒级错位。WALL-WM 在标注与采样前显式执行时序同步通过计算视频光流运动信号与末端执行器位置差分信号的相关性在整数帧滞后窗口内寻找最大相关系数并将估计偏移量应用于动作流重索引。同步后的数据还需经过第二道清洗剔除缺失相机流、非单调动作记录、异常帧率、运动学不连续等不合格 episode。图 11视频-动作层时序同步示意。通过光流运动立方体与动作信号的相关性计算校正恒定滞后使视觉观测与控制器记录指向同一物理时刻。来源WALL-WM 技术报告 Figure 114.3 聚类平衡采样原始具身语料呈高度长尾分布。WALL-WM 在四级标注之上运行两轮离线聚类第一轮为视觉-语言VL聚类将视觉观测与标题对映射到联合嵌入空间并划分主题簇第二轮为动作聚类在轨迹空间中对动作块进行聚类使非名义运动恢复、重抓、重试成为显式采样单元。训练时数据加载器同时平衡 VL 簇与动作簇确保罕见但重要的指令-场景组合与轨迹模式不会被高频动词与名义演示淹没。图 13不同粒度标题的分布可视化。随着粒度从 Instruction 细化到 Segment基尼系数下降熵值上升表明更细粒度的事件分解能够暴露更多长尾模式支撑平衡采样。来源WALL-WM 技术报告 Figure 134.4 XRZero-G0无机器人穿戴式采集为突破机器人本体对数据采集吞吐量的限制团队开发了 XRZero-G0 穿戴式无机器人采集装置。操作者佩戴 VR 追踪头显与多视角 ego 相机双手持握与部署机器人末端执行器几何一致的手持夹具。6-DoF 控制器轨迹经 IK 重定向后生成可执行动作流而 ego双腕视角视频天然处于真实机器人将观测到的几何空间。在生产配方中少量真实机器人遥操作锚点数据与大量无机器人片段配对遵循少量物理锚定few-shot physical anchoring机制实现规模扩展。05 训练配方与双模态推理WALL-WM 的训练分为四个阶段形成从视频先验到可执行控制的渐进式迁移**阶段一事件中心视频预训练。**仅训练视频 DiT在事件级隐变量上执行 Wan 风格的 v-prediction 流匹配。训练时采用长度感知的标题丢弃策略短事件以较低概率丢弃标题长事件以较高概率丢弃迫使模型在缺失语言条件时仍能基于当前观测推断物理合理的接触与末端执行器动力学。**阶段二事件中心动作预训练。**加载预训练视频塔并冻结仅优化动作塔。采用非对称 1-to-Nd 锚定协议视频前向固定在中等噪声步 s★45动作塔在全调度上独立采样每优化步并行绘制 K6 个动作噪声层级复用同一视频前向以提升训练吞吐。**阶段三VLM 文本条件器适配。**冻结 Qwen3.5-9B 骨干仅训练投影输出头与两个轻量辅助头下一事件描述生成头与剩余时间估计头。VLM 产生的条件特征与原始 T5 编码对齐使升级后的 VLM 可无缝替换 T5为 DiT 提供场景接地的消歧、任务分解与时序锚定能力。**阶段四Staircase 蒸馏。**以冻结的 Qwen3.5-9B 为骨干通过 Mixture-of-TransformersMoT结构实现 Staircase 隐式 CoT。监督信号来自冻结轻量语言模型的文本 CoT 重建损失仅优化 Staircase 分支与前缀投影器。**可选阶段五下一区块适配。**在事件中心预训练后模型可进一步在观察中心窗口上进行固定长度区块预测的微调以支持传统 VLA 评估协议。全局指令来自 Task 层级由冻结 T5 编码窗口几何、相对姿态目标与扩展的位置索引遵循第 3.3 节设计。5.1 事件模式推理在事件模式下系统在事件空间中展开回滚VLM、人类或上层智能体提出下一事件描述WALL-WM 执行对应的变长视频-动作片段完成后观测更新再进入下一事件。回滚节奏遵循任务的自然持续时间而非固定控制范围。5.2 统一模式推理统一模式保留传统的固定长度区块预测但区块不再仅由原始全局指令条件化。Staircase 解码器在单次并行前向中发射 K_c 个连续隐式 CoT 状态这些表征作为文本侧上下文注入 WAM 交叉注意力路径替代原子指令条件。由于两种模式通过相同的推理接口条件化 WAMWALL-WM 在单一模型内统一了开放式事件驱动回滚与标准固定范围 VLA 执行。图 2下一事件训练与等长区块方案对比。上方先验对齐训练事件标题、事件视频与事件动作描述同一语义区间构成良定的标题-视频/动作目标下方等长区块模式全局指令对局部区块存在歧义增加历史窗口后恢复为良定的下一区块预测。来源WALL-WM 技术报告 Figure 206 基础设施从训练到实时部署为支撑数十亿参数规模的事件中心具身建模WALL-WM 在系统层面进行了多项优化。优化器采用 Muon研究团队在分布式环境下实现了 DMuon通过矩阵级 Newton-Schulz 迭代与混合并行的协同设计将优化器步进开销从接近前反向两倍成本降至次要成本。核心手段包括基于最长处理时间分配的专属所有权流水线调度、利用对称结构的 CuteDSL 内核优化以及将后步广播异步重叠到后续前向的细粒度调度。在推理侧扩散式骨干的数十步去噪与每步的完整前向传播对实时机器人闭环控制构成严峻 latency 挑战。WALL-WM 采用两条正交压缩路径分布匹配蒸馏Distribution Matching Distillation, DMD训练少步学生生成器使其输出分布与多步教师对齐而非逐点回归教师轨迹。联合蒸馏目标同时保留原始动作预测损失防止动作头在压缩去噪轨迹时漂移。实验表明移除动作锚定项会导致动作 MAE 恶化 53%。FP8 量化对蒸馏后学生模型的主导矩阵乘法采用 8 位浮点后训练量化按块per-block分配缩放因子。权重在离线阶段完成量化与预打包运行时无权重侧量化开销激活量化则融合到前驱算子的 epilogue 中避免额外的读写遍历。配合 CUDA Graph 捕获消除主机端启动开销完整优化栈将端到端推理推至 10Hz满足闭环机器人控制的延迟预算。07 实验验证视频生成与真实机器人7.1 具身视频生成评测研究团队遵循 WorldArena 评测协议构建了包含 200 个分布内任务与 50 个分布外任务的具身视频生成基准。OOD 部分通过新对象-动词组合、改写指令、未见过场景布局与任务组合来施压文本与组合泛化。如表 2 所示WALL-WM 在动作质量、语义一致性与物理合理性三个具身相关维度上持续优于 Wan2.1 与 Wan2.2 基线。具体而言其 Motion Smoothness 达到 0.771Semantic Alignment 达到 0.886Interaction Quality 达到 0.434显著领先于基线模型。定性对比显示通用视频模型常出现语义漂移、接触失败或物体形变而 WALL-WM 生成的回滚在物理上更合理、与指令更一致。图 14具身视频生成定性对比。WALL-WM 在真实世界物理规律对齐上表现更佳运动一致性与交互物理合理性更强Wan2.1 与 Wan2.2 则频繁出现物体幻觉或不真实动力学如接触失败、物体形变。来源WALL-WM 技术报告 Figure 14在多视角一致性与三维感知方面WALL-WM 在 CO3Dv2 基准的 3D 探针评测中取得有竞争力的表现Point Error 0.271Depth Error 0.132AUC5 0.210。跨视角对应误差较低表明跨视角注意力模块有效增强了几何一致性。图 15多视角一致性与三维感知散点图。横轴为 3D 探针误差纵轴为跨视角对应误差越低越好。WALL-WM 在两项指标上同时处于较低区域体现出三维感知与视角一致性的联合优势。来源WALL-WM 技术报告 Figure 157.2 真实机器人评估真实机器人实验在团队自研的高性能桌面双臂平台上进行采用同步多视角观测与语言指令评估场景与桌面部署几何对齐。基准分为四个互补套件以 Task Progress0–100 的密集连续评分作为主要指标而非二元成功率从而更精细地反映模型在接地、接触处理与中间物理推理上的实际能力。多样化操作Diverse Manipulation涵盖抓取、放置、倒水、空间重排、颜色条件放置等七项任务。事件模式 WALL-WM 平均 Task Progress 达到 75.86显著高于 WALL-WM-U-Scratch63.00、π0.555.64、DreamZero39.97与 LingBot-VA29.71。在需要完整对象状态转移的任务如摆杯成倒三角、将勺子放入碗中、将环套入杆上优势尤为明显。图 16真实机器人多样化操作基准 Task Progress 对比。任务包括摆杯、放勺、放眼镜、套环、按颜色放积木、倒水与拣物入篮。来源WALL-WM 技术报告 Figure 16推理操作Reasoning Manipulation测试语义分类、排序、配对与指令条件选择。事件模式 WALL-WM 平均得分 71.60领先于 WALL-WM-U-Scratch59.50与 π0.556.40。在按顺序按下按钮任务中事件模式从基线的 18 分提升至 64 分表明语言引导的事件分解对时序指令尤为关键。图 17真实机器人推理操作基准 Task Progress 对比。任务涵盖耳机排序、按形状分类物品、顺序按按钮、配对物品与拣水果入篮。来源WALL-WM 技术报告 Figure 17灵巧操作Dexterous Manipulation聚焦窄容差插入与精细对象处理如将文具放入盒中、插入细线。事件模式平均 32.00与 WALL-WM-U-Scratch31.25接近均显著高于 π0.515.00等基线。绝对分数仍偏低表明精细插入与受限放置仍是极具挑战的方向。图 18真实机器人灵巧操作基准。测试任务包括将文具放入收纳盒与细线插入对接触时机与姿态精度要求极高。来源WALL-WM 技术报告 Figure 18泛化Generalization在复杂桌面场景中随机顺序发布不同指令测试场景级接地、指令切换与组合迁移。事件模式 WALL-WM 平均 53.75大幅领先于 DreamZero28.50、π0.524.00与 WALL-WM-U-Scratch18.50。在将盘子放入收纳槽、“将清洁布推到桌边”、将螺丝刀插入杯中等需要当前指令 grounding 的任务上提升最为显著。图 19真实机器人泛化基准 Task Progress 对比。场景包含多个共存对象指令以随机顺序发布测试模型在视觉 clutter 与共享对象上下文中的指令切换能力。来源WALL-WM 技术报告 Figure 197.3 消融实验为验证事件条件执行与跨视角建模的独立贡献研究者额外评估了一个预训练基线该基线保留预训练骨干但移除跨视角交互自注意力VI-SA并采用指令条件固定长度统一解码。在推理操作套件上该基线平均仅 32.6而完整事件模式达到 71.6在泛化套件上基线 22.0 对比事件模式 53.75。结果表明预训练表示本身并不足以支撑复杂推理与泛化必须与跨视角交互和事件条件执行相结合。08 讨论规模化、延迟与评估WALL-WM 家族覆盖从不足 100 亿到数百亿参数的模型规模。研究者观察到一致的规模化趋势更大的模型在动作精度与分布外泛化上均带来提升尤其在需要精细接触时机、长程状态跟踪与组合指令接地的任务上。这一趋势引出一个更广泛的命题若过早将实时延迟作为首要约束可能会在模型习得足够通用的世界-动作先验之前便触及性能天花板。因此团队将规模驱动的泛化视为通用 WAM 的首要前沿而将延迟压缩视为相对更确定的工程问题——蒸馏、量化、投机执行与系统级重叠可在强模型存在后逐步推进。在评估层面二元成功率虽是最直接的具身能力度量却也过于粗糙。单次失败可能源于感知、语言接地、接触动力学、硬件差异或重置质量且这些原因在任务与评估轮次间并非均匀分布。因此团队正在探索更高效的预训练迭代评估协议包括基于事件粒度的密集评分、人工修正与重标注、以及从生成视频与动作轨迹预测机器人表现的通用评估模型。此类评估器无需完美替代真实硬件只需与下游机器人性能保持可靠正相关即可在昂贵硬件验证前低成本筛选模型与数据决策。最后WALL-WM 将每事件的文本泛化视为具身控制与更广泛智能体之间的桥梁。随着前沿多模态模型与智能体的快速进步高层任务推理的边界正在外移。WALL-WM 的选择是将高层任务信息分解为每事件的文本描述再逐事件映射为视觉与动作。在这一分解下跨语义事件的完整动作-文本指令泛化成为具身模型的最高优先级目标而上游智能体的推理成本或延迟则不应成为具身智能涌现的瓶颈。09 结语WALL-WM 通过在事件关节处雕刻世界动作模型为具身基础模型的规模化提供了一条先验保持的路径。它并未将视频基础模型视为一个需要短暂适配的视觉编码器而是将其语义与时序结构作为可继承的脚手架通过事件对齐的训练单元、层次化的数据生态、以及双模态推理接口逐步提升为可执行的世界动作模型。从视频生成到真实机器人控制从多样化操作到复杂场景泛化实验结果一致表明当训练的原子单位与物理世界的语义事件同频时语言、视觉与动作才能真正协同演化。参考文献WALL-WM: Carving World Action Modeling at the Event Joints. X Square Robot Team, May 2026.具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html
WALL-WM:“事件级预测”世界动作模型
事件驱动的视觉-语言-动作预训练新范式01 引言具身智能的下一程近年来具身基础模型Embodied Foundation Models的进展日益受到多模态理解模型与视频基础模型的驱动。从 RT-2 到 π0从 OpenVLA 到 Gr00t N1视觉-语言-动作Vision-Language-Action, VLA模型正在将互联网规模的语义先验迁移到机器人控制领域。然而一个结构性难题始终横亘在规模化路径之上语言描述的是语义目标与事件视觉演化遵循连续的场景动力学而动作则运行在控制级的时间尺度上——三者被迫塞进同一个固定长度的预测窗口本质上造成了粒度不匹配。WALL-WMWorld Action Model at Event Joints正是针对这一不匹配提出的系统性解决方案。该项目由 X Square Robot Team 提出核心思想是将视频-动作学习的原子单位从固定长度动作块fixed-length action chunk转向语义连贯的动作事件action-grounded semantic event例如接近-抓取-提升-转移-放置等可命名、可观测、可执行的物理行为片段。通过事件驱动的 VLA 预训练与配套的数据生态WALL-WM 在多样化语言指令、场景与任务中展现出广泛的泛化能力并在大规模真实机器人评估中取得了领先表现。图 1WALL-WM 模态层次对齐概念图与综合性能对比。左侧展示了文本、视觉、动作与触觉在语义抽象度与时空精度上的层次差异右侧柱状图显示其在机器人操作与视频生成指标上的优势。来源WALL-WM 技术报告 Figure 102 核心挑战固定块带来的结构性错配现有大多数具身基础模型采用一种便捷的块中心chunk-centric范式从当前观测与语言指令出发预测固定长度的未来动作块。这种形式在数据批量处理与工程部署上确实高效但其背后隐藏着一个根本性的结构问题——它用外部时钟切割具身动力学而语言、视觉与动作本就在不同的语义与时间尺度上演化。具体而言语言指令通常描述全局任务或语义事件如将散落的物品整理成整齐有序的排列视觉观测在每一帧都发生变化呈现连续的场景动力学而动作对接触、时机与微小扰动极为敏感需要在毫秒级精度上响应。将这三者强行对齐到同一个固定长度窗口会导致训练过程退化为短视域相关拟合short-horizon correlation fitting模型不仅未能充分利用预训练得到的视觉-语义先验反而可能用块级别的动作捷径覆盖掉这些先验最终削弱组合泛化与长程泛化能力。WALL-WM 将这一观察提炼为三项设计原则几何保持Geometry Preservation连接语言、视频与动作但避免将其原生结构坍缩到单一的共享嵌入空间先验保持Prior Preservation与视频基础模型继承而来的文本描述→视频生成结构保持兼容可执行因果性Executable Causality提供具有清晰时序支撑的预测目标同时允许持续时间跟随任务本身而非固定时钟。基于上述原则WALL-WM 将固定长度动作块替换为以动作为基础的语义事件一个时间连贯的可执行行为片段其起点与终点由底层可执行行为的变化决定而非外部计时器。这种事件在语言中可被命名在视频中可被观测在动作中可被实现从而同时满足三大模态的需求。03 架构设计事件中心的世界动作建模3.1 整体框架层耦合的视频-动作去噪器WALL-WM 的架构可被概括为先验对齐的多模态预训练栈一个继承自 Wan 系列文本-视频模型的视频塔Video Tower与一个随机初始化的动作 DiTDiffusion Transformer进行层间耦合。在预训练阶段视频编码器保持固定跨模态对齐通过逐层视频-动作耦合学习得到。整个预训练围绕事件级别组织每个样本是从长程 episode 中雕刻出的原子事件模型在当前观测条件下对事件对齐的未来视频与动作进行去噪。图 3WALL-WM 整体框架。系统通过语言引导推理生成下一事件描述随后由多视角视频 DiT 与动作 Transformer 联合去噪未来视频隐变量与末端执行器轨迹执行与回滚构成闭环。来源WALL-WM 技术报告 Figure 33.2 多视角视觉世界事件建模视频塔在 Wan 单视角 DiT 的基础上扩展为多视角、多具身视频生成器。研究团队引入了三个关键扩展多视角适配Multi-View Adaptation在每个 DiT 块中于常规单视角自注意力之后增加跨视角分支。该分支将多路相机在同一帧内的空间 token 拼接为联合序列并执行自注意力再通过零初始化的输出投影器与 AdaLN 门控加回单视角流。由于投影器初始化为零该分支在初始化时不产生任何影响确保预训练的单视角行为被完整保留跨视角交互仅在训练过程中逐步习得。Camera RoPE为支撑大规模多具身训练WALL-WM 为每个相机赋予可学习的旋转身份rotary identity无需在推理时输入标定参数。研究者在标准 RoPE 的基础上增加视角轴将每个头的频率库划分为 (f, h, w, view) 四个维度其中视角旋转来自一个跨层共享的可学习嵌入。增减相机仅需修改嵌入表无需重新设计网络结构。跨视角几何掩码Cross-View Geometric Masking训练时引入两种互补的几何感知掩码机制。视锥掩码Sight-Cone Masking基于相机内外参与畸变参数为每对视频 token 判断其反投影视线锥是否在三维空间中相交仅在几何共视的 token 对之间允许跨视角注意力其余路径以负无穷偏置屏蔽。Tube Patch Masking则以一定概率在单视角的时空管状区域上施加掩码迫使模型只能通过其他视角恢复被掩内容从而强化跨视角对应关系。两种掩码仅在训练时使用推理阶段完全丢弃保证部署时无需标定。图 4WALL-WM 跨视角掩码机制示意图。左视锥掩码判断两 token 是否共享三维视域右Tube Mask 在单视角时空管上施加掩码迫使跨视角信息恢复。来源WALL-WM 技术报告 Figure 43.3 事件中心动作动力学建模动作塔是与视频塔等深的动作 DiT。在每个层级动作 token 通过交叉注意力读取对应视频块的特征整个堆栈通过流匹配flow matching对末端执行器轨迹进行去噪。为了处理视频与动作的不同时间密度WALL-WM 设计了两种窗口布局事件中心窗口Event-Centric Window用于预训练与事件模式推理。每个事件配有独立描述模型仅需学习该事件内部的视频-动作联合分布。此时禁用绝对窗口索引所有 token 通过相对帧索引 τ 对齐。观察中心窗口Observation-Centered Window用于统一模式部署。窗口扩展为 M 帧历史、1 帧锚点与 N 帧未来激活绝对窗口索引与相对索引的联合嵌入。3D VAE 以 14N 的时间编解码规则将原始帧压缩为隐变量历史帧与未来帧在同一趟编码中完成无重新编码接缝动作侧则采用相对于锚点姿态的位移编码保持时间原点一致。图 5观察中心窗口示意M1。3D VAE 单趟编码 14M4N 原始帧缓冲为 1MN 隐变量动作 token 与隐变量帧按相对姿态对齐。来源WALL-WM 技术报告 Figure 5在训练策略上视频塔先进行事件级流匹配预训练随后冻结动作塔在固定视频塔的基础上进行动作流匹配训练。为了平衡视觉结构保真与动作监督精度研究者采用非对称 1-to-Nd 映射将视频去噪过程锚定在一个中等噪声步 s★动作塔的每一步交叉注意力均读取该锚定步的视频特征而动作自身则在全噪声调度上独立采样。这一设计避免了高噪声视频特征与低噪声动作目标之间的错配。3.4 语言引导推理Staircase 隐式思维链长程操作不仅需要动作生成更需要场景理解、事件分解与时序进度估计。WALL-WM 在 Qwen3.5-9B 骨干之上构建了推理模块并通过Staircase Decoding实现高效的并行隐式思维链Chain-of-Thought, CoT生成。与传统自回归 CoT 逐个生成离散 token 不同Staircase 机制将 Transformer 在继电器深度 N_r 处划分为上下两段下层编码共享的视觉-语言接地特征上层通过独立的因果缓存更新并行生成 K_c 个连续隐式推理状态。第一个隐式位置遍历下层全部层产生共享的继电器表示其余隐式状态随后在上层块中并行前向。这种深度并行策略避免了每一步重复计算低层视觉-语言特征显著降低了长程推理的推理延迟。图 6三种思维链推理机制对比。左传统 CoT 自回归生成离散词表 token中隐式 CoT 以连续向量替代但仍保持串行依赖右Staircase 隐式推理通过继电器深度实现并行连续隐式变量生成。来源WALL-WM 技术报告 Figure 6监督方面WALL-WM 不直接蒸馏自回归隐藏状态而是通过冻结的隐式-文本重建目标进行监督生成的隐式推理状态经前缀投影器映射为轻量级冻结语言模型Qwen3.5-0.8B的软前缀该模型自回归重建对应的文本 CoT 轨迹。训练仅优化 Staircase 推理分支与前缀投影器重建模型全程冻结从而鼓励隐式状态编码高层推理语义而非复制精确的 token 级解码轨迹。04 数据引擎层次化标注与平衡采样高质量的数据生态是事件中心预训练得以规模化的基石。WALL-WM 的数据地图横跨四大象限通用互联网视频、第一人称人类视频、无机器人 UMI 式录制以及异构遥操作数据。中心位置则专门保留人类干预与失败恢复数据用于丰富接触密集型的修正行为。图 8WALL-WM 数据源地图。四象限涵盖通用互联网视频、第一人称视频、非具身数据与异构遥操作/开放机器人数据中心为人类干预与失败恢复数据。来源WALL-WM 技术报告 Figure 84.1 四层层次化标注与为整条轨迹赋予单一自由形式描述不同WALL-WM 将每个 episode 分解为四个核心时间层级外加可选的人工标注层TaskL3episode 全局字符串概括整体目标如打开抽屉SubtaskL2将 episode 划分为若干连续的语义阶段如接近目标、建立抓取、运输物体ActionL1将子任务进一步细化为短操作原语如接近、对齐、闭合手指、提升SegmentL0最细粒度的时间分解捕捉仅持续数帧的局部事件。图 12单条 episode 的四级标注轨道可视化。从上至下依次为 TaskL3、SubtaskL2、ActionL1与 SegmentL0与视频时间轴严格对齐。来源WALL-WM 技术报告 Figure 12这一多层模式对机器人恢复行为尤为重要。许多有价值的演示并非完美的线性执行而是包含重新抓取、接触失败后的姿态修正、滑落后的重试等。若整条 episode 仅由单一标题概括这些修正行为会被平均进全局描述难以被模型识别。层次化结构使得恢复相关区间可以在训练中被显式采样与重加权而无需丢弃更广泛的任务上下文。4.2 时序同步与后处理对于遥操作或无机器人采集数据视频流与动作流之间往往存在恒定的相位偏移如相机编码、控制器日志、中间件延迟等引入的百毫秒级错位。WALL-WM 在标注与采样前显式执行时序同步通过计算视频光流运动信号与末端执行器位置差分信号的相关性在整数帧滞后窗口内寻找最大相关系数并将估计偏移量应用于动作流重索引。同步后的数据还需经过第二道清洗剔除缺失相机流、非单调动作记录、异常帧率、运动学不连续等不合格 episode。图 11视频-动作层时序同步示意。通过光流运动立方体与动作信号的相关性计算校正恒定滞后使视觉观测与控制器记录指向同一物理时刻。来源WALL-WM 技术报告 Figure 114.3 聚类平衡采样原始具身语料呈高度长尾分布。WALL-WM 在四级标注之上运行两轮离线聚类第一轮为视觉-语言VL聚类将视觉观测与标题对映射到联合嵌入空间并划分主题簇第二轮为动作聚类在轨迹空间中对动作块进行聚类使非名义运动恢复、重抓、重试成为显式采样单元。训练时数据加载器同时平衡 VL 簇与动作簇确保罕见但重要的指令-场景组合与轨迹模式不会被高频动词与名义演示淹没。图 13不同粒度标题的分布可视化。随着粒度从 Instruction 细化到 Segment基尼系数下降熵值上升表明更细粒度的事件分解能够暴露更多长尾模式支撑平衡采样。来源WALL-WM 技术报告 Figure 134.4 XRZero-G0无机器人穿戴式采集为突破机器人本体对数据采集吞吐量的限制团队开发了 XRZero-G0 穿戴式无机器人采集装置。操作者佩戴 VR 追踪头显与多视角 ego 相机双手持握与部署机器人末端执行器几何一致的手持夹具。6-DoF 控制器轨迹经 IK 重定向后生成可执行动作流而 ego双腕视角视频天然处于真实机器人将观测到的几何空间。在生产配方中少量真实机器人遥操作锚点数据与大量无机器人片段配对遵循少量物理锚定few-shot physical anchoring机制实现规模扩展。05 训练配方与双模态推理WALL-WM 的训练分为四个阶段形成从视频先验到可执行控制的渐进式迁移**阶段一事件中心视频预训练。**仅训练视频 DiT在事件级隐变量上执行 Wan 风格的 v-prediction 流匹配。训练时采用长度感知的标题丢弃策略短事件以较低概率丢弃标题长事件以较高概率丢弃迫使模型在缺失语言条件时仍能基于当前观测推断物理合理的接触与末端执行器动力学。**阶段二事件中心动作预训练。**加载预训练视频塔并冻结仅优化动作塔。采用非对称 1-to-Nd 锚定协议视频前向固定在中等噪声步 s★45动作塔在全调度上独立采样每优化步并行绘制 K6 个动作噪声层级复用同一视频前向以提升训练吞吐。**阶段三VLM 文本条件器适配。**冻结 Qwen3.5-9B 骨干仅训练投影输出头与两个轻量辅助头下一事件描述生成头与剩余时间估计头。VLM 产生的条件特征与原始 T5 编码对齐使升级后的 VLM 可无缝替换 T5为 DiT 提供场景接地的消歧、任务分解与时序锚定能力。**阶段四Staircase 蒸馏。**以冻结的 Qwen3.5-9B 为骨干通过 Mixture-of-TransformersMoT结构实现 Staircase 隐式 CoT。监督信号来自冻结轻量语言模型的文本 CoT 重建损失仅优化 Staircase 分支与前缀投影器。**可选阶段五下一区块适配。**在事件中心预训练后模型可进一步在观察中心窗口上进行固定长度区块预测的微调以支持传统 VLA 评估协议。全局指令来自 Task 层级由冻结 T5 编码窗口几何、相对姿态目标与扩展的位置索引遵循第 3.3 节设计。5.1 事件模式推理在事件模式下系统在事件空间中展开回滚VLM、人类或上层智能体提出下一事件描述WALL-WM 执行对应的变长视频-动作片段完成后观测更新再进入下一事件。回滚节奏遵循任务的自然持续时间而非固定控制范围。5.2 统一模式推理统一模式保留传统的固定长度区块预测但区块不再仅由原始全局指令条件化。Staircase 解码器在单次并行前向中发射 K_c 个连续隐式 CoT 状态这些表征作为文本侧上下文注入 WAM 交叉注意力路径替代原子指令条件。由于两种模式通过相同的推理接口条件化 WAMWALL-WM 在单一模型内统一了开放式事件驱动回滚与标准固定范围 VLA 执行。图 2下一事件训练与等长区块方案对比。上方先验对齐训练事件标题、事件视频与事件动作描述同一语义区间构成良定的标题-视频/动作目标下方等长区块模式全局指令对局部区块存在歧义增加历史窗口后恢复为良定的下一区块预测。来源WALL-WM 技术报告 Figure 206 基础设施从训练到实时部署为支撑数十亿参数规模的事件中心具身建模WALL-WM 在系统层面进行了多项优化。优化器采用 Muon研究团队在分布式环境下实现了 DMuon通过矩阵级 Newton-Schulz 迭代与混合并行的协同设计将优化器步进开销从接近前反向两倍成本降至次要成本。核心手段包括基于最长处理时间分配的专属所有权流水线调度、利用对称结构的 CuteDSL 内核优化以及将后步广播异步重叠到后续前向的细粒度调度。在推理侧扩散式骨干的数十步去噪与每步的完整前向传播对实时机器人闭环控制构成严峻 latency 挑战。WALL-WM 采用两条正交压缩路径分布匹配蒸馏Distribution Matching Distillation, DMD训练少步学生生成器使其输出分布与多步教师对齐而非逐点回归教师轨迹。联合蒸馏目标同时保留原始动作预测损失防止动作头在压缩去噪轨迹时漂移。实验表明移除动作锚定项会导致动作 MAE 恶化 53%。FP8 量化对蒸馏后学生模型的主导矩阵乘法采用 8 位浮点后训练量化按块per-block分配缩放因子。权重在离线阶段完成量化与预打包运行时无权重侧量化开销激活量化则融合到前驱算子的 epilogue 中避免额外的读写遍历。配合 CUDA Graph 捕获消除主机端启动开销完整优化栈将端到端推理推至 10Hz满足闭环机器人控制的延迟预算。07 实验验证视频生成与真实机器人7.1 具身视频生成评测研究团队遵循 WorldArena 评测协议构建了包含 200 个分布内任务与 50 个分布外任务的具身视频生成基准。OOD 部分通过新对象-动词组合、改写指令、未见过场景布局与任务组合来施压文本与组合泛化。如表 2 所示WALL-WM 在动作质量、语义一致性与物理合理性三个具身相关维度上持续优于 Wan2.1 与 Wan2.2 基线。具体而言其 Motion Smoothness 达到 0.771Semantic Alignment 达到 0.886Interaction Quality 达到 0.434显著领先于基线模型。定性对比显示通用视频模型常出现语义漂移、接触失败或物体形变而 WALL-WM 生成的回滚在物理上更合理、与指令更一致。图 14具身视频生成定性对比。WALL-WM 在真实世界物理规律对齐上表现更佳运动一致性与交互物理合理性更强Wan2.1 与 Wan2.2 则频繁出现物体幻觉或不真实动力学如接触失败、物体形变。来源WALL-WM 技术报告 Figure 14在多视角一致性与三维感知方面WALL-WM 在 CO3Dv2 基准的 3D 探针评测中取得有竞争力的表现Point Error 0.271Depth Error 0.132AUC5 0.210。跨视角对应误差较低表明跨视角注意力模块有效增强了几何一致性。图 15多视角一致性与三维感知散点图。横轴为 3D 探针误差纵轴为跨视角对应误差越低越好。WALL-WM 在两项指标上同时处于较低区域体现出三维感知与视角一致性的联合优势。来源WALL-WM 技术报告 Figure 157.2 真实机器人评估真实机器人实验在团队自研的高性能桌面双臂平台上进行采用同步多视角观测与语言指令评估场景与桌面部署几何对齐。基准分为四个互补套件以 Task Progress0–100 的密集连续评分作为主要指标而非二元成功率从而更精细地反映模型在接地、接触处理与中间物理推理上的实际能力。多样化操作Diverse Manipulation涵盖抓取、放置、倒水、空间重排、颜色条件放置等七项任务。事件模式 WALL-WM 平均 Task Progress 达到 75.86显著高于 WALL-WM-U-Scratch63.00、π0.555.64、DreamZero39.97与 LingBot-VA29.71。在需要完整对象状态转移的任务如摆杯成倒三角、将勺子放入碗中、将环套入杆上优势尤为明显。图 16真实机器人多样化操作基准 Task Progress 对比。任务包括摆杯、放勺、放眼镜、套环、按颜色放积木、倒水与拣物入篮。来源WALL-WM 技术报告 Figure 16推理操作Reasoning Manipulation测试语义分类、排序、配对与指令条件选择。事件模式 WALL-WM 平均得分 71.60领先于 WALL-WM-U-Scratch59.50与 π0.556.40。在按顺序按下按钮任务中事件模式从基线的 18 分提升至 64 分表明语言引导的事件分解对时序指令尤为关键。图 17真实机器人推理操作基准 Task Progress 对比。任务涵盖耳机排序、按形状分类物品、顺序按按钮、配对物品与拣水果入篮。来源WALL-WM 技术报告 Figure 17灵巧操作Dexterous Manipulation聚焦窄容差插入与精细对象处理如将文具放入盒中、插入细线。事件模式平均 32.00与 WALL-WM-U-Scratch31.25接近均显著高于 π0.515.00等基线。绝对分数仍偏低表明精细插入与受限放置仍是极具挑战的方向。图 18真实机器人灵巧操作基准。测试任务包括将文具放入收纳盒与细线插入对接触时机与姿态精度要求极高。来源WALL-WM 技术报告 Figure 18泛化Generalization在复杂桌面场景中随机顺序发布不同指令测试场景级接地、指令切换与组合迁移。事件模式 WALL-WM 平均 53.75大幅领先于 DreamZero28.50、π0.524.00与 WALL-WM-U-Scratch18.50。在将盘子放入收纳槽、“将清洁布推到桌边”、将螺丝刀插入杯中等需要当前指令 grounding 的任务上提升最为显著。图 19真实机器人泛化基准 Task Progress 对比。场景包含多个共存对象指令以随机顺序发布测试模型在视觉 clutter 与共享对象上下文中的指令切换能力。来源WALL-WM 技术报告 Figure 197.3 消融实验为验证事件条件执行与跨视角建模的独立贡献研究者额外评估了一个预训练基线该基线保留预训练骨干但移除跨视角交互自注意力VI-SA并采用指令条件固定长度统一解码。在推理操作套件上该基线平均仅 32.6而完整事件模式达到 71.6在泛化套件上基线 22.0 对比事件模式 53.75。结果表明预训练表示本身并不足以支撑复杂推理与泛化必须与跨视角交互和事件条件执行相结合。08 讨论规模化、延迟与评估WALL-WM 家族覆盖从不足 100 亿到数百亿参数的模型规模。研究者观察到一致的规模化趋势更大的模型在动作精度与分布外泛化上均带来提升尤其在需要精细接触时机、长程状态跟踪与组合指令接地的任务上。这一趋势引出一个更广泛的命题若过早将实时延迟作为首要约束可能会在模型习得足够通用的世界-动作先验之前便触及性能天花板。因此团队将规模驱动的泛化视为通用 WAM 的首要前沿而将延迟压缩视为相对更确定的工程问题——蒸馏、量化、投机执行与系统级重叠可在强模型存在后逐步推进。在评估层面二元成功率虽是最直接的具身能力度量却也过于粗糙。单次失败可能源于感知、语言接地、接触动力学、硬件差异或重置质量且这些原因在任务与评估轮次间并非均匀分布。因此团队正在探索更高效的预训练迭代评估协议包括基于事件粒度的密集评分、人工修正与重标注、以及从生成视频与动作轨迹预测机器人表现的通用评估模型。此类评估器无需完美替代真实硬件只需与下游机器人性能保持可靠正相关即可在昂贵硬件验证前低成本筛选模型与数据决策。最后WALL-WM 将每事件的文本泛化视为具身控制与更广泛智能体之间的桥梁。随着前沿多模态模型与智能体的快速进步高层任务推理的边界正在外移。WALL-WM 的选择是将高层任务信息分解为每事件的文本描述再逐事件映射为视觉与动作。在这一分解下跨语义事件的完整动作-文本指令泛化成为具身模型的最高优先级目标而上游智能体的推理成本或延迟则不应成为具身智能涌现的瓶颈。09 结语WALL-WM 通过在事件关节处雕刻世界动作模型为具身基础模型的规模化提供了一条先验保持的路径。它并未将视频基础模型视为一个需要短暂适配的视觉编码器而是将其语义与时序结构作为可继承的脚手架通过事件对齐的训练单元、层次化的数据生态、以及双模态推理接口逐步提升为可执行的世界动作模型。从视频生成到真实机器人控制从多样化操作到复杂场景泛化实验结果一致表明当训练的原子单位与物理世界的语义事件同频时语言、视觉与动作才能真正协同演化。参考文献WALL-WM: Carving World Action Modeling at the Event Joints. X Square Robot Team, May 2026.具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html