前言机器人操作需要能够在实际执行之前生成可执行动作并预估与评估其未来后果的模型。26年5月底来自1上海创新研究院 2AGIBOT Finch的研究者提出 τ0-World Modelτ0-WM这是一种统一的视频-动作世界模型在单一的未来预测框架内集成了策略学习、视频预测和动作评估τ0-WM 构建在共享的视频扩散骨干网络之上提供两种互补接口首先一个视频动作模型从多视角观测、语言指令以及机器人状态中联合预测未来的视觉潜在表示和连续动作片段其次一个动作条件视频模拟器将候选动作片段展开为多视角未来视频并预测密集的任务进度评分该模型在大约 27,300小时的真实机器人远程操控、UMI 风格交互、以自我为中心的人类视频以及 rollout 或失败轨迹上进行训练并使用模态特定的监督掩码第一部分 τ0-WM: A Unified Video-Action World Model forRobotic Manipulation1.1 引言与相关工作1.1.1 引言如原论文所说机器人操作从根本上说是在物理结果存在不确定性的条件下进行行动的问题。机器人不仅要推断出哪种动作最有可能满足语言指令还必须预判该动作会如何通过接触、物体运动以及多步交互来改变场景从这一视角看操作策略与关于预测控制和世界模型的大量研究密切相关一个有用的模型应当能够在观测、动作与未来结果之间建立关联从而在实际执行之前改进决策过程[22, 17, 40, 41,3]然而对于真实机器人而言这种预测能力还必须与动作接口相结合使之能够由特定的机体结构、控制器以及感知系统实际执行学习这两种能力所需的数据以截然不同的形式存在第一人称视频和人类交互轨迹为如下内容提供了广泛证据物体如何运动、接触如何发生演化以及长时程任务在时间维度上是如何组织的这类数据捕捉了跨越多种物体、场景和行为的丰富视觉动态但并未在可部署机器人的控制空间中明确给出具体动作说白了机器人从人类视频中学习物理先验知识比如布料被拎起来的时候褶皱会怎么形成、重力会怎么拉扯即不用于动作生成方面的训练机器人演示恰好提供了这种“落地”依据它们把观测与在特定具身形式、控制器、传感器套件和动作表征下采集的连续动作绑定在一起然而机器人数据的采集成本高昂并且可以说只覆盖了对象、环境和任务空间中一个狭窄得多的子集即真机遥操演示数据教机器人学习如何执行具体的动作即用于动作生成方面的训练仅在机器人演示上训练会得到有物理落地但覆盖狭窄的策略仅在大规模视频数据上训练则会得到具备预测能力但在动作层面缺乏落地性的模型因此一个通用的操作系统必须在不丧失部署所需之“可执行动作落地性”的前提下利用广泛的交互数据。本文研究了一种针对机器人操作的统一视频-动作世界建模形式化方法而这个模型就叫做τ0-World Model (τ0-WM)其核心思想是将未来观测(或视频预测)、机器人动作生成以及任务进展(即基于动作的未来评估)共同嵌入到一个共享的预测模型之中同时允许每种数据源只监督其实际包含的信号『τ0-WM 从大约27,300 小时的异质语料中进行学习。该语料包括真实机器人远程操作数据、UMI 风格示范、以自我视角拍摄的人类视频以及回滚或失败轨迹。这些来源提供了不同程度的监督和动作保真度』仅含视频的数据可以用于训练视觉动力学自我视角视频在没有与机器人兼容动作的情况下提供大规模的视觉交互动态机器人轨迹可以用于训练可执行的动作生成真实机器人示范提供与部署对齐的连续动作UMI 风格示范通过较弱的类动作信号扩展了操作行为和环境进展与失败轨迹可以用于训练基于动作条件的评估而回滚或失败轨迹则为任务进展和低质量结果提供监督通过这种方式异质性不再被视为噪声或预处理上的麻烦而是被看作一种结构化的、互补监督的来源。由此得到的表征不仅意在作为策略学习的辅助特征而且旨在充当一个接口使机器人可以通过它提出动作、想象这些动作的后果(有价值评估)并在执行前对其进行修正不同于将策略学习与动力学建模分离τ0-WM 围绕一个共享的视频扩散骨干网络同时构建这两者。该骨干网络提供了两个互补的接口第一个是视频动作模型VAM它将多视角观测、语言指令和机器人状态映射到未来的视觉潜在表示以及一个连续的动作片段第二个是动作条件视频模拟器ACVS它接收当前观测、指令和一个候选动作片段并预测多视角的未来展开以及一个稠密的任务进展轨迹这两个接口之间的区别很重要VAM 回答机器人应该做什么而ACVS 估计如果执行一个提议的动作会发生什么在推理时这个统一接口允许τ0-WM 将额外的计算分配给动作选择而不是执行第一次前馈预测模型首先从VAM 中采样多个动作块并使用重去噪一致性得分对它们进行排序该得分衡量候选是否与学习到的条件动作分布一致当选定的候选看起来不可靠时τ0-WM 调用ACVS 来模拟候选动作所导致的未来并估计它们的任务进展然后将最有前景的想象未来用于条件第二次VAM 查询用于生成一个经过精炼的动作片段由此形成一个“提议–评估–修订”的过程其中对未来的预测被直接用作在执行之前改进机器人动作的机制就像公司召开董事会做战略部署时执行部门根据现实情况每提出一条战略计划战略评估部门便针对该战略计划做效果层面的战略价值预判(如果实际执行会怎么演变、最终效果会如何)如果ok 则执行如果不太ok则要求调整该战略计划1.1.2 相关工作视频动作模型、动作条件视频模拟器、用于预测式机器人学习的数据源如原论文所述τ0-WM 建立在两个相关的研究方向之上机器人视频动作模型和动作条件视频模拟器并将二者统一到一个单一的视频-动作世界建模框架中。因此作者在论文中回顾了这两个领域及其交叉方向的相关工作首先对于机器人视频动作模型视频动作模型Video Action ModelsVAMs通过联合预测视频和动作将未来预测引入机器人控制领域 [29, 5, 24, 26, 45, 43, 27, 46, 28, 44]最新的大多数方法基于预训练的视频生成扩散模型 [39, 16,42]并采用联合去噪范式在该范式中会同时生成未来的视觉潜变量和动作片段 [1, 29, 5, 24, 26]这些工作表明未来预测能够为操作任务提供有用的、关注动力学的表征一些最新系统在可扩展性或效率方面进一步改进例如Motus [5]它集成了理解、视频生成、世界建模与控制以及Fast-WAM[45]它研究在策略推理阶段去除未来预测以降低时延不同于以往主要将未来预测作为辅助策略学习目标或可选视觉输出的VAMτ0 -WM 将视频动作建模视为操控的统一基础。它的VAM 联合预测多视角的未来潜变量和可执行的动作块同时与一个带动作条件的模拟器共享相同的预测表征(即一方面预测动作二方面预测未来的视觉状态且做价值评估)。这使得未来预测不仅可以用于表征学习还可以用于测试时的动作评估与修正此外τ0 -WM 在异构的机器人、UMI 和第一视角交互数据[38, 23, 9, 31, 19] 上进行训练利用每个数据源来监督其所提供的信号其次对于面向机器人的动作条件视频模拟器另一类研究方向将视频模型用作用于决策的动作条件模拟器早期的视觉前瞻visual foresight方法学习动作条件视频预测模型并通过模型预测控制model-predictive control选择那些其预测未来与目标相匹配的动作 [11, 10]随着大规模视频生成技术的最新进展[7, 14, 34, 37, 25, 39]近期的机器人系统会在视频模型中加入机器人动作、末端执行器轨迹或可控 token作为条件从而预测操作执行的展开过程、评估策略或用于强化学习 [1, 2, 29, 15, 21, 12, 8]相比之下τ0 -WM 不将模拟器作为一个独立模块使用其动作条件视频模拟器(ACVS)与VAM 共享动作接口和骨干网络配置在相同的异质数据混合上进行训练并同时预测多视角的未来展开和任务进度评分在测试时这使得τ0 -WM 能够超越前馈式的动作预测它对候选动作进行采样通过再去噪一致性对其进行排序并调用ACVS 在执行前对低质量候选进行评估和修正最后对于用于预测式机器人学习的数据源一个通用的视频动作模型不应只从单一的机器人形态或单一的数据采集流程中学习而应从具有异质性的交互数据中学习以获得互补形式的监督信号因此作者从三个来源构建了一个总计 27.3K 小时的训练语料库17.8K 小时来自真实机器人遥操作数据包括 AGIBOT-G01、ARX 机械臂以及双臂 Franka 系统6.5K 小时来自经过筛选的、基于 Gen-DASGrippers [13] 采集的、开源的 UMI 风格示教数据以及 3.0K 小时来自开源的、以自我视角拍摄的人类交互视频 [19, 35, 36]这些数据源在机器人形态、视角、动作保真度、采集成本和行为多样性等方面各不相同使其天然适用于不同的训练目标具体而言真实机器人遥操作真实机器人演示为动作监督提供了最可靠的来源。在作者的数据集中轨迹是在AGIBOT-G01、ARX 和双臂 Franka 等平台上采集的涵盖家庭、零售和工业等多种场景通常配备头部视角相机和腕部安装相机由于这些演示是直接在机器人系统上生成的其动作与机器人的运动学特性、控制接口、传感系统以及部署条件严格对齐因此它们对于将模型约束在可执行的机器人行为上至关重要但与此同时真实机器人数据的采集成本高昂并且受到可用平台、工作空间、物体以及任务配置的限制仅依靠这类数据本身难以实现广泛的泛化能力UMI 风格的示范UMI 风格的数据为操控经验提供了一种更具可扩展性的来源。通过使用手持夹爪式设备人类操作员可以在多样化的环境中收集示范其基础设施成本显著低于完整的机器人远程操控。这些示范提供了丰富的视觉交互数据以及由设备运动生成的类动作信号它们编码了关于操控意图和物体交互的有用信息然而由于采集设备在具身形式、运动学特性、驱动方式和控制接口等方面都与目标机器人不同这些信号与可部署的机器人动作之间只有较弱的一致性因此作者将 UMI 风格的示范视为一种可扩展但较弱的视频-动作监督以自我视角拍摄的人类交互视频以自我视角拍摄的人类视频在日常操作行为上提供了最广泛的覆盖面。它们使模型能够接触到多样的物体、环境、接触模式、状态变化以及长时间跨度的任务结构然而与机器人或 UMI 数据不同自我视角视频不包含与机器人兼容的动作标签并且在具身形态和视角上存在显著差异因此作者仅将它们用于视频预测它们用于监督视觉动态但被排除在动作损失之外这三种数据源构成了一个分层的监督体系真实机器人数据提供与部署场景对齐的动作标签类似UMI 的数据提供多样的交互轨迹但其中的动作信号较弱、仅具“类动作”性质而第一人称视角视频则在缺乏动作监督的情况下提供大规模的视觉动态信息为了在所有数据源上联合训练作者采用统一的视频-动作表示并为不同模态设计各自对应的监督掩码表示且对于每个样本掩码会指明哪些输入是已观测到的、哪些目标需要被预测、以及哪些损失项是激活的。这样一来就能够在尊重不同监督信号的可靠性和可用性的前提下使异质数据共同服务于同一个端到端目标1.2 视频动作模型1.2.1 模型接口与问题表述视频动作模型VAM作为的面向策略的接口。它使用共享的预测表征联合学习未来的视觉动力学和可执行的机器人动作给定当前的多视角观测、语言指令和机器人状态VAM 预测未来的潜在轨迹以及一个可执行的动作块其中表示未来长度为的视频潜变量表示长度为的连续动作片段未来视觉预测不仅作为一个辅助目标还作为一种机制从包括无动作标注视频在内的异质数据源中学习可迁移的交互动力学而动作预测则将学习到的表示与可执行的机器人控制相联系1.2.2 架构如图 2(a) 所示VAM 由两个紧密耦合的组件构成一个用于未来视觉预测的视频分支即视频动作模型VAM作为策略接口基于共享的视频主干网络和通过交叉注意力耦合的 Action DiT分支联合预测未来的视觉潜变量和可执行的动作片段以及一个用于可执行动作生成的动作分支动作条件视频模拟器ACVS作为评估接口复用视频生成主干对 VAM 提出的动作片段进行滚动仿真并预测稠密奖励得分以用于测试阶段的动作选择这两个分支共享一个通用的预测表征并通过特征层面的交叉注意力进行交互从而使未来的视觉动态能够直接支持动作生成VAM 由 Wan2.2-TI2V-5B [39-Wan: Open and advancedlarge-scale video generative models] 实例化而来Wan 的VAE 首先将每个相机视角编码为潜变量张量。对于同步的多视角输入将各视角的潜变量在空间宽度维度上拼接从而形成一个时间对齐的潜空间画布当前观测对应的潜变量保持为干净状态作为视觉上下文而未来的潜变量槽则由视频分支加噪并去噪视频分支采用原始 Wan 视频 DiT 主干50 亿参数实现并通过条件去噪预测未来潜变量轨迹动作分支是一个 5 亿参数规模的 DiT 风格动作解码器 [33]与视频 Transformer 相耦合两者共同构成一个 55 亿参数规模的视频动作模型Video Action Model在匹配的 Transformer 阶段中动作 token 首先在动作视野内建模时间依赖关系然后对中间视频特征进行交叉注意力计算。这些视频特征同时以干净的视觉上下文和语言指令为条件从而为动作分支提供具备指令感知并与动态相关的视觉表征。这种特征层面的耦合方式延续了近期的动作专家设计[29, 20]同时将视频骨干网络保留为共享的预测基底1.2.3 联合流匹配目标VAM 将flow matching [30] 应用于未来视频潜变量和动作块。令和表示训练目标并令表示干净编码的视觉上下文给定噪声水平和标准的flow-matching 构造生成加噪输入,以及速度目标,优化如下式子其中和表示视频和动作向量场头表示由动作分支使用的中间视频特征期望是对具有不同监督级别的异质训练样本取的。机器人轨迹同时提供视觉预测、和动作方面的各自监督而第一人称人类视频只提供视觉动态项通过监督掩码处理缺失模态使得所有数据源都能参与统一的训练过程。在所有实验中作者简单地设置1.2.4 推理与部署在推理阶段VAM 将最新的多视角观测、语言指令和机器人状态作为输入并预测一段可执行的动作块当前未来潜变量在需要进行显式视觉滚动(rollout)时可以被解码为视频帧如果仅用于支撑动作生成则可以保持为潜在表示。这一设计支持两种部署模式在仅动作部署模式下系统只生成并执行预测的动作块并以递推视界的方式运行从而实现高效的实时控制————这个模式 的本质其实就是类似《Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)在推理时则移除显式的未来视频生成直接在单次前向中依托得到的潜在世界表征KV Cache预测动作》或者跟本博客中介绍的这个 更像《GigaWorld-Policy——以动作为中心的世界动作模型为降低推理延迟训练用视频推理能可选性的去视频(类似τ0-WM)》核心维度Fast-WAM极致务实派GigaWorld-Policy工程配置派τ0-WM动态闭环派·本文主角核心本质训练时用视频学表征推理时彻底丢弃视频生成即单一形态纯动作Action-only前向输出训练时用视频学表征推理时提供“可选性去视频”的工程接口即双形态可选根据工程需求配置可去视频也可留视频训练时全面吸纳异构数据 推理时将视频生成作为“按需动态拉起”的思考底牌视频“脑补”开关彻底封死推理期绝不显式生成未来视觉状态以此压低延迟手动开关由工程师根据部署环境或算力高低手动决定是否开启自动开关自信时盲跑关闭视频怀疑时自动拉起脑补开启视频在启用滚动部署模式下VAM还会预测未来的视觉潜变量这些潜变量可以被解码为多视角视频从而在需要时显式地可视化未来场景的演化过程1.3 基于动作条件的视频模拟器1.3.1 模拟器接口与问题形式化动作条件视频模拟器(ACVS)作为τ0-WM 的评估接口如图2(b) 所示与提出可执行动作块的VAM 不同ACVS估计候选动作所引发的未来结果。ACVS 并非在机器人上物理执行每一个候选动作而是预测未来的视觉展开和稠密奖励轨迹为部署时评估提供一个以动作为条件的代理给定记忆观测、一条语言指令以及一个候选动作片段ACVS 预测未来视频潜变量以及对应的稠密奖励分数其中表示想象得到的未来潜变量展开(rollout)表示预测的奖励轨迹ACVS 并不是一个动作策略它将候选动作块视为一个干净的条件并评估其所引导的未来1.3.2 架构ACVS 复用Wan 的 VAE 和视频 Transformer 主干网络[39]但移除了 Action DiT 策略分支记忆和当前观测被编码为干净的潜在上下文而未来的潜在槽位(即用来脑补未来画面的空位/位置区间)则用噪声初始化并由视频主干网络进行去噪『Memory and current observations are encoded into clean latent context,while future latent slots are initialized with noise and denoisedby the video backbone』为了在未来预测中对候选动作进行条件建模作者遵循Cosmos [2] 的动作条件化设计。对于每一个未来潜在槽位(即上图右侧左下角)与其在时间上对齐的动作(即上图右侧左上角)被组合成一个动作块并通过轻量级的 MLP 进行投影这些投影分别被注入到扩散时间嵌入和 AdaLN 调制嵌入中。得到的动作条件随后在空间 token 和相机视角上进行广播作用于对应的未来槽位而观测槽位则保持无条件(未施加动作条件)不同于 VAMACVS 不会生成动作。它唯一的目的是在给定一段候选动作序列的情况下估计场景将如何演化从而使得在相同观测和指令下不同的候选动作可以引发不同的想象未来1.3.3 奖励与进度评分除了预测未来的视觉回放(visual rollouts)之外ACVS 还会为每个候选动作片段预测一条稠密的奖励轨迹作者将每个操作任务分解为若干子任务并在子任务层面分配进度标签随后在每个子任务区间内通过蒙特卡洛传播来估计帧级奖励从而产生稠密的监督信号而不仅仅是单一的终止成功标签在奖励构造过程中有意地加入了失败数据。对于失败的子任务片段会在对应的轨迹上分配负值奖励。这些失败示例教会 ACVS 识别在给定动作条件下导致接触失败、物体运动错误或任务倒退的未来情形。因此ACVS 学会区分那些能够促成有意义任务进展的动作和那些仅仅产生视觉上合理运动的动作为了进一步提升模拟器的逼真度作者在模拟器训练中加入了大量包含失败与恢复过程的轨迹。尽管这类数据可能并不适合作为策略学习的直接监督信号但对于模拟器学习而言却尤为重要因为它让模型接触到分布外的动作、失败的交互过程以及仅从成功示范中难以观察到的恢复行为1.3.4 训练目标ACVS 采用与 VAM 相同的流匹配公式并联合监督未来的视频潜在表示和密集奖励轨迹令表示干净的视觉上下文表示由候选动作诱导的未来潜在展开以及表示目标奖励轨迹给定噪声水平和标准的流匹配构造会生成加噪输入,以及速度目标,然后优化其中和分别表示视频和奖励速度预测器表示被奖励头使用的动作条件视频特征。在所有实验中作者简单地设定1.4 测试时计算// 待更
τ0-WM——用于机器人操作的统一视频-动作世界模型:组合“真机遥操、umi、人类第一人称视角”三类数据,预测动作的同时预判该动作下的未来视觉状态,并做任务进度评分更按需修订动作
前言机器人操作需要能够在实际执行之前生成可执行动作并预估与评估其未来后果的模型。26年5月底来自1上海创新研究院 2AGIBOT Finch的研究者提出 τ0-World Modelτ0-WM这是一种统一的视频-动作世界模型在单一的未来预测框架内集成了策略学习、视频预测和动作评估τ0-WM 构建在共享的视频扩散骨干网络之上提供两种互补接口首先一个视频动作模型从多视角观测、语言指令以及机器人状态中联合预测未来的视觉潜在表示和连续动作片段其次一个动作条件视频模拟器将候选动作片段展开为多视角未来视频并预测密集的任务进度评分该模型在大约 27,300小时的真实机器人远程操控、UMI 风格交互、以自我为中心的人类视频以及 rollout 或失败轨迹上进行训练并使用模态特定的监督掩码第一部分 τ0-WM: A Unified Video-Action World Model forRobotic Manipulation1.1 引言与相关工作1.1.1 引言如原论文所说机器人操作从根本上说是在物理结果存在不确定性的条件下进行行动的问题。机器人不仅要推断出哪种动作最有可能满足语言指令还必须预判该动作会如何通过接触、物体运动以及多步交互来改变场景从这一视角看操作策略与关于预测控制和世界模型的大量研究密切相关一个有用的模型应当能够在观测、动作与未来结果之间建立关联从而在实际执行之前改进决策过程[22, 17, 40, 41,3]然而对于真实机器人而言这种预测能力还必须与动作接口相结合使之能够由特定的机体结构、控制器以及感知系统实际执行学习这两种能力所需的数据以截然不同的形式存在第一人称视频和人类交互轨迹为如下内容提供了广泛证据物体如何运动、接触如何发生演化以及长时程任务在时间维度上是如何组织的这类数据捕捉了跨越多种物体、场景和行为的丰富视觉动态但并未在可部署机器人的控制空间中明确给出具体动作说白了机器人从人类视频中学习物理先验知识比如布料被拎起来的时候褶皱会怎么形成、重力会怎么拉扯即不用于动作生成方面的训练机器人演示恰好提供了这种“落地”依据它们把观测与在特定具身形式、控制器、传感器套件和动作表征下采集的连续动作绑定在一起然而机器人数据的采集成本高昂并且可以说只覆盖了对象、环境和任务空间中一个狭窄得多的子集即真机遥操演示数据教机器人学习如何执行具体的动作即用于动作生成方面的训练仅在机器人演示上训练会得到有物理落地但覆盖狭窄的策略仅在大规模视频数据上训练则会得到具备预测能力但在动作层面缺乏落地性的模型因此一个通用的操作系统必须在不丧失部署所需之“可执行动作落地性”的前提下利用广泛的交互数据。本文研究了一种针对机器人操作的统一视频-动作世界建模形式化方法而这个模型就叫做τ0-World Model (τ0-WM)其核心思想是将未来观测(或视频预测)、机器人动作生成以及任务进展(即基于动作的未来评估)共同嵌入到一个共享的预测模型之中同时允许每种数据源只监督其实际包含的信号『τ0-WM 从大约27,300 小时的异质语料中进行学习。该语料包括真实机器人远程操作数据、UMI 风格示范、以自我视角拍摄的人类视频以及回滚或失败轨迹。这些来源提供了不同程度的监督和动作保真度』仅含视频的数据可以用于训练视觉动力学自我视角视频在没有与机器人兼容动作的情况下提供大规模的视觉交互动态机器人轨迹可以用于训练可执行的动作生成真实机器人示范提供与部署对齐的连续动作UMI 风格示范通过较弱的类动作信号扩展了操作行为和环境进展与失败轨迹可以用于训练基于动作条件的评估而回滚或失败轨迹则为任务进展和低质量结果提供监督通过这种方式异质性不再被视为噪声或预处理上的麻烦而是被看作一种结构化的、互补监督的来源。由此得到的表征不仅意在作为策略学习的辅助特征而且旨在充当一个接口使机器人可以通过它提出动作、想象这些动作的后果(有价值评估)并在执行前对其进行修正不同于将策略学习与动力学建模分离τ0-WM 围绕一个共享的视频扩散骨干网络同时构建这两者。该骨干网络提供了两个互补的接口第一个是视频动作模型VAM它将多视角观测、语言指令和机器人状态映射到未来的视觉潜在表示以及一个连续的动作片段第二个是动作条件视频模拟器ACVS它接收当前观测、指令和一个候选动作片段并预测多视角的未来展开以及一个稠密的任务进展轨迹这两个接口之间的区别很重要VAM 回答机器人应该做什么而ACVS 估计如果执行一个提议的动作会发生什么在推理时这个统一接口允许τ0-WM 将额外的计算分配给动作选择而不是执行第一次前馈预测模型首先从VAM 中采样多个动作块并使用重去噪一致性得分对它们进行排序该得分衡量候选是否与学习到的条件动作分布一致当选定的候选看起来不可靠时τ0-WM 调用ACVS 来模拟候选动作所导致的未来并估计它们的任务进展然后将最有前景的想象未来用于条件第二次VAM 查询用于生成一个经过精炼的动作片段由此形成一个“提议–评估–修订”的过程其中对未来的预测被直接用作在执行之前改进机器人动作的机制就像公司召开董事会做战略部署时执行部门根据现实情况每提出一条战略计划战略评估部门便针对该战略计划做效果层面的战略价值预判(如果实际执行会怎么演变、最终效果会如何)如果ok 则执行如果不太ok则要求调整该战略计划1.1.2 相关工作视频动作模型、动作条件视频模拟器、用于预测式机器人学习的数据源如原论文所述τ0-WM 建立在两个相关的研究方向之上机器人视频动作模型和动作条件视频模拟器并将二者统一到一个单一的视频-动作世界建模框架中。因此作者在论文中回顾了这两个领域及其交叉方向的相关工作首先对于机器人视频动作模型视频动作模型Video Action ModelsVAMs通过联合预测视频和动作将未来预测引入机器人控制领域 [29, 5, 24, 26, 45, 43, 27, 46, 28, 44]最新的大多数方法基于预训练的视频生成扩散模型 [39, 16,42]并采用联合去噪范式在该范式中会同时生成未来的视觉潜变量和动作片段 [1, 29, 5, 24, 26]这些工作表明未来预测能够为操作任务提供有用的、关注动力学的表征一些最新系统在可扩展性或效率方面进一步改进例如Motus [5]它集成了理解、视频生成、世界建模与控制以及Fast-WAM[45]它研究在策略推理阶段去除未来预测以降低时延不同于以往主要将未来预测作为辅助策略学习目标或可选视觉输出的VAMτ0 -WM 将视频动作建模视为操控的统一基础。它的VAM 联合预测多视角的未来潜变量和可执行的动作块同时与一个带动作条件的模拟器共享相同的预测表征(即一方面预测动作二方面预测未来的视觉状态且做价值评估)。这使得未来预测不仅可以用于表征学习还可以用于测试时的动作评估与修正此外τ0 -WM 在异构的机器人、UMI 和第一视角交互数据[38, 23, 9, 31, 19] 上进行训练利用每个数据源来监督其所提供的信号其次对于面向机器人的动作条件视频模拟器另一类研究方向将视频模型用作用于决策的动作条件模拟器早期的视觉前瞻visual foresight方法学习动作条件视频预测模型并通过模型预测控制model-predictive control选择那些其预测未来与目标相匹配的动作 [11, 10]随着大规模视频生成技术的最新进展[7, 14, 34, 37, 25, 39]近期的机器人系统会在视频模型中加入机器人动作、末端执行器轨迹或可控 token作为条件从而预测操作执行的展开过程、评估策略或用于强化学习 [1, 2, 29, 15, 21, 12, 8]相比之下τ0 -WM 不将模拟器作为一个独立模块使用其动作条件视频模拟器(ACVS)与VAM 共享动作接口和骨干网络配置在相同的异质数据混合上进行训练并同时预测多视角的未来展开和任务进度评分在测试时这使得τ0 -WM 能够超越前馈式的动作预测它对候选动作进行采样通过再去噪一致性对其进行排序并调用ACVS 在执行前对低质量候选进行评估和修正最后对于用于预测式机器人学习的数据源一个通用的视频动作模型不应只从单一的机器人形态或单一的数据采集流程中学习而应从具有异质性的交互数据中学习以获得互补形式的监督信号因此作者从三个来源构建了一个总计 27.3K 小时的训练语料库17.8K 小时来自真实机器人遥操作数据包括 AGIBOT-G01、ARX 机械臂以及双臂 Franka 系统6.5K 小时来自经过筛选的、基于 Gen-DASGrippers [13] 采集的、开源的 UMI 风格示教数据以及 3.0K 小时来自开源的、以自我视角拍摄的人类交互视频 [19, 35, 36]这些数据源在机器人形态、视角、动作保真度、采集成本和行为多样性等方面各不相同使其天然适用于不同的训练目标具体而言真实机器人遥操作真实机器人演示为动作监督提供了最可靠的来源。在作者的数据集中轨迹是在AGIBOT-G01、ARX 和双臂 Franka 等平台上采集的涵盖家庭、零售和工业等多种场景通常配备头部视角相机和腕部安装相机由于这些演示是直接在机器人系统上生成的其动作与机器人的运动学特性、控制接口、传感系统以及部署条件严格对齐因此它们对于将模型约束在可执行的机器人行为上至关重要但与此同时真实机器人数据的采集成本高昂并且受到可用平台、工作空间、物体以及任务配置的限制仅依靠这类数据本身难以实现广泛的泛化能力UMI 风格的示范UMI 风格的数据为操控经验提供了一种更具可扩展性的来源。通过使用手持夹爪式设备人类操作员可以在多样化的环境中收集示范其基础设施成本显著低于完整的机器人远程操控。这些示范提供了丰富的视觉交互数据以及由设备运动生成的类动作信号它们编码了关于操控意图和物体交互的有用信息然而由于采集设备在具身形式、运动学特性、驱动方式和控制接口等方面都与目标机器人不同这些信号与可部署的机器人动作之间只有较弱的一致性因此作者将 UMI 风格的示范视为一种可扩展但较弱的视频-动作监督以自我视角拍摄的人类交互视频以自我视角拍摄的人类视频在日常操作行为上提供了最广泛的覆盖面。它们使模型能够接触到多样的物体、环境、接触模式、状态变化以及长时间跨度的任务结构然而与机器人或 UMI 数据不同自我视角视频不包含与机器人兼容的动作标签并且在具身形态和视角上存在显著差异因此作者仅将它们用于视频预测它们用于监督视觉动态但被排除在动作损失之外这三种数据源构成了一个分层的监督体系真实机器人数据提供与部署场景对齐的动作标签类似UMI 的数据提供多样的交互轨迹但其中的动作信号较弱、仅具“类动作”性质而第一人称视角视频则在缺乏动作监督的情况下提供大规模的视觉动态信息为了在所有数据源上联合训练作者采用统一的视频-动作表示并为不同模态设计各自对应的监督掩码表示且对于每个样本掩码会指明哪些输入是已观测到的、哪些目标需要被预测、以及哪些损失项是激活的。这样一来就能够在尊重不同监督信号的可靠性和可用性的前提下使异质数据共同服务于同一个端到端目标1.2 视频动作模型1.2.1 模型接口与问题表述视频动作模型VAM作为的面向策略的接口。它使用共享的预测表征联合学习未来的视觉动力学和可执行的机器人动作给定当前的多视角观测、语言指令和机器人状态VAM 预测未来的潜在轨迹以及一个可执行的动作块其中表示未来长度为的视频潜变量表示长度为的连续动作片段未来视觉预测不仅作为一个辅助目标还作为一种机制从包括无动作标注视频在内的异质数据源中学习可迁移的交互动力学而动作预测则将学习到的表示与可执行的机器人控制相联系1.2.2 架构如图 2(a) 所示VAM 由两个紧密耦合的组件构成一个用于未来视觉预测的视频分支即视频动作模型VAM作为策略接口基于共享的视频主干网络和通过交叉注意力耦合的 Action DiT分支联合预测未来的视觉潜变量和可执行的动作片段以及一个用于可执行动作生成的动作分支动作条件视频模拟器ACVS作为评估接口复用视频生成主干对 VAM 提出的动作片段进行滚动仿真并预测稠密奖励得分以用于测试阶段的动作选择这两个分支共享一个通用的预测表征并通过特征层面的交叉注意力进行交互从而使未来的视觉动态能够直接支持动作生成VAM 由 Wan2.2-TI2V-5B [39-Wan: Open and advancedlarge-scale video generative models] 实例化而来Wan 的VAE 首先将每个相机视角编码为潜变量张量。对于同步的多视角输入将各视角的潜变量在空间宽度维度上拼接从而形成一个时间对齐的潜空间画布当前观测对应的潜变量保持为干净状态作为视觉上下文而未来的潜变量槽则由视频分支加噪并去噪视频分支采用原始 Wan 视频 DiT 主干50 亿参数实现并通过条件去噪预测未来潜变量轨迹动作分支是一个 5 亿参数规模的 DiT 风格动作解码器 [33]与视频 Transformer 相耦合两者共同构成一个 55 亿参数规模的视频动作模型Video Action Model在匹配的 Transformer 阶段中动作 token 首先在动作视野内建模时间依赖关系然后对中间视频特征进行交叉注意力计算。这些视频特征同时以干净的视觉上下文和语言指令为条件从而为动作分支提供具备指令感知并与动态相关的视觉表征。这种特征层面的耦合方式延续了近期的动作专家设计[29, 20]同时将视频骨干网络保留为共享的预测基底1.2.3 联合流匹配目标VAM 将flow matching [30] 应用于未来视频潜变量和动作块。令和表示训练目标并令表示干净编码的视觉上下文给定噪声水平和标准的flow-matching 构造生成加噪输入,以及速度目标,优化如下式子其中和表示视频和动作向量场头表示由动作分支使用的中间视频特征期望是对具有不同监督级别的异质训练样本取的。机器人轨迹同时提供视觉预测、和动作方面的各自监督而第一人称人类视频只提供视觉动态项通过监督掩码处理缺失模态使得所有数据源都能参与统一的训练过程。在所有实验中作者简单地设置1.2.4 推理与部署在推理阶段VAM 将最新的多视角观测、语言指令和机器人状态作为输入并预测一段可执行的动作块当前未来潜变量在需要进行显式视觉滚动(rollout)时可以被解码为视频帧如果仅用于支撑动作生成则可以保持为潜在表示。这一设计支持两种部署模式在仅动作部署模式下系统只生成并执行预测的动作块并以递推视界的方式运行从而实现高效的实时控制————这个模式 的本质其实就是类似《Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)在推理时则移除显式的未来视频生成直接在单次前向中依托得到的潜在世界表征KV Cache预测动作》或者跟本博客中介绍的这个 更像《GigaWorld-Policy——以动作为中心的世界动作模型为降低推理延迟训练用视频推理能可选性的去视频(类似τ0-WM)》核心维度Fast-WAM极致务实派GigaWorld-Policy工程配置派τ0-WM动态闭环派·本文主角核心本质训练时用视频学表征推理时彻底丢弃视频生成即单一形态纯动作Action-only前向输出训练时用视频学表征推理时提供“可选性去视频”的工程接口即双形态可选根据工程需求配置可去视频也可留视频训练时全面吸纳异构数据 推理时将视频生成作为“按需动态拉起”的思考底牌视频“脑补”开关彻底封死推理期绝不显式生成未来视觉状态以此压低延迟手动开关由工程师根据部署环境或算力高低手动决定是否开启自动开关自信时盲跑关闭视频怀疑时自动拉起脑补开启视频在启用滚动部署模式下VAM还会预测未来的视觉潜变量这些潜变量可以被解码为多视角视频从而在需要时显式地可视化未来场景的演化过程1.3 基于动作条件的视频模拟器1.3.1 模拟器接口与问题形式化动作条件视频模拟器(ACVS)作为τ0-WM 的评估接口如图2(b) 所示与提出可执行动作块的VAM 不同ACVS估计候选动作所引发的未来结果。ACVS 并非在机器人上物理执行每一个候选动作而是预测未来的视觉展开和稠密奖励轨迹为部署时评估提供一个以动作为条件的代理给定记忆观测、一条语言指令以及一个候选动作片段ACVS 预测未来视频潜变量以及对应的稠密奖励分数其中表示想象得到的未来潜变量展开(rollout)表示预测的奖励轨迹ACVS 并不是一个动作策略它将候选动作块视为一个干净的条件并评估其所引导的未来1.3.2 架构ACVS 复用Wan 的 VAE 和视频 Transformer 主干网络[39]但移除了 Action DiT 策略分支记忆和当前观测被编码为干净的潜在上下文而未来的潜在槽位(即用来脑补未来画面的空位/位置区间)则用噪声初始化并由视频主干网络进行去噪『Memory and current observations are encoded into clean latent context,while future latent slots are initialized with noise and denoisedby the video backbone』为了在未来预测中对候选动作进行条件建模作者遵循Cosmos [2] 的动作条件化设计。对于每一个未来潜在槽位(即上图右侧左下角)与其在时间上对齐的动作(即上图右侧左上角)被组合成一个动作块并通过轻量级的 MLP 进行投影这些投影分别被注入到扩散时间嵌入和 AdaLN 调制嵌入中。得到的动作条件随后在空间 token 和相机视角上进行广播作用于对应的未来槽位而观测槽位则保持无条件(未施加动作条件)不同于 VAMACVS 不会生成动作。它唯一的目的是在给定一段候选动作序列的情况下估计场景将如何演化从而使得在相同观测和指令下不同的候选动作可以引发不同的想象未来1.3.3 奖励与进度评分除了预测未来的视觉回放(visual rollouts)之外ACVS 还会为每个候选动作片段预测一条稠密的奖励轨迹作者将每个操作任务分解为若干子任务并在子任务层面分配进度标签随后在每个子任务区间内通过蒙特卡洛传播来估计帧级奖励从而产生稠密的监督信号而不仅仅是单一的终止成功标签在奖励构造过程中有意地加入了失败数据。对于失败的子任务片段会在对应的轨迹上分配负值奖励。这些失败示例教会 ACVS 识别在给定动作条件下导致接触失败、物体运动错误或任务倒退的未来情形。因此ACVS 学会区分那些能够促成有意义任务进展的动作和那些仅仅产生视觉上合理运动的动作为了进一步提升模拟器的逼真度作者在模拟器训练中加入了大量包含失败与恢复过程的轨迹。尽管这类数据可能并不适合作为策略学习的直接监督信号但对于模拟器学习而言却尤为重要因为它让模型接触到分布外的动作、失败的交互过程以及仅从成功示范中难以观察到的恢复行为1.3.4 训练目标ACVS 采用与 VAM 相同的流匹配公式并联合监督未来的视频潜在表示和密集奖励轨迹令表示干净的视觉上下文表示由候选动作诱导的未来潜在展开以及表示目标奖励轨迹给定噪声水平和标准的流匹配构造会生成加噪输入,以及速度目标,然后优化其中和分别表示视频和奖励速度预测器表示被奖励头使用的动作条件视频特征。在所有实验中作者简单地设定1.4 测试时计算// 待更