CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)

CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究) 摘要通用型机器人策略如今已能执行多种操作技能但评估并提升其处理陌生物体和指令的能力仍面临重大挑战。严格的性能评估需要进行大量真实场景测试而系统性优化则需依赖带有专家标注的修正数据——这两个过程均耗时漫长、成本高昂且难以规模化实施。世界模型为此提供了具有前景且可扩展的解决方案它能够使策略在想象空间内运行。然而关键难点在于构建一个能有效处理与通用型机器人策略进行多步骤交互的可控世界模型。这要求该模型需支持多视角预测、精细动作控制以及一致性的长时程交互能力而这正是现有研究尚未实现的目标。本文通过引入一种可控的多视角世界模型在评估和提升通用型机器人策略的指令执行能力方面取得重要进展。我们的模型采用姿态条件记忆检索机制确保长时程一致性并通过帧级动作调控实现精准的动作控制。基于droid数据集包含95,000条轨迹和564个场景训练后该模型能在新型场景及不同摄像头位置下持续生成时空一致的运动轨迹持续时间超过20秒。我们证明我们的方法无需实际部署机器人即可准确评估策略性能。此外通过在模型中合成成功的运动轨迹并将其用于监督微调该方法可使策略成功率提升44.7%。Ctrl-World专为采用通用机器人策略的闭环策略部署场景而设计。该系统能够生成包含手腕视角在内的多视图联合预测结果通过帧级条件化实现精细的动作控制并借助姿态相关记忆检索机制维持连贯的长时程动态行为。这些核心功能可实现(1)在模拟环境中进行精准的策略评估并与真实部署场景保持一致性(2)通过合成轨迹实现针对性的策略优化。Ctrl-World基于预训练的视频扩散模型构建而成并被优化为一个可控制且时间一致性强的世界模型其核心特征包括(1)多视角输入与联合预测机制实现统一的信息理解(2)记忆检索机制通过帧级交叉注意力将稀疏的历史帧信息及运动姿态信息融入每个帧中使预测结果与相似的历史状态保持关联(3)帧级动作条件化机制使高频动作与视觉动态更好地同步。验证集上交互式长轨迹生成的定量结果。我们通过生成10秒长的轨迹来评估世界模型的质量。给定随机采样的初始帧模型在每次交互中接收一个包含15个动作步骤覆盖1秒时间的序列并进行10轮自回归生成结果取256个片段的平均值对Ctrl-World系统中的关键组件进行功能消除操作。移除内存机制、帧级动作条件反射或多视图联合预测均会导致性能下降现实场景与世界模型部署之间的定量相关性。世界模型能够可靠地捕捉指令执行行为但往往低估实际执行成功率结论我们推出了Ctrl-World——一款专为机器人操作设计的可控世界模型该模型完全支持在模型内部进行闭环策略评估与优化。在Ctrl-World中测试的策略展现出与现实世界高度一致的指令执行行为经过生成数据训练后预训练机器人策略对新指令的成功率从38.7%提升至83.4%。尽管成果令人鼓舞但仍存在重要挑战我们的模型在涉及精确交互或长时程推理的任务中易出现失败且性能对初始观测数据敏感随着视频数据骨架模型的物理精度和连贯性不断提升Ball 等2025 Agarwal 等2025这些局限性有望逐步缓解。此外本实验主要聚焦于提升指令执行能力我们认为当前模型精度尚不足以显著改善其他方面表现如对已见过指令的低级成功率。通过迭代策略部署与微调来改进模型是极具前景的研究方向。展望未来我们相信生成式世界模型将彻底改变机器人技能习得方式不仅实现可扩展的策略评估还能使机器人既能从真实环境经验中学习也能高效安全地从生成数据中获取知识。