英伟达全模态Cosmos 3:一个模型搞定物理智能看、想、做、演

英伟达全模态Cosmos 3:一个模型搞定物理智能看、想、做、演 五种模态一把抓英伟达开源全模态世界模型Cosmos 3。物理世界需要一种新的智能能同时看懂画面、听出声音、理解语言、预测运动、生成动作还能把这一切串起来。英伟达的 Cosmos 3 做到了一个模型五种模态理解和生成一把抓在多个主流榜单上拿下开源第一。Cosmos 3 是英伟达最新发布的全模态Omnimodal世界模型面向 Physical AI物理智能用一套统一的 Mixture-of-TransformersMoT混合Transformer架构同时处理和生成语言、图像、视频、音频与动作序列。它把视觉语言模型、视频生成器、世界模拟器、世界-动作模型四种角色合并成一个框架.在后训练阶段被 Artificial Analysis 评为最佳开源文生图和图生视频模型。被 RoboArena 评为最佳策略模型。代码、模型权重、精选合成数据集和评测基准全部开源采用 Linux 基金会的 OpenMDW-1.1 许可。五种模态一套架构此前开发者做物理智能得拼积木。世界生成用 Cosmos Predict受控生成用 Cosmos Transfer场景理解用 Cosmos Reason策略生成用 Cosmos Policy。四个模型四条推理管线切换成本高信息没法在模型间流动。更麻烦的是不同模型之间没有共享表征一个模型看懂的物体位置和运动趋势另一个模型得从头再理解一遍。做机器人抓取任务的时候Cosmos Reason 理解了桌上物体的位置关系但到 Cosmos Policy 生成动作时这个理解传不过去等于白费功夫。Cosmos 3 把这一切塞进了一个模型。文本、图像、视频、音频、动作五种输入先经过各自的编码器视觉理解走 ViT视觉和音频生成走 VAE动作走领域感知向量全部投射到一个共享表征空间。同一个物体的位置信息、运动状态、声音特征在这个空间里是一份统一的表示不需要重复编码。MoT 架构的核心思想在于不同模态不需要完全独立的网络它们可以共享大部分计算只在关键的地方分叉。这让参数效率大幅提升16B 的 Nano 模型能顶过去好几个专用模型的活。输入序列在这个共享空间里被拆成两条子序列自回归ARAutoregressive子序列负责推理和理解走 next-token prediction扩散DMDiffusion子序列负责生成走迭代去噪。两条子序列在每一层 Transformer 里用各自的参数集但通过联合注意力Joint Attention交互。模型无需任何架构改动就能在 VLM视觉语言模型、视频生成器、前向/逆动力学模型、机器人策略之间自由切换。理解能帮生成生成能反哺理解。比如机器人要执行把花放进红色瓶子这个任务Cosmos 3 先在 AR 通道里推理出抓取轨迹的坐标再在 DM 通道里根据轨迹生成对应视频。两条线共享注意力推理结果直接引导生成方向生成画面又反过来验证推理合理性。先想后做的方式比直接端到端生成可控得多出错概率也小得多。英伟达把这一能力叫做推理生成联动也是 Cosmos 3 区别于纯生成模型或纯推理模型的关键差异。灵活的输入输出组合让 Cosmos 3 覆盖了物理智能最核心的应用场景五种输入、五种输出排列组合下来远不止上面这些但最关键的几个物理智能任务已经全部覆盖。你想要一个既能看路况又能规划行驶轨迹的自动驾驶系统或者一个能看懂桌面场景并生成机械臂抓取动作的机器人控制器Cosmos 3 都能在同一个前向传播里完成。这就省去了多模型串联的工程开销也让信息在理解和生成之间无损耗传递。理解和生成双线开挂Cosmos 3 在理解和生成两个维度上都交出了亮眼成绩单。推理侧在机器人、智能空间、驾驶三大基准测试平均分上排名开源第一生成侧在文生图、图生视频和机器人策略上排名开源第一。理解侧它能在自动驾驶场景中识别关键物体并推理下一步动作。它做的远不止识别画面里有什么物体还会把物体的状态、相互关系、潜在风险综合起来做推理交通灯在前方车辆在减速自己当前速度偏快需要减速。链式推理Chain-of-Thought在自动驾驶决策里至关重要光识别不够还得判断接下来怎么办。在机器人操作场景中它基于视觉输入推理出末端执行器的2D轨迹坐标一步步拆解完整动作链。它还能做时序动作定位从一段机器人操作视频中精确标注每个动作段的起止时间。精细到这个程度对机器人行为分析和任务评估来说非常实用。生成侧它能根据文字描述生成极具物理细节的场景。这些图像不只是好看它们保留了物体的空间布局、材质质感和物理线索为下游视频生成和策略规划提供可靠输入。Cosmos 3 生成的图片可以当作工作输入相当于工程图。Cosmos 3 能从文字或图像出发生成带有物理意识的视频片段。推理指导生成生成验证推理形成闭环。这也是为什么 Cosmos 3 不仅仅是把几个模型拼在一起它的理解和生成在架构层面就是耦合的跟拼装多模型完全不同。两个尺寸全开源Cosmos 3 提供两个规格适应不同算力和场景需求。Cosmos 3 Nano16B参数8B推理器 8B生成器为高效推理优化一张 RTX PRO 6000 GPU 就能跑。适合部署端侧推理和实时交互场景比如工厂里的分拣机器人需要实时感知和决策Nano 的推理速度能跟上产线节拍。Cosmos 3 Super64B参数32B推理器 32B生成器面向大规模合成数据生成和科研在 NVIDIA Hopper 和 Blackwell GPU 上运行。做大规模数据工厂、批量生成训练素材、跑前沿研究实验Super 是更合适的选择。英伟达此次开源力度相当大。代码、模型权重、精选合成数据集和评测基准全部放出许可证是 Linux 基金会的 OpenMDW-1.1商用友好。配套发布的还有6个合成数据集覆盖物理智能的主要应用领域这些数据集由英伟达各团队生成在 Hugging Face 上可以直接下载。对于物理智能研究者来说高质量合成数据一直是稀缺资源这批数据集的开放降低了训练和评测世界模型的门槛。特别是 Physical-Interaction-Scenes 基于 Isaac Sim 物理引擎生成数据本身的物理一致性有保障比从互联网抓取的杂乱视频数据质量高得多。Embodied-Robot-Scenes 覆盖了多种机器人在不同场景下的操作数据Autonomous-Driving-Scenarios 包含了各类驾驶仿真场景Warehouse-Operations-Scenes 则聚焦仓库安全场景这类数据在现实世界里采集成本高、风险大合成数据恰好填补了这个空缺。仓库还附带了后训练脚本方便开发者用自己的数据集微调 Cosmos 3适配不同的机器人、环境和任务。英伟达官方鼓励对 Cosmos 3 进行后训练让它在特定场景下发挥更大价值。Agent Skills 工具包也一并提供帮助快速搭建环境、验证依赖、了解代码结构、生成高质量提示词和运行推理脚本。这一整套工具链从推理到训练到部署覆盖了物理智能开发的全流程。从 Cosmos Predict、Transfer、Reason、Policy 四兄弟到 Cosmos 3 一个模型统一天下英伟达在物理智能这条路上走了一条清晰的路线先拆开做深再合起来做强。MoT 架构让理解和生成共享计算联合注意力让推理和生成交互开源策略把能力交到社区手里。参考资料https://research.nvidia.com/labs/cosmos-lab/cosmos3/https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdfhttps://github.com/nvidia/Cosmoshttps://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai