GR00T N1.6-一个用于通用人形机器人的先进开源基座模型--2025.12.15

GR00T N1.6-一个用于通用人形机器人的先进开源基座模型--2025.12.15 0. 前言这是面向人形机器人的 GR00T N1.5 foundation 模型的改进版本。通过若干架构、数据与建模方面的改进发现 N1.6 在仿真操控基准测试上以及在真实的双臂 YAM、AGIBot Genie-1 和 Unitree G1 机器人上的表现都优于 N1.5下文有详细说明。预计 N1.6 的用户在完成训练后应能观察到比 N1.5 更好的性能表现。1. 模型与数据改进1.1 架构变更基础 VLM使用了一个内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率能够在不填充padding的情况下按图像原始纵横比进行编码。该 VLM 在通用的视觉-语言任务和具身推理任务例如 next action prediction上共同训练。使用了 2 倍更大的 DiT32 层相比 N1.5 的 16 层。移除了 N1.5 中位于 VLM 之后的 4 层 transformer 适配器。取而代之的是在预训练期间解冻了 VLM 的最上层 4 层进行训练。对于大多数 embodiment模型预测的是相对于状态的 action chunks而不是绝对的关节角或 EEFend-effector位置。除了 N1.5 的数据混合之外N1.6 的预训练数据还额外包含数千小时来自远程操控teleoperated的数据来源如下双臂 YAM 平台的数据AGIBot Genie-1 的数据在 BEHAVIOR suite 上的模拟 Galaxea R1 Pro 数据与 Unitree G1 的全身局部操控whole-body locomanipulation数据2. 实验GR00T N1.6 在预训练阶段进行了 300K steps 的训练使用的 global batch size 为 16384。在后续的机器人实验中我们对小规模的任务专用数据集进行了额外的 post-train通常为 10K–30K steps且 global batch size 为 1K 或更小。3. 讨论与 GR00T N1.5 相比针对 GR00T N1.6 开展了更复杂的真实世界机器人实验这些实验要求具备长时程long-horizon推理、精巧动作dexterity和多任务处理能力。在扩展真实世界实验规模时吸收了机器人学习社区的多项经验教训以提高 rollouts 期间模型的成功率。对于大多数 embodiment默认使用 relative actions 作为动作空间。实验表明相较于 absolute actionsrelative actions 能产生更平滑且更精确的动作。然而在小规模数据集下relative actions 容易产生误差累积从而削弱纠正correction能力。当任务分布与预训练数据相近时pretrained statistics 可以提升性能反之若分布差异较大模型可能出现 underfit因此在分布不同的情形下我们采用 post-training statistics。GR00T N1.6 比 GR00T N1.5 收敛得更快从而产生更平滑的动作但这也需要更谨慎的调参以避免 overfitting。在 post-training 期间我们通过更强的 state regularization、额外的数据增强data augmentations以及与 pretraining 数据的 co-training 来对模型进行正则化。DAgger 能有效提升模型表现当模型在真实世界实验中表现不佳时建议采用该方法。test-time 与 train-time 的 RTC 在异步 rollout 期间能提升动作的平滑性与鲁棒性。在 Unitree G1 与 Bimanual YAM 的实验中采用了该技术。多任务的 language following 以及 OODout-of-distribution任务的泛化仍然是当前 VLA 模型面临的挑战。更细粒度的子任务标注subtask annotation可以改善 language following但尚未达到稳健的泛化能力。这将是未来研究中持续推进的方向。总体而言GR00T N1.6 在多样的 embodiment 上相较于 GR00T N1.5 有所改进。