WorldArena榜单第一名Pelican-Unify 1.0:迈向具身智能统一范式的新里程碑

WorldArena榜单第一名Pelican-Unify 1.0:迈向具身智能统一范式的新里程碑 北京人形机器人创新中心团队发布首个统一理解、推理、想象与行动的具身基础模型2026年5月 | 技术解读图1 Pelican-Unify 1.0 统一具身智能模型概览理解、推理、想象与行动的闭环融合一、具身智能的范式演进从模块化到统一化具身智能Embodied Intelligence作为人工智能领域的前沿方向正经历着从任务专用自动化向通用基础模型的深刻转变。传统机器人系统大多采用脚本化的自动化流水线架构感知模块检测预定义状态规划器选择预定义程序控制器执行预定义动作。这种架构虽然在特定场景下表现稳定但面对开放世界的复杂任务时泛化能力受到严重制约。近年来具身智能领域涌现出多条并行发展的技术路线。视觉语言模型VLM如Gemini Robotics ER和Pelican-VL等为具身场景带来了强大的语义理解与时空推理能力但这些模型本质上属于观察者——它们能够解读场景、回答询问却无法直接输出可执行的动作指令也无法通过物理后果来验证自身推理的正确性。视觉语言动作模型VLA如RT-2、π0、π0.5、OpenVLA和Helix等成功搭建了从语言感知到运动控制的桥梁但这类模型通常缺乏显式的未来想象能力其动作输出往往依赖于模仿学习映射在未见任务组合、长程规划和接触密集型交互场景中泛化能力有限。世界模型与视频生成领域同样取得了长足进步。CosmosPredict、LeWorldModel等模型能够对未来视觉状态进行想象但这种想象往往隐式地编码在像素层面难以通过任务逻辑、人类知识或语言推理进行精确引导。World Action Models进一步将想象与动作关联但在缺乏统一推理机制的情况下模型在 rollout 过程中难以解释、难以修正长程误差累积问题依然突出。面对这一现状北京创新中心人形机器人X-HumanoidWFM系统团队提出了一个根本性的问题物理智能究竟应该通过独立专家的规模化堆叠来构建还是应该作为单一自适应循环的有机组成部分来习得基于对这一问题的深入思考团队于2026年5月正式发布了Pelican-Unify 1.0——首个按照统一化原则训练的具身基础模型。**核心观点**Pelican-Unify 1.0 的核心理念在于理解、推理、想象与行动不应被视为彼此割裂的能力模块而应作为单一自适应智能循环中相互依存的维度。具身智能体在物理世界中的进步并非源于独立拥有视觉模型、语言模型、世界模型和动作策略而是源于其将世界理解、任务推理、未来想象与动作执行整合于一个可对齐、可抽象、可规划、可精修的潜在世界空间中的能力。二、统一范式的三重内涵Pelican-Unify 1.0 所倡导的统一并非简单地将多个专家网络的输出进行拼接也不是将独立优化的模块串联成更长的流水线。团队明确指出真正的统一模型应当具备三个关键属性统一理解、统一推理与统一生成。2.1 统一理解共享语义空间统一理解要求将场景、指令、动作历史与视觉上下文嵌入到一个共享的语义空间中形成对智能体看到了什么“需要完成什么”已经做了什么以及世界处于何种状态的整体性认知。在Pelican-Unify 1.0中这一功能由单一的视觉语言模型VLM承担。该模型以Qwen3-VL为初始化基础通过专门的嵌入器将视频帧、动作历史、语言指令和机器人本体状态统一映射到VLM的token空间。数值回归与空间关系认知物理空间推理与高度测量点预测与轨迹规划边界框定位与深度距离估计具体而言视频帧由三维视频VAE编码器进行编码动作历史通过轻量级MLP嵌入语言指令经由文本分词器处理机器人本体状态则通过线性投影映射。所有模态的token被拼接后送入统一的Transformer进行处理生成统一的隐层表示。这一设计的精妙之处在于感知被指令所引导语言被物理场景所锚定动作历史被其任务进展效果所解释——各模态在共享的表示空间中实现了有机融合。2.2 统一推理语言锚定的思维链统一推理的核心思想在于将推理过程转变为一种以语言为锚点、可监督的过程使其覆盖任务意图、动作选择与未来后果而非脱离动作与想象的独白式语言输出。Pelican-Unify 1.0 的VLM在统一理解的基础上以自回归方式生成思维链Chain-of-Thought轨迹。该思维链轨迹巧妙地交织了两种互补的语言形式视频思维链Video CoT描述并解释场景预期如何演化——哪些物体会移动、接触如何形成、工作空间如何重组动作思维链Action CoT则解释并分解应当实现该未来的运动程序——调用何种子技能、末端执行器应瞄准哪些路径点。通过将两种思维链纳入同一序列模型在单一因果传递过程中同步思考应当发生什么与应当做什么。思维链轨迹的终点隐藏状态被进一步投影为一个稠密的循环状态变量z。这个z是下游未来生成模块访问模型理解与推理成果的唯一接口。由于z同时受到语言建模损失和下游视频、动作生成损失的共同塑造它必须同时编码语义信息、预测性信息和可执行信息。2.3 统一生成联合去噪的未来想象与动作输出统一生成是Pelican-Unify 1.0最具创新性的设计之一。该模块基于Wan2.2初始化的扩散TransformerDiT在相同的去噪过程中通过两个模态特定的输出头联合生成未来视频与下一阶段的低层动作块。视频流与动作流共享同一个去噪骨干网络仅在输入和输出边界处使用模态特定的参数。在视频侧模型以观察到的历史帧为前缀条件对未来帧进行条件扩散在动作侧模型以标准的流匹配方式进行训练。两个流的损失——视频损失、动作损失与语言推理损失——全部反向传播通过共享的循环状态z和共享的嵌入器使得理解、推理、想象与行动在一个闭环中协同优化而非四个独立模块的简单缝合。图2 从基础VLM出发标准VLA策略训练会削弱定位与注意力能力而Pelican-Unify 1.0在保留感知能力的同时实现动作预测三、基准测试单一检查点的三重专业能力为验证统一化是否以牺牲专业能力为代价研究团队将Pelican-Unify 1.0在三个刻意分离的评估体系中进行测试作为视觉语言模型参与八项多模态基准评测作为视觉运动策略参与RoboTwin双臂仿真评测以及作为动作条件世界模型参与WorldArena评测。3.1 理解能力八项基准全面领先在八项多模态基准测试中Pelican-Unify 1.0取得了64.7的平均分在同等规模模型中表现最优。这一成绩相较于其基础模型Qwen3-VL-4B-Instruct的58.2分有显著提升且大幅超越了MolmoAct27.5分等先前的VLA架构。模型MMMUMMBenchMMStarInfoVQAChartQAWhere2PlacePhyXRefSpatial平均分Qwen3-VL-4B52.684.562.978.481.117.041.148.058.2MolmoAct28.455.11.241.955.98.229.7-27.5Pelican-Unify 1.053.084.963.378.481.545.261.749.364.7详细分析表明这些增益并未以牺牲通用多模态能力为代价。在传统通用推理基准上Pelican-Unify与Qwen3-VL基本持平而在具身导向的Where2Place和PhyX基准上模型分别取得了45.2分和61.7分较基础模型提升了28.2分和20.6分。这表明统一模型学习到了丰富的物理 grounded 表示为下游动作与视频预测提供了更强的特征支撑。3.2 动作能力RoboTwin上的强劲表现在RoboTwin 50项双臂操作任务基准上Pelican-Unify 1.0达到了93.5%的平均成功率。在标准条件下和随机化条件下分别取得了93.6%和93.3%的成功率在参与对比的方法中位列第二仅次于MotuBrain的95.9%但显著优于AIM93.1%、LingBot-VA92.3%和starVLA88.3%等专用方法。模型类型模型标准条件随机条件平均VLAπ065.958.462.2π0.582.776.879.8starVLA88.288.388.3AIM94.092.193.1世界模型LingBot-VA92.991.692.3Fast-WAM91.991.891.9MotuBrain95.896.195.9统一模型Pelican-Unify 1.093.693.393.5逐任务分析显示50项任务中有31项达到至少95%的成功率39项达到90%15项实现完美解决100%。高成功率任务涵盖点击、摇晃、堆叠、交接和关节物体操作等多种类型表明模型在精确接触与多物体协调场景下均保持了可靠的性能。失误主要集中在最具挑战性的长程或几何敏感任务上如悬挂马克杯和垃圾桶插入等需要严格对齐或持续接触的场景。3.3 想象能力WorldArena评测登顶在WorldArena世界模型基准上Pelican-Unify 1.0的想象组件取得了66.03的EWM总分位列第一。尤其在3D准确率98.13和运动质量62.69两项关键指标上均排名第一这两项指标对空间一致性和物理合理性要求极高。模型EWM分数排名视觉质量运动质量内容一致性物理遵循3D准确率可控性Pelican-Unify66.03163.4362.6960.3361.5198.1359.28WorldScape v0.264.24262.6542.3465.1873.2996.2859.38FlowWAM-FiveAges64.12363.2941.0566.9267.8297.8460.28MotuBrain64.07460.6962.2159.5761.1891.6457.35为避免自动评测指标可能奖励视觉干净但与任务无关的 rollout研究团队进一步开展了盲测人工评估。训练有素的标注员从可控性保持首帧条件、任务成功率达成操作目标、时间一致性形状稳定无闪烁和物理合理性接触与重力连贯四个维度进行评分。Pelican-Unify 1.0取得了1.76的最高均分在任务成功率1.81和可控性2.00满分两项上表现尤为突出。图3 Pelican-Unify 1.0支持动作条件视频预测实现输入动作指令与生成视频帧的细粒度对齐四、真实机器人验证从仿真到物理世界的跨越为验证模型在真实物理环境中的综合能力研究团队在UR5e机械臂和天工人形机器人平台上开展了两组核心实验组合泛化测试与零样本泛化测试。4.1 组合泛化未见任务序列的连续执行组合泛化测试的设计颇具巧思。研究团队选取了两项原子任务A插入RJ45网线和B涂抹防水胶。在训练阶段模型仅分别学习这两项任务训练数据中从未出现将A与B串联执行的完整演示。在测试阶段机器人接收单一自然语言指令例如将RJ45网线插入3号端口并涂抹防水胶需要在一个连续 episode 中依次完成A阶段和B阶段。图4 组合泛化评估训练阶段仅学习原子任务测试阶段评估未见组合任务展示长程具身操作中的强组合泛化能力实验结果表明模型成功完成了这一挑战。关键转折点出现在A任务完成、B任务启动的衔接时刻——此时刚完成的A状态必须被重新感知为B的新初始条件。VLA基线方法在此过渡点失败的根源并非无法重新感知环境而是其动作分布缺乏对A完成后应当发生什么的表示。而Pelican-Unify 1.0的想象面在训练期间已将每个原子动词落地为 future-frame 分布能够渲染 post-A 场景状态并以其为条件重新生成动作动作面随之跟进。这一成功的特别之处在于模型从未见过完整的串联演示却学会了感知-动作循环的本质而非仅仅记忆了更丰富的动作策略。图5 细粒度操作与物理想象能力在防水、RJ45和USB插入等挑战性连接器插入任务中展现精细操作技能同时生成与真实世界高度一致的物理想象视频4.2 零样本泛化跨任务的迁移能力在天工人形机器人环境中研究团队开展了系统的零样本泛化评估。模型在五项已见任务每项约300个视频-动作 episode和三项未见任务每项仅提供50个视频序列上进行联合训练。评估结果显示Pelican-Unify 1.0在已见任务上保持了高保真执行能力同时在未见任务上也展现出强劲的跨任务泛化性能。图6 已见任务执行时间线清扫碎屑入簸箕侧视图与俯视图同步观测图7 已见任务执行时间线向杯中倾倒液体图8 未见任务执行时间线擦拭杯子——展示跨任务泛化能力这些真实世界实验为统一架构的价值提供了最直接的证据。模型生成的想象视频与真实执行视频高度一致表明其并非简单地幻觉出看似合理的场景而是基于实际环境动力学进行条件预测在执行过程中实现了 grounded 且物理连贯的推理。五、技术架构深度解析5.1 统一理解的模态融合机制Pelican-Unify 1.0的多模态上下文在控制步t时刻被表示为c_t (a_{t}, l,“” o_{≤t},“” s_{≤t})即动作历史、语言指令、环境观测和机器人本体状态的集合。每种模态首先通过各自的嵌入器提升到vlm的token空间视频帧由三维视频vae“” e_v编码动作历史由轻量级mlp“” e_a嵌入语言指令通过文本分词器处理机器人状态通过小型线性投影映射。“” p“” style“margin: 0px; padding: 0px; box-sizing: border-box;”值得注意的是E_v和E_a这两个嵌入器在统一未来生成器中被复用这意味着理解与生成共享同一个模态嵌入空间。所有token拼接后由VLM处理生成统一隐层表示H_t VLM_φ(c_t)。H_t既是编码器侧状态也是VLM自回归解码思维链轨迹的起点而连接下游生成的实际桥梁则是轨迹终点提取的循环状态z。5.2 统一推理的循环状态设计思维链轨迹τ_t以自回归方式生成交替包含视频思维链与动作思维链。轨迹终点的隐藏状态h_{τ_t}经由学习得到的投影P_φ映射为稠密循环状态z。z是下游未来生成访问模型理解与推理成果的唯一接口其独特价值在于同时受到语言建模损失和下游视频、动作生成损失的联合塑造因此必须同时编码语义、预测和可执行三类信息。5.3 统一生成的联合去噪机制统一未来生成器UFG以z为条件在共享的去噪骨干网络中联合处理视频与动作两个目标。两个目标首先通过共享嵌入器即VLM侧使用的E_v和E_a提升到生成器的token空间。在共享扩散时间s下干净潜变量与高斯噪声混合生成噪声状态随后视频与动作token连同条件z一起进入单个DiT两个轻量级输出头d_v和d_a将隐藏状态读出为各模态的速度预测。在视频侧模型扩展了标准流匹配框架使DiT在噪声化的未来潜变量之外还能看到由共享E_v编码的观察前缀。前缀区域保持干净仅未来区域被加噪。这种设计确保了观察帧条件天然存在于生成器的token空间中无需单独的条件编码器。最终的联合训练目标为三项损失的加权和文本损失思维链的自回归负对数似然、视频损失未来区域的流匹配损失和动作损失有效动作维度上的平滑L1回归。所有三项损失均通过共享的循环状态z和共享嵌入器反向传播使得理解、推理、想象与行动作为单一闭环而非四个独立模块被优化。六、对具身智能领域的启示Pelican-Unify 1.0的实验结果对具身智能领域的发展方向提出了重要启示。研究团队指出集成化的物理行为依赖于模块间的耦合而不仅仅是各组件的独立强度。零样本迁移、组合技能使用和长程连贯性正是模块化流水线试图在规划器、世界模型与策略之间的接口处 engineered 的行为。而Pelican-Unify的结果表明这些行为难以通过孤立地增强任一组件来获得。没有未来想象的策略其后果意识薄弱没有统一推理的世界模型难以通过任务语义和人类知识进行引导没有动作与想象的推理则与物理结果脱节。模块化系统所缺失的不仅是更多的容量更是一种迫使各组件在训练过程中相互适应的训练机制。这一观点改变了具身智能领域应当衡量的进步标准。一旦理解、推理、想象与行动被训练为单一循环改进不再仅仅是让每个专家变得更大而是取决于模型在多大程度上跨模态共享表示、推理在多大程度上直接约束生成、未来视频与动作在多大程度上被联合解码以及数据本身在多大程度上包含对齐的观测、指令、推理、动作与未来结果。研究团队特别强调最有价值的数据并非简单地增加旧形式的数据量而是闭环数据——在同一示例上标注了上述所有信号的耦合训练数据。核心贡献总结Pelican-Unify 1.0的主要贡献可概括为以下四个方面统一范式将物理智能形式化为理解、推理、想象与行动的耦合循环建模的基本单元不是孤立专家或成对融合而是闭环本身。三种统一的具体实现通过动作导向的任务状态实现统一理解通过指定未来应当如何发生的稠密循环状态z实现统一推理通过从同一z联合去噪未来视频与低层动作实现统一生成。端到端可学习目标语言、视频与动作监督被联合训练三项损失均反向传播通过共享的潜在表示将推理、想象与行动从模块间消息转变为单一模型内的相互塑造梯度。实证证据在VLM推理、视觉运动策略学习和世界建模基准上匹配或超越专用模型同时在真实UR5e工业控制面板操作任务上实现显著更强的零样本、组合和长程性能。七、结语从亚里士多德的灵魂无形象则不思到威廉·詹姆斯的我的思维始终为行动而存在再到《礼记·中庸》的博学之审问之慎思之明辨之笃行之——人类对智能本质的思考始终围绕着认知与行动的统一。Pelican-Unify 1.0正是这一哲学传统在人工智能时代的工程实践。研究团队谦逊地表示他们并非宣称实现了通用的具身智能而是提出了一个更为具体的命题具身智能的基础模型应当允许理解、推理、想象与行动通过共享表示协同演化而非将其作为孤立系统分别精修后再进行连接。Pelican-Unify 1.0证明这种统一不仅是工程上的简化更是一种能够保留专家模型优势、同时催生依赖于循环本身才能涌现的行为的实用建模方向。具身智能的下一阶段或许将更少地由组装更大的专家所塑造而更多地由学习理解、推理、想象与行动如何成为单一自适应过程所定义。Pelican-Unify 1.0为这一方向迈出了坚实的一步。世界模型blog世界模型bolg https://jinxindeep.github.io/blog/blog2026.html