阿里巴巴发布千问具身智能大模型 Qwen - Robot 系列,三大模型各展优势助力物理智能应用

阿里巴巴发布千问具身智能大模型 Qwen - Robot 系列,三大模型各展优势助力物理智能应用 Qwen - RobotNav物理智能体的行动入口通过可控观测编码和工具接口把视觉语言能力接入移动控制统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。其核心思路是将视觉分配策略本身参数化模型在 1,560 万条样本上训练一套权重统一五类导航任务。具有统一多域导航、可控观测协议、智能体导航系统、开放环境泛化等优势。Qwen - RobotManip物理智能体的交互基石通过规范状态 - 动作空间和相机坐标系下的末端执行器增量位姿把视觉语言能力接入操作控制基于 38,100 小时开源语料库实现大规模多机型训练。以 Qwen3.5 - 4B VL 为骨干、结合流匹配 DiT 动作头解决问题。具有统一跨本体对齐框架、大规模人 - 机迁移数据合成、分布外泛化、真实环境表现等优势。Qwen - RobotWorld物理智能体的无限世界通过自然语言动作接口把视觉语言能力接入世界动态预测能跨操作、驾驶和导航场景预测符合物理规律的未来。通过直接学习世界的状态转移函数解决问题关键设计是将动作以自然语言表达。具有语言驱动的统一动作接口、双流 MMDiT Qwen2.5 - VL 动作编码器、榜单排名靠前、核心能力突出等优势。三个模型各自独立可用通用 Qwen 模型可将它们组合连接通用智能与物理行动。此外阿里还有内部项目 Qwen - RobotClaw 推动物理智能应用。