要想富先修路这项竞赛的目标井不是展示机器人已经能做什么而是尽可能准确地界定它们暂时还做不到什么。这正是产业决策最需要的信息。所以这次赛事带来的不一定是榜单上的狂欢但一定会帮助研究人员认清技术的真实状况。模型竟赛只是见证技术迅猛发展一方面如果 ManipArena 能够持续运行它记录的将不仅是排行榜更可能是具身智能走向产业化的时间刻度。具身智能模型的结构性矛盾在于一面是飞速迭代的模型另一面则是滞后的基准线。换句话说具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。“木受绳以直”具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是由于长期缺乏统一、高标准的真机测评体系模型的迭代与产业化进程正深受制约。事实上任何产业从技术探索走向规模化都会经历一个从“百花齐放”到“标准收敛”的阶段。这是从多个万亿级市场规模的产业中验证过的成功路径互联网时代协议标准让全球网络互联互通深度学习的爆发也离不开评测体系。它们并不直接创造产品却决定了技术进步的方向与速度。具身智能正处在类似的早期阶段。过去两年从 VLAVision-Language-Action模型到世界模型技术路径层出不穷研究范式高度分散。但行业其实并不缺模型也不缺演示视频缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。没有 Benchmark模型提升还更多停留在叙事层面。有了 Benchmark技术进步才具备可验证、可复现、可积累的产业价值。在这样的背景下CVPR 2026 官方竞赛 ManipArena 的启动其意义就不再是又多了一场比赛而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施面向真实世界的统一评测体系。更重要的是一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代形成“评测-改进-再评测”的正向循环从而撬动整个领域从无序探索走向系统进化。ManipArena的不是展示能力而是测量模型边界从表面看ManipArena 是一项机器人操作竞赛但其设计逻辑更接近一次系统化能力测量。长期以来机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互往往被排除在评测之外。这便导致研发人员只能蒙眼狂奔无法精准迭代模型也可能是在实验室表现亮眼却难以迁移到现实场景。ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务并在统一环境下进行真机评测覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试这更接近对完整操作能力的系统审视。ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”One Model for All Tasks。参赛者不能针对不同任务分别训练模型而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力而非单点技巧或任务过拟合。另一项关键设计是分层 OODOut-of-Distribution评估。每个任务通过物理属性、空间布局和语义组合等多维变化构造不同难度等级从域内变化到语义外推系统测试模型在未知情况下的表现。这使评测不再只给出一个分数而是呈现能力曲线揭示模型究竟卡在感知、推理还是执行环节。此外ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务例如整理衣物、挂画、收纳物品等覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”而是评估“具身系统能力”。换句话说这项竞赛的目标并不是展示机器人已经能做什么而是尽可能准确地界定它们暂时还做不到什么。这正是产业决策最需要的信息。所以这次赛事带来的不一定是榜单上的狂欢但一定会帮助研究人员认清技术的真实状况。从竞赛到研究基础设施具身智能拐点已来ManipArena 更深远的意义或许在于它并不只是一次竞赛而是一个可持续运行的研究平台它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。首先它具备常态化评测能力。参赛者可以基于公开数据训练模型通过远程接口提交算法由平台完成真机测试并返回结果。这种机制不仅适用于比赛也适用于日常研究验证使其成为一个持续可用的 Benchmark而非一次性活动。其次平台提供了高质量真实世界数据与精细评测体系包括 188 小时高质量真机数据并承诺未来持续开源数据为模型训练与分析提供直接支撑。在机器人领域获取真实数据的成本极高这种集中供给本身就是重要的科研基础设施。更关键的是它显著降低了参与门槛。研究团队无需购买昂贵机器人设备仅依托一台 GPU 服务器即可参与全流程评测。这是一个非常关键的转折点具身智能研究长期受制于硬件成本只有少数实验室拥有设备优势而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争扩大创新来源。额外多说一点这种统一硬件的方式避免了硬件差异对结果的影响。而且由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展也将有助于形成统一的硬件标准。当性能差异主要由算法而非设备决定时研究重点将更像模型聚焦从而加速软件层面的竞争与收敛。“要想富先修路”今天的具身智能研究想要从粗狂的野蛮生长走向规范化发展正缺少这样稳定、科学的基础设施建设。自变量成行业变量外界可能会问为什么是一家模型企业来推动这项工作答案恰恰在于只有真正开发过模型的人才最清楚模型的能力边界与潜在漏洞。首先要认识到Benchmark 从来不是中性的。它隐含着对未来技术方向的假设- 比方说ManipArena 将推理、长时序决策和多模态融合放在核心位置实际上是在对具身智能的主流发展路径做出判断是对过去简单任务评测的一次技术矫正 - 再者像赛事中开源的多维数据里所特意强调的电机电流和关节速度如官方所说“电机电流和关节速度可作为力和接触的代理信号当前主流模型VLA、World Model均未有效利用电流和关节速度信号”ManipArena 此举针对性开源将有助于推动力敏感策略研究- 此外官方在表态中多次强调 VLA 与世界模型同台竞技是否各有千秋到底孰优孰劣在赛中见真章某种程度上也昭示出技术的趋势。其次做过模型的人更了解模型如何“取巧”。在许多基准测试中模型可以通过统计偏差、环境规律或特定技巧获得高分而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题例如统一环境、均匀分布变化、跨任务通用模型要求等都旨在防止过拟合和投机行为。再次真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研趟踩过足够多的坑才知道模型会在哪里崩溃。从这个角度看“做题做多了的人更会出题”并非调侃而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀也是对未来技术路径的引导。而作为长期坚持端到端具身大模型路线的企业自变量深度参与了从 VLA 到世界模型融合范式的演进过程对模型在真实物理世界中的能力边界与失效模式有着一手认知。其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合在统一多模态输入输出架构下引入具身多模态思维链通过时空状态预测、视觉因果推理与可学习记忆机制使机器人能够在非结构化环境中实现更强的零样本泛化能力 。同时依托大规模真机强化学习模型在持续与物理世界交互中积累高质量经验自主修复长尾问题形成“基础模型—真实交互—能力进化”的技术闭环 。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。正是这种从模型架构、训练方法到真实部署的全链路实践使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动也成为具身智能能力评测体系的积极塑造者。 对于一项技术革命来说其福泽社会从来不论到底是哪家企业的技术强弱反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域也是如此。模型的竞赛只是见证技术迅猛发展一方面如果 ManipArena 能够持续运行它记录的将不仅是排行榜更可能是具身智能走向产业化的时间刻度。原文链接Benchmark具身智能研究最缺乏的“基础设施”-36氪
Benchmark,具身智能研究最缺乏的“基础设施”
要想富先修路这项竞赛的目标井不是展示机器人已经能做什么而是尽可能准确地界定它们暂时还做不到什么。这正是产业决策最需要的信息。所以这次赛事带来的不一定是榜单上的狂欢但一定会帮助研究人员认清技术的真实状况。模型竟赛只是见证技术迅猛发展一方面如果 ManipArena 能够持续运行它记录的将不仅是排行榜更可能是具身智能走向产业化的时间刻度。具身智能模型的结构性矛盾在于一面是飞速迭代的模型另一面则是滞后的基准线。换句话说具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。“木受绳以直”具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是由于长期缺乏统一、高标准的真机测评体系模型的迭代与产业化进程正深受制约。事实上任何产业从技术探索走向规模化都会经历一个从“百花齐放”到“标准收敛”的阶段。这是从多个万亿级市场规模的产业中验证过的成功路径互联网时代协议标准让全球网络互联互通深度学习的爆发也离不开评测体系。它们并不直接创造产品却决定了技术进步的方向与速度。具身智能正处在类似的早期阶段。过去两年从 VLAVision-Language-Action模型到世界模型技术路径层出不穷研究范式高度分散。但行业其实并不缺模型也不缺演示视频缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。没有 Benchmark模型提升还更多停留在叙事层面。有了 Benchmark技术进步才具备可验证、可复现、可积累的产业价值。在这样的背景下CVPR 2026 官方竞赛 ManipArena 的启动其意义就不再是又多了一场比赛而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施面向真实世界的统一评测体系。更重要的是一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代形成“评测-改进-再评测”的正向循环从而撬动整个领域从无序探索走向系统进化。ManipArena的不是展示能力而是测量模型边界从表面看ManipArena 是一项机器人操作竞赛但其设计逻辑更接近一次系统化能力测量。长期以来机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互往往被排除在评测之外。这便导致研发人员只能蒙眼狂奔无法精准迭代模型也可能是在实验室表现亮眼却难以迁移到现实场景。ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务并在统一环境下进行真机评测覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试这更接近对完整操作能力的系统审视。ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”One Model for All Tasks。参赛者不能针对不同任务分别训练模型而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力而非单点技巧或任务过拟合。另一项关键设计是分层 OODOut-of-Distribution评估。每个任务通过物理属性、空间布局和语义组合等多维变化构造不同难度等级从域内变化到语义外推系统测试模型在未知情况下的表现。这使评测不再只给出一个分数而是呈现能力曲线揭示模型究竟卡在感知、推理还是执行环节。此外ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务例如整理衣物、挂画、收纳物品等覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”而是评估“具身系统能力”。换句话说这项竞赛的目标并不是展示机器人已经能做什么而是尽可能准确地界定它们暂时还做不到什么。这正是产业决策最需要的信息。所以这次赛事带来的不一定是榜单上的狂欢但一定会帮助研究人员认清技术的真实状况。从竞赛到研究基础设施具身智能拐点已来ManipArena 更深远的意义或许在于它并不只是一次竞赛而是一个可持续运行的研究平台它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。首先它具备常态化评测能力。参赛者可以基于公开数据训练模型通过远程接口提交算法由平台完成真机测试并返回结果。这种机制不仅适用于比赛也适用于日常研究验证使其成为一个持续可用的 Benchmark而非一次性活动。其次平台提供了高质量真实世界数据与精细评测体系包括 188 小时高质量真机数据并承诺未来持续开源数据为模型训练与分析提供直接支撑。在机器人领域获取真实数据的成本极高这种集中供给本身就是重要的科研基础设施。更关键的是它显著降低了参与门槛。研究团队无需购买昂贵机器人设备仅依托一台 GPU 服务器即可参与全流程评测。这是一个非常关键的转折点具身智能研究长期受制于硬件成本只有少数实验室拥有设备优势而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争扩大创新来源。额外多说一点这种统一硬件的方式避免了硬件差异对结果的影响。而且由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展也将有助于形成统一的硬件标准。当性能差异主要由算法而非设备决定时研究重点将更像模型聚焦从而加速软件层面的竞争与收敛。“要想富先修路”今天的具身智能研究想要从粗狂的野蛮生长走向规范化发展正缺少这样稳定、科学的基础设施建设。自变量成行业变量外界可能会问为什么是一家模型企业来推动这项工作答案恰恰在于只有真正开发过模型的人才最清楚模型的能力边界与潜在漏洞。首先要认识到Benchmark 从来不是中性的。它隐含着对未来技术方向的假设- 比方说ManipArena 将推理、长时序决策和多模态融合放在核心位置实际上是在对具身智能的主流发展路径做出判断是对过去简单任务评测的一次技术矫正 - 再者像赛事中开源的多维数据里所特意强调的电机电流和关节速度如官方所说“电机电流和关节速度可作为力和接触的代理信号当前主流模型VLA、World Model均未有效利用电流和关节速度信号”ManipArena 此举针对性开源将有助于推动力敏感策略研究- 此外官方在表态中多次强调 VLA 与世界模型同台竞技是否各有千秋到底孰优孰劣在赛中见真章某种程度上也昭示出技术的趋势。其次做过模型的人更了解模型如何“取巧”。在许多基准测试中模型可以通过统计偏差、环境规律或特定技巧获得高分而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题例如统一环境、均匀分布变化、跨任务通用模型要求等都旨在防止过拟合和投机行为。再次真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研趟踩过足够多的坑才知道模型会在哪里崩溃。从这个角度看“做题做多了的人更会出题”并非调侃而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀也是对未来技术路径的引导。而作为长期坚持端到端具身大模型路线的企业自变量深度参与了从 VLA 到世界模型融合范式的演进过程对模型在真实物理世界中的能力边界与失效模式有着一手认知。其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合在统一多模态输入输出架构下引入具身多模态思维链通过时空状态预测、视觉因果推理与可学习记忆机制使机器人能够在非结构化环境中实现更强的零样本泛化能力 。同时依托大规模真机强化学习模型在持续与物理世界交互中积累高质量经验自主修复长尾问题形成“基础模型—真实交互—能力进化”的技术闭环 。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。正是这种从模型架构、训练方法到真实部署的全链路实践使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动也成为具身智能能力评测体系的积极塑造者。 对于一项技术革命来说其福泽社会从来不论到底是哪家企业的技术强弱反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域也是如此。模型的竞赛只是见证技术迅猛发展一方面如果 ManipArena 能够持续运行它记录的将不仅是排行榜更可能是具身智能走向产业化的时间刻度。原文链接Benchmark具身智能研究最缺乏的“基础设施”-36氪