这项由西湖大学、浙江大学、清华大学、香港科技大学广州以及北京智源人工智能研究院联合开展的研究于2026年5月发表在预印本平台arXiv上论文编号为arXiv:2605.10903。感兴趣的读者可以通过这个编号检索到完整原文。机器人在当今社会越来越常见从工厂流水线到医院手术室再到家庭服务人们对机器人的期待也越来越高。但有一个令研究者头疼的问题长期悬而未决那些经过大规模训练的聪明机器人在面对新的具体任务时往往表现得令人失望——它们不仅学得慢有时甚至不如从零开始训练的专用机器人。这就好比培养了一个博览群书、见多识广的通才结果他去应聘一份专业工作时却比一个只专注学这一门手艺的学徒表现还差。这种反常现象背后的根源以及如何系统性地解决它正是这篇论文所要探讨的核心问题。研究团队提出了一种名为能力向量CapVector的全新方法其核心思想可以用一句话概括与其让机器人每次训练新任务时都从头开始积累能力不如事先把那些宝贵的通用能力刻进机器人的基因里让它天生就具备这些本领。代码、模型权重以及演示网站均已公开研究成果向整个社区开放使用。---一、机器人学习面临的真正困境要理解这项研究的意义需要先弄清楚现代机器人是怎么被教会干活的。目前最先进的机器人系统通常叫做视觉-语言-动作模型VLA这类模型可以理解图像、听懂语言指令并将两者结合起来控制机器人的肢体动作。训练这样一个模型需要两个阶段第一个阶段叫预训练耗费大量计算资源和时间用海量的机器人操作数据训练模型建立基础认知第二个阶段叫微调用少量针对特定任务的演示数据让模型学会完成具体工作比如抓取某种零件、摆放某类物品。正常的逻辑是预训练打好地基微调只需在上面盖房子应该既快又好。然而现实往往令人沮丧。大量研究发现仅仅收集少量演示数据、进行标准的微调学术上叫监督微调SFT通常不足以让模型在复杂任务上快速达到优秀水平甚至有时候不如专门为该任务从头训练的模型。为了突破这个瓶颈研究界提出了一类带辅助目标的微调方法。这类方法的思路是在训练机器人完成具体任务的同时额外给它布置一些辅助作业比如要求它同时学会理解三维空间结构或者锻炼它的多模态推理能力。这就像是给一个学徒除了教他干活还同时让他练视力、练逻辑思维。实验证明这类方法确实有效模型不仅任务完成得更好还学得更快需要的训练轮次大幅减少。但问题随之而来。这些辅助训练需要额外的计算量有时多出将近三成的计算开销和接近两成的显存占用。随着任务数量增加和数据规模扩大这种额外负担会越来越难以承受。于是研究团队提出了一个关键问题有没有办法把辅助训练带来的好处预先储存起来让模型在进行普通微调时天然就能享受到这些好处而不必每次都付出额外代价---二、从数学减法中提炼出能力的精华研究团队的核心洞察来自一个简洁的数学直觉。任何一个模型都可以用一组数字来完整描述——这组数字称为参数可以理解成模型的神经网络权重是它记忆知识和技能的载体。当模型从原始状态经过训练变成训练后状态参数会发生变化。这个变化量就像是训练过程在模型身上留下的痕迹。研究团队的关键假设是当一个模型经过带辅助目标的微调之后它参数的变化可以被分成两部分——一部分是专门用来学习当前具体任务的变化另一部分是辅助目标带来的通用能力提升。这两部分可以被区分开来彼此独立。验证这个假设的方法出乎意料地简单。对同样一组训练数据用两种方式分别训练同一个预训练模型一种是普通微调一种是带辅助目标的微调。两种方式训练出来的模型在学习具体任务动作方面的变化应该基本相同因为任务数据一样而两者参数之间的差异就主要代表辅助目标带来的那部分通用能力提升。把这个差异单独提取出来就得到了能力向量CapVector。用数学语言来说如果用字母θ_ft代表普通微调后的模型参数θ_ao代表带辅助目标微调后的模型参数那么能力向量γ_ao就等于θ_ao减去θ_ft。提取出能力向量之后把它加回到原始的预训练模型参数上就得到了一个能力增强版的元模型meta model。这个元模型既没有经过任何具体任务的专门训练却天然地携带了辅助训练所赋予的通用能力。此后用这个元模型作为起点只需进行普通的标准微调就能享受到原本需要辅助训练才能得到的效果。为了直观理解可以将其类比为基因工程研究人员首先在一小批实验个体身上实施了一套复杂的强化训练提取出这套训练赋予个体的遗传改善然后把这份遗传改善直接写入所有后代的基因让后代们天生就具备这种优势无需重复经历昂贵的强化训练过程。---三、给元模型打上防遗忘补丁仅仅把能力向量合并进预训练模型还不够。问题在于当模型此后用普通微调学习新任务时训练过程会调整模型参数而这种调整可能会把之前注入的通用能力给覆盖掉导致能力退化。这就像是你花了大力气学会了一项才艺但随后为了学习另一门完全不同的技能旧的才艺慢慢生疏遗忘了。为了防止这种遗忘研究团队引入了一个轻量级的正交正则化损失。听起来很复杂核心思想其实很朴素在训练新任务时要求参数的更新方向尽量与已经注入的能力向量保持垂直——在数学上叫做正交。垂直意味着两个方向相互独立、互不干扰就像东西方向的行走不会影响南北方向的进展。这样学习新任务的参数变化就不会冲刷掉能力向量所携带的通用能力。最终的训练损失由两部分组成一部分是完成具体任务动作所需的标准损失另一部分就是这个新加入的正交损失通过一个权重系数λ来调节两者的比重。实验表明λ取1e-4也就是万分之一时效果最佳。在使用LoRA这类参数高效微调技术时LoRA是一种只训练少量参数的轻量化方法适合显存有限的场景正交损失只需计算LoRA矩阵中的A矩阵因为A矩阵代表参数更新的方向B矩阵只是对方向的线性加权系数不影响方向的独立性。这个正交损失引入的额外计算代价可以忽略不计实测仅增加约0.3亿次浮点运算相比基础训练的17.9万亿次增幅不足0.002%显存额外占用约0.5GB相比基础62.8GB增幅不足0.8%。相比之下辅助训练方法本身需要额外增加5万亿次浮点运算增幅约28%和10.9GB显存增幅约17%。两者的开销差距相当悬殊。---四、在仿真实验室里验证既快又好研究团队在两个标准的机器人仿真测试平台上进行了大量实验。第一个平台是LIBERO这是机器人学习领域广泛使用的基准测试包含四类任务套件涉及空间位置关系的Spatial任务、涉及物体识别的Object任务、涉及目标导向的Goal任务以及涉及长序列操作的Long任务每类10个具体任务共40个任务。第二个平台是RoboTwin 2.0这是一个专注于双臂协作操作的测试平台包含各类精细操作任务如翻转开关、传递物品、摆放鞋子等。实验中选用了三种代表性的预训练VLA模型作为基础OpenVLA-OFT一种基于自回归架构的模型、StarVLA一种采用流匹配架构的模型和π0.5另一种流匹配架构的先进模型。辅助训练方法则选用了两种Spatial Forcing通过对齐视觉特征与三维几何表示来增强空间感知能力和LaRA-VLA通过隐式链式思维推理来增强长程规划能力。在LIBERO平台上以OpenVLA-OFT为基础、Spatial Forcing为辅助训练方法的实验最为详细。结果呈现出一幅清晰的图景在仅训练5000步这种极少训练量的情况下普通微调的平均成功率为82.1%而辅助训练的Spatial Forcing达到87.5%CapVector方法使用元模型加正交损失的普通微调则达到91.7%明显超越了两者。训练一个完整轮次1 Epoch后差距继续保持普通微调90.9%Spatial Forcing 95.2%CapVector 96.5%。在训练150000步即充分训练的情况下普通微调92.7%Spatial Forcing 96.9%CapVector 97.1%仍然保持最优。特别值得关注的是正交损失的作用。如果只使用元模型进行普通微调而不加正交损失在训练步骤少的时候5k步、1 epoch、8 epochs还能持续优于Spatial Forcing但到了150k步这种充分训练的阶段成绩下滑到96.2%低于Spatial Forcing的96.9%。这说明在长时间训练的情况下已注入的能力确实会被覆盖磨损而正交损失能有效阻止这种退化使最终成绩保持在最优水平。在StarVLA模型上将LaRA-VLA的辅助训练能力向量注入后CapVector在LIBERO四个任务套件上的平均成功率为97.1%优于StarVLA基础微调的94.5%接近LaRA-VLA辅助训练的97.9%。这说明CapVector不仅适用于空间感知类能力对于多模态推理类能力同样有效。对于π0.5这种双组件架构的模型包含视觉语言主干和动作执行头两个部分实验还分别测试了只合并视觉语言主干参数、以及同时合并视觉语言主干和动作执行头参数两种方案结果显示两者都优于基础微调而同时合并两部分参数的效果略好。---五、跨越领域边界能力可以空运到陌生地方一个自然而然的疑问是能力向量是否具有普适性它是不是只在提取它的那类任务上有效换了一个完全不同的场景就失灵了研究团队专门设计了跨领域迁移实验。具体做法是用LIBERO的数据提取能力向量能力提取阶段然后把这个能力向量注入预训练模型再用完全不同的RoboTwin 2.0平台的数据进行微调下游任务阶段两个平台的视觉风格、物体类型、操作内容均有较大差异。结果相当有说服力。以OpenVLA-OFT为基础在RoboTwin 2.0的10个任务上普通微调的平均成功率仅有6.7%Spatial Forcing辅助训练即原本需要昂贵计算代价的方案达到33.1%而使用从LIBERO-Spatial提取的能力向量构建元模型、再进行普通微调的CapVector达到了31.8%几乎与Spatial Forcing持平同时比普通微调高出接近五倍。反方向的实验同样成立用RoboTwin 2.0的任务数据提取能力向量注入到模型后在LIBERO-Long长序列任务上进行微调成功率同样有明显提升。这个结果从根本上回答了能力向量是否任务无关这个问题——答案是肯定的。能力向量所携带的是抽象层面的通用感知能力比如对空间几何关系的理解、对多模态信息的整合推理而不是针对特定任务场景的专用知识因此它能跨越具体任务和数据分布的边界在陌生的新场景中依然发挥作用。---六、并非所有训练数据都能提炼出好的能力向量研究团队没有止步于验证CapVector有效还进一步探究了什么样的数据条件才能提炼出高质量的能力向量。这部分研究揭示了两个值得深思的规律。第一个规律数据多样性越高提炼出的能力向量质量越高。研究团队对比了RoboTwin 2.0平台中两类不同背景配置的任务数据一类是背景固定、场景单一的干净背景数据另一类是背景随机化、每个任务会随机呈现多达一万种不同视觉环境的随机背景数据。在数据量和任务数量相同的前提下使用随机背景数据提炼出的能力向量在跨领域迁移到LIBERO-Long后成功率明显高于干净背景数据提炼的版本。这背后的原因在于当模型在面对海量不同的视觉背景时它被迫学会了更本质、更抽象的空间关系而不是依赖特定的背景纹理或色彩。这种更深层的视觉理解随后被凝结进能力向量迁移到新环境时自然更有适应力。用烹饪来类比用来自多个国家、多种烹饪风格提炼出的调味精华比只从单一菜系中提炼的精华更能适应各种口味。第二个规律任务场景之间差异过大反而会导致能力向量质量下滑。研究团队在LIBERO平台上对比了三类训练集LIBERO-Spatial10个任务1种背景LIBERO-Long10个任务3种背景LIBERO-9090个任务3种背景。尽管LIBERO-90包含了最多任务直觉上应该提供最丰富的信息但实验结果却相反从LIBERO-90提炼的能力向量迁移到RoboTwin 2.0后成功率最低甚至接近没有使用能力向量的基线水平。研究团队将这一现象归因于捷径学习当90个任务中的背景和物体高度多样、差异显著时模型在辅助训练过程中会被这些高方差的视觉特征所主导优先学习这些表面差异而不是更深层的空间感知本质。打个比方如果你给一个学生90道题但每道题的场景和表述都大相径庭他可能花大量精力应对表面差异而没能建立起深层的解题方法论。换句话说更多的任务数量如果带来了更高的任务间异质性反而可能干扰核心能力的提炼。因此用于提取能力向量的任务数据应当具有丰富的内部多样性比如丰富的背景随机化而不应当由差异极大的不同任务硬拼在一起。---七、走出仿真室在真实机器人上的实际验证仿真实验再精彩也只是数字游戏机器人研究最终必须回归真实世界。研究团队在工业场景中的真实机器人平台上进行了验证采用的是UR3工业机器人设计了模拟工厂生产场景的一系列任务包括将钢质套管移到托盘、将金属零件叠放到夹具台、从工具架拾取气动夹爪等。每个任务收集100组演示数据模型在全部任务上联合训练评估时每个任务运行100次来统计成功率。能力向量完全来自仿真环境LIBERO-Spatial的数据但被直接应用于真实机器人训练——这是典型的仿真到现实迁移场景也是机器人领域最难跨越的鸿沟之一。结果令人鼓舞。在所有任务上使用CapVector方法的成功率都优于对应的基础模型部分任务上甚至超过了Spatial Forcing辅助训练的成绩。以π0.5为基础的实验中拾取夹爪任务的成功率从0.1010%提升到了0.3232%以OpenVLA-OFT为基础的实验中将钢质套管移到托盘任务从0.2424%提升到了0.3838%。这说明从仿真数据中提炼的空间感知能力向量所捕获的是基本的几何规律而不是仿真场景特有的视觉细节因此能够跨越仿真与现实的鸿沟在真实物理世界中继续发挥作用。更进一步研究团队将相同的能力向量权重分享给两组外部合作团队让他们在各自实验室中用两种完全不同的机器人硬件平台上进行测试ARX Lift 2是一种六自由度双臂机器人AgileX Cobot是另一种六自由度双臂遥操作系统两者的机械结构、传感器配置和运动特性均不相同。外部团队分别在这两种平台上用能力向量增强的元模型进行自己的微调和评估。设计的四类任务涵盖了复杂的长序列操作将右侧试管架上的试管依次转移到左侧试管架需要连续精确操作4根试管、打开工具箱找到扳手、移动电源排插并按下其按钮、擦拭盘子后将其摆放到指定位置。在四项任务上CapVector方法均优于对应的基础π0.5模型。特别是试管转移任务——这是四项中最考验长序列精确操作能力的任务失败一步则全盘失败——基础模型成功率为36%CapVector提升到53%提升幅度接近一半。这表明能力向量的有效性不依赖于特定的机器人硬件具备真实的跨机型迁移能力。---归根结底这项研究的意义在于它提供了一种看待机器人训练的新角度预训练模型不应该是一个白板而应该是一个被精心优化过基础体质的出发点。通过一次性地在小规模数据上提取能力向量、合并到预训练参数中就能让后续所有的标准微调过程都站在更高的起点上——不需要每次都付出昂贵的辅助训练代价也不需要修改任何训练流程只需提供一个更好的初始化起点。这种思路对机器人技术的普及有着具体的现实意义。目前部署和微调先进机器人模型需要大量的计算资源这是许多中小型工厂、医院、科研机构难以承担的门槛。如果能够降低微调所需的计算代价同时保证甚至提升微调效果这些场景就能以更低的成本享受到先进机器人技术带来的便利。此外能力向量可以像软件包一样分享——研究团队已经把训练好的能力向量公开发布任何使用相同基础模型的用户都可以直接下载使用无需自己进行昂贵的辅助训练直接获得提升。当然这项研究也坦承了一个明显的边界目前的工作仅覆盖了监督微调这一训练范式如何在强化学习训练过程中提取和迁移能力向量还有待未来研究探索。这是一片尚未开垦的领地也是这条研究路线最值得期待的延伸方向。有兴趣深入研究的读者可以通过arXiv:2605.10903检索完整论文以及通过论文中公布的GitHub仓库获取代码和模型权重。---QAQ1CapVector方法需要重新训练预训练模型本身吗A不需要重新训练预训练模型。CapVector的做法是先用少量任务数据分别进行普通微调和辅助目标微调提取两者参数之差作为能力向量再通过简单的加法将能力向量合并进预训练模型得到一个增强版的元模型。整个过程不改动原始预训练模型计算代价远小于辅助训练方法本身。Q2能力向量是否只对特定型号的机器人有效A实验结果表明能力向量具有跨机型迁移能力。研究团队将相同的能力向量分享给外部合作团队在ARX Lift 2和AgileX Cobot两种结构和传感器配置完全不同的双臂机器人上均取得了优于基础模型的成绩部分任务成功率提升幅度接近50%说明能力向量捕获的是机型无关的通用感知能力。Q3提取能力向量时使用什么样的数据效果最好A实验发现数据内部多样性高的场景比如背景随机化丰富有助于提炼出高质量的能力向量而由差异极大的不同任务硬拼在一起的数据集反而会导致模型在训练中偷学表面特征、产生捷径学习使能力向量质量下降。因此提取能力向量应优先选用任务相对聚焦、但场景多样性丰富如背景、物体随机化程度高的数据集。
西湖大学等机构联合研究:机器人学得好是靠“遗传好基因“
这项由西湖大学、浙江大学、清华大学、香港科技大学广州以及北京智源人工智能研究院联合开展的研究于2026年5月发表在预印本平台arXiv上论文编号为arXiv:2605.10903。感兴趣的读者可以通过这个编号检索到完整原文。机器人在当今社会越来越常见从工厂流水线到医院手术室再到家庭服务人们对机器人的期待也越来越高。但有一个令研究者头疼的问题长期悬而未决那些经过大规模训练的聪明机器人在面对新的具体任务时往往表现得令人失望——它们不仅学得慢有时甚至不如从零开始训练的专用机器人。这就好比培养了一个博览群书、见多识广的通才结果他去应聘一份专业工作时却比一个只专注学这一门手艺的学徒表现还差。这种反常现象背后的根源以及如何系统性地解决它正是这篇论文所要探讨的核心问题。研究团队提出了一种名为能力向量CapVector的全新方法其核心思想可以用一句话概括与其让机器人每次训练新任务时都从头开始积累能力不如事先把那些宝贵的通用能力刻进机器人的基因里让它天生就具备这些本领。代码、模型权重以及演示网站均已公开研究成果向整个社区开放使用。---一、机器人学习面临的真正困境要理解这项研究的意义需要先弄清楚现代机器人是怎么被教会干活的。目前最先进的机器人系统通常叫做视觉-语言-动作模型VLA这类模型可以理解图像、听懂语言指令并将两者结合起来控制机器人的肢体动作。训练这样一个模型需要两个阶段第一个阶段叫预训练耗费大量计算资源和时间用海量的机器人操作数据训练模型建立基础认知第二个阶段叫微调用少量针对特定任务的演示数据让模型学会完成具体工作比如抓取某种零件、摆放某类物品。正常的逻辑是预训练打好地基微调只需在上面盖房子应该既快又好。然而现实往往令人沮丧。大量研究发现仅仅收集少量演示数据、进行标准的微调学术上叫监督微调SFT通常不足以让模型在复杂任务上快速达到优秀水平甚至有时候不如专门为该任务从头训练的模型。为了突破这个瓶颈研究界提出了一类带辅助目标的微调方法。这类方法的思路是在训练机器人完成具体任务的同时额外给它布置一些辅助作业比如要求它同时学会理解三维空间结构或者锻炼它的多模态推理能力。这就像是给一个学徒除了教他干活还同时让他练视力、练逻辑思维。实验证明这类方法确实有效模型不仅任务完成得更好还学得更快需要的训练轮次大幅减少。但问题随之而来。这些辅助训练需要额外的计算量有时多出将近三成的计算开销和接近两成的显存占用。随着任务数量增加和数据规模扩大这种额外负担会越来越难以承受。于是研究团队提出了一个关键问题有没有办法把辅助训练带来的好处预先储存起来让模型在进行普通微调时天然就能享受到这些好处而不必每次都付出额外代价---二、从数学减法中提炼出能力的精华研究团队的核心洞察来自一个简洁的数学直觉。任何一个模型都可以用一组数字来完整描述——这组数字称为参数可以理解成模型的神经网络权重是它记忆知识和技能的载体。当模型从原始状态经过训练变成训练后状态参数会发生变化。这个变化量就像是训练过程在模型身上留下的痕迹。研究团队的关键假设是当一个模型经过带辅助目标的微调之后它参数的变化可以被分成两部分——一部分是专门用来学习当前具体任务的变化另一部分是辅助目标带来的通用能力提升。这两部分可以被区分开来彼此独立。验证这个假设的方法出乎意料地简单。对同样一组训练数据用两种方式分别训练同一个预训练模型一种是普通微调一种是带辅助目标的微调。两种方式训练出来的模型在学习具体任务动作方面的变化应该基本相同因为任务数据一样而两者参数之间的差异就主要代表辅助目标带来的那部分通用能力提升。把这个差异单独提取出来就得到了能力向量CapVector。用数学语言来说如果用字母θ_ft代表普通微调后的模型参数θ_ao代表带辅助目标微调后的模型参数那么能力向量γ_ao就等于θ_ao减去θ_ft。提取出能力向量之后把它加回到原始的预训练模型参数上就得到了一个能力增强版的元模型meta model。这个元模型既没有经过任何具体任务的专门训练却天然地携带了辅助训练所赋予的通用能力。此后用这个元模型作为起点只需进行普通的标准微调就能享受到原本需要辅助训练才能得到的效果。为了直观理解可以将其类比为基因工程研究人员首先在一小批实验个体身上实施了一套复杂的强化训练提取出这套训练赋予个体的遗传改善然后把这份遗传改善直接写入所有后代的基因让后代们天生就具备这种优势无需重复经历昂贵的强化训练过程。---三、给元模型打上防遗忘补丁仅仅把能力向量合并进预训练模型还不够。问题在于当模型此后用普通微调学习新任务时训练过程会调整模型参数而这种调整可能会把之前注入的通用能力给覆盖掉导致能力退化。这就像是你花了大力气学会了一项才艺但随后为了学习另一门完全不同的技能旧的才艺慢慢生疏遗忘了。为了防止这种遗忘研究团队引入了一个轻量级的正交正则化损失。听起来很复杂核心思想其实很朴素在训练新任务时要求参数的更新方向尽量与已经注入的能力向量保持垂直——在数学上叫做正交。垂直意味着两个方向相互独立、互不干扰就像东西方向的行走不会影响南北方向的进展。这样学习新任务的参数变化就不会冲刷掉能力向量所携带的通用能力。最终的训练损失由两部分组成一部分是完成具体任务动作所需的标准损失另一部分就是这个新加入的正交损失通过一个权重系数λ来调节两者的比重。实验表明λ取1e-4也就是万分之一时效果最佳。在使用LoRA这类参数高效微调技术时LoRA是一种只训练少量参数的轻量化方法适合显存有限的场景正交损失只需计算LoRA矩阵中的A矩阵因为A矩阵代表参数更新的方向B矩阵只是对方向的线性加权系数不影响方向的独立性。这个正交损失引入的额外计算代价可以忽略不计实测仅增加约0.3亿次浮点运算相比基础训练的17.9万亿次增幅不足0.002%显存额外占用约0.5GB相比基础62.8GB增幅不足0.8%。相比之下辅助训练方法本身需要额外增加5万亿次浮点运算增幅约28%和10.9GB显存增幅约17%。两者的开销差距相当悬殊。---四、在仿真实验室里验证既快又好研究团队在两个标准的机器人仿真测试平台上进行了大量实验。第一个平台是LIBERO这是机器人学习领域广泛使用的基准测试包含四类任务套件涉及空间位置关系的Spatial任务、涉及物体识别的Object任务、涉及目标导向的Goal任务以及涉及长序列操作的Long任务每类10个具体任务共40个任务。第二个平台是RoboTwin 2.0这是一个专注于双臂协作操作的测试平台包含各类精细操作任务如翻转开关、传递物品、摆放鞋子等。实验中选用了三种代表性的预训练VLA模型作为基础OpenVLA-OFT一种基于自回归架构的模型、StarVLA一种采用流匹配架构的模型和π0.5另一种流匹配架构的先进模型。辅助训练方法则选用了两种Spatial Forcing通过对齐视觉特征与三维几何表示来增强空间感知能力和LaRA-VLA通过隐式链式思维推理来增强长程规划能力。在LIBERO平台上以OpenVLA-OFT为基础、Spatial Forcing为辅助训练方法的实验最为详细。结果呈现出一幅清晰的图景在仅训练5000步这种极少训练量的情况下普通微调的平均成功率为82.1%而辅助训练的Spatial Forcing达到87.5%CapVector方法使用元模型加正交损失的普通微调则达到91.7%明显超越了两者。训练一个完整轮次1 Epoch后差距继续保持普通微调90.9%Spatial Forcing 95.2%CapVector 96.5%。在训练150000步即充分训练的情况下普通微调92.7%Spatial Forcing 96.9%CapVector 97.1%仍然保持最优。特别值得关注的是正交损失的作用。如果只使用元模型进行普通微调而不加正交损失在训练步骤少的时候5k步、1 epoch、8 epochs还能持续优于Spatial Forcing但到了150k步这种充分训练的阶段成绩下滑到96.2%低于Spatial Forcing的96.9%。这说明在长时间训练的情况下已注入的能力确实会被覆盖磨损而正交损失能有效阻止这种退化使最终成绩保持在最优水平。在StarVLA模型上将LaRA-VLA的辅助训练能力向量注入后CapVector在LIBERO四个任务套件上的平均成功率为97.1%优于StarVLA基础微调的94.5%接近LaRA-VLA辅助训练的97.9%。这说明CapVector不仅适用于空间感知类能力对于多模态推理类能力同样有效。对于π0.5这种双组件架构的模型包含视觉语言主干和动作执行头两个部分实验还分别测试了只合并视觉语言主干参数、以及同时合并视觉语言主干和动作执行头参数两种方案结果显示两者都优于基础微调而同时合并两部分参数的效果略好。---五、跨越领域边界能力可以空运到陌生地方一个自然而然的疑问是能力向量是否具有普适性它是不是只在提取它的那类任务上有效换了一个完全不同的场景就失灵了研究团队专门设计了跨领域迁移实验。具体做法是用LIBERO的数据提取能力向量能力提取阶段然后把这个能力向量注入预训练模型再用完全不同的RoboTwin 2.0平台的数据进行微调下游任务阶段两个平台的视觉风格、物体类型、操作内容均有较大差异。结果相当有说服力。以OpenVLA-OFT为基础在RoboTwin 2.0的10个任务上普通微调的平均成功率仅有6.7%Spatial Forcing辅助训练即原本需要昂贵计算代价的方案达到33.1%而使用从LIBERO-Spatial提取的能力向量构建元模型、再进行普通微调的CapVector达到了31.8%几乎与Spatial Forcing持平同时比普通微调高出接近五倍。反方向的实验同样成立用RoboTwin 2.0的任务数据提取能力向量注入到模型后在LIBERO-Long长序列任务上进行微调成功率同样有明显提升。这个结果从根本上回答了能力向量是否任务无关这个问题——答案是肯定的。能力向量所携带的是抽象层面的通用感知能力比如对空间几何关系的理解、对多模态信息的整合推理而不是针对特定任务场景的专用知识因此它能跨越具体任务和数据分布的边界在陌生的新场景中依然发挥作用。---六、并非所有训练数据都能提炼出好的能力向量研究团队没有止步于验证CapVector有效还进一步探究了什么样的数据条件才能提炼出高质量的能力向量。这部分研究揭示了两个值得深思的规律。第一个规律数据多样性越高提炼出的能力向量质量越高。研究团队对比了RoboTwin 2.0平台中两类不同背景配置的任务数据一类是背景固定、场景单一的干净背景数据另一类是背景随机化、每个任务会随机呈现多达一万种不同视觉环境的随机背景数据。在数据量和任务数量相同的前提下使用随机背景数据提炼出的能力向量在跨领域迁移到LIBERO-Long后成功率明显高于干净背景数据提炼的版本。这背后的原因在于当模型在面对海量不同的视觉背景时它被迫学会了更本质、更抽象的空间关系而不是依赖特定的背景纹理或色彩。这种更深层的视觉理解随后被凝结进能力向量迁移到新环境时自然更有适应力。用烹饪来类比用来自多个国家、多种烹饪风格提炼出的调味精华比只从单一菜系中提炼的精华更能适应各种口味。第二个规律任务场景之间差异过大反而会导致能力向量质量下滑。研究团队在LIBERO平台上对比了三类训练集LIBERO-Spatial10个任务1种背景LIBERO-Long10个任务3种背景LIBERO-9090个任务3种背景。尽管LIBERO-90包含了最多任务直觉上应该提供最丰富的信息但实验结果却相反从LIBERO-90提炼的能力向量迁移到RoboTwin 2.0后成功率最低甚至接近没有使用能力向量的基线水平。研究团队将这一现象归因于捷径学习当90个任务中的背景和物体高度多样、差异显著时模型在辅助训练过程中会被这些高方差的视觉特征所主导优先学习这些表面差异而不是更深层的空间感知本质。打个比方如果你给一个学生90道题但每道题的场景和表述都大相径庭他可能花大量精力应对表面差异而没能建立起深层的解题方法论。换句话说更多的任务数量如果带来了更高的任务间异质性反而可能干扰核心能力的提炼。因此用于提取能力向量的任务数据应当具有丰富的内部多样性比如丰富的背景随机化而不应当由差异极大的不同任务硬拼在一起。---七、走出仿真室在真实机器人上的实际验证仿真实验再精彩也只是数字游戏机器人研究最终必须回归真实世界。研究团队在工业场景中的真实机器人平台上进行了验证采用的是UR3工业机器人设计了模拟工厂生产场景的一系列任务包括将钢质套管移到托盘、将金属零件叠放到夹具台、从工具架拾取气动夹爪等。每个任务收集100组演示数据模型在全部任务上联合训练评估时每个任务运行100次来统计成功率。能力向量完全来自仿真环境LIBERO-Spatial的数据但被直接应用于真实机器人训练——这是典型的仿真到现实迁移场景也是机器人领域最难跨越的鸿沟之一。结果令人鼓舞。在所有任务上使用CapVector方法的成功率都优于对应的基础模型部分任务上甚至超过了Spatial Forcing辅助训练的成绩。以π0.5为基础的实验中拾取夹爪任务的成功率从0.1010%提升到了0.3232%以OpenVLA-OFT为基础的实验中将钢质套管移到托盘任务从0.2424%提升到了0.3838%。这说明从仿真数据中提炼的空间感知能力向量所捕获的是基本的几何规律而不是仿真场景特有的视觉细节因此能够跨越仿真与现实的鸿沟在真实物理世界中继续发挥作用。更进一步研究团队将相同的能力向量权重分享给两组外部合作团队让他们在各自实验室中用两种完全不同的机器人硬件平台上进行测试ARX Lift 2是一种六自由度双臂机器人AgileX Cobot是另一种六自由度双臂遥操作系统两者的机械结构、传感器配置和运动特性均不相同。外部团队分别在这两种平台上用能力向量增强的元模型进行自己的微调和评估。设计的四类任务涵盖了复杂的长序列操作将右侧试管架上的试管依次转移到左侧试管架需要连续精确操作4根试管、打开工具箱找到扳手、移动电源排插并按下其按钮、擦拭盘子后将其摆放到指定位置。在四项任务上CapVector方法均优于对应的基础π0.5模型。特别是试管转移任务——这是四项中最考验长序列精确操作能力的任务失败一步则全盘失败——基础模型成功率为36%CapVector提升到53%提升幅度接近一半。这表明能力向量的有效性不依赖于特定的机器人硬件具备真实的跨机型迁移能力。---归根结底这项研究的意义在于它提供了一种看待机器人训练的新角度预训练模型不应该是一个白板而应该是一个被精心优化过基础体质的出发点。通过一次性地在小规模数据上提取能力向量、合并到预训练参数中就能让后续所有的标准微调过程都站在更高的起点上——不需要每次都付出昂贵的辅助训练代价也不需要修改任何训练流程只需提供一个更好的初始化起点。这种思路对机器人技术的普及有着具体的现实意义。目前部署和微调先进机器人模型需要大量的计算资源这是许多中小型工厂、医院、科研机构难以承担的门槛。如果能够降低微调所需的计算代价同时保证甚至提升微调效果这些场景就能以更低的成本享受到先进机器人技术带来的便利。此外能力向量可以像软件包一样分享——研究团队已经把训练好的能力向量公开发布任何使用相同基础模型的用户都可以直接下载使用无需自己进行昂贵的辅助训练直接获得提升。当然这项研究也坦承了一个明显的边界目前的工作仅覆盖了监督微调这一训练范式如何在强化学习训练过程中提取和迁移能力向量还有待未来研究探索。这是一片尚未开垦的领地也是这条研究路线最值得期待的延伸方向。有兴趣深入研究的读者可以通过arXiv:2605.10903检索完整论文以及通过论文中公布的GitHub仓库获取代码和模型权重。---QAQ1CapVector方法需要重新训练预训练模型本身吗A不需要重新训练预训练模型。CapVector的做法是先用少量任务数据分别进行普通微调和辅助目标微调提取两者参数之差作为能力向量再通过简单的加法将能力向量合并进预训练模型得到一个增强版的元模型。整个过程不改动原始预训练模型计算代价远小于辅助训练方法本身。Q2能力向量是否只对特定型号的机器人有效A实验结果表明能力向量具有跨机型迁移能力。研究团队将相同的能力向量分享给外部合作团队在ARX Lift 2和AgileX Cobot两种结构和传感器配置完全不同的双臂机器人上均取得了优于基础模型的成绩部分任务成功率提升幅度接近50%说明能力向量捕获的是机型无关的通用感知能力。Q3提取能力向量时使用什么样的数据效果最好A实验发现数据内部多样性高的场景比如背景随机化丰富有助于提炼出高质量的能力向量而由差异极大的不同任务硬拼在一起的数据集反而会导致模型在训练中偷学表面特征、产生捷径学习使能力向量质量下降。因此提取能力向量应优先选用任务相对聚焦、但场景多样性丰富如背景、物体随机化程度高的数据集。