亚马逊、Emory大学联合研究揭开了AI代理长期部署的隐藏陷阱

亚马逊、Emory大学联合研究揭开了AI代理长期部署的隐藏陷阱 这项由亚马逊、Emory大学、宾夕法尼亚州立大学、伊利诺伊大学香槟分校和东北大学联合完成的研究以预印本形式发布于2026年6月1日论文编号为arXiv:2606.01770有兴趣深入阅读的朋友可以通过这个编号找到完整论文。**一个让人意外的发现**你有没有见过这样的员工刚入职的前几个月表现亮眼凭着一腔热情迅速积累经验可随着时间推移他反而开始犯越来越奇怪的错误——因为早期养成的一些坏习惯和错误的肌肉记忆越来越难以甩掉这个让人哭笑不得的现象正在AI系统里悄悄上演。研究团队用一套叫做A-Evolve的AI自我进化系统做了一个实验让它持续在市场预测任务上学习成长记录在第3、7、15、30、51个学习周期时分别停止的情况。结果令人大跌眼镜停在第7个周期时表现最好但如果让它一直学到第51个周期它的表现反而不如刚开始的时候。更荒唐的是它的技能库从12个膨胀到了34个提示词从2KB暴涨到了68KB学了一大堆却越来越差。这就像是一个厨师从开始做菜到后来把每一道菜的食谱都抄满了三本笔记本结果因为每次做饭前要翻那三本笔记翻半小时做出来的菜反而越来越难吃。这项研究的核心任务就是搞清楚为什么会这样以及怎么解决。**一、什么是AI代理的装备系统为什么它会出问题**要理解这项研究先得搞清楚一个概念什么是harness可以译为套件或装备。一个AI代理就像一个员工它自身的核心能力也就是大语言模型比如ChatGPT背后的那个核心大脑是相对固定的。而围绕在这个大脑外面的一切辅助工具包括它被告知你应该怎么做事的那段说明文字提示词、它能调用的各种技能脚本、它记住的重要信息以及它能使用的外部工具这整套东西就叫做装备套件也就是论文里的harness。这套装备在很大程度上决定了这个AI员工的工作表现。于是就有了一类叫做自动装备系统auto-harness system的研究方向思路是让AI在完成任务之后自动分析自己哪里做得不好然后自动更新和升级自己的装备。A-Evolve、GEPA、Meta-Harness都是这类系统的代表。这个思路听起来相当聪明。事实上在那些有明确终点的标准测试题库静态基准测试上这类系统确实表现出色。但问题在于真实世界里的AI部署根本不是做一套卷子交卷走人——它更像是一个永不停歇的流水线工人每天都有新任务涌进来任务类型五花八门而且任务的性质会随着时间推移而改变。研究团队把这种真实部署场景称为开放性任务流并归纳出它独有的三重压力。第一重压力叫做无边界的任务流。这个AI员工永远不会下班任务一直来历史记录越积越多。现有的自动装备系统只有一个大脑来负责分析这些堆积如山的历史记录而任何AI都有自己的上下文窗口上限就像一个人的工作记忆容量是有限的。随着任务流越来越长这个单一大脑就会被撑爆无法再有效地从历史中学习真正有用的经验。第二重压力叫做任务的多样性。一个预测市场平台在同一个小时里可能既有关于超级碗冠军的问题又有关于美国政府是否停摆的问题还有关于股票涨跌的问题。这三类问题需要截然不同的信息来源、分析工具和思考方式。但传统的自动装备系统给AI配备的是同一套装备去应对所有任务一套万能装备的结果往往是什么都做得马马虎虎。第三重压力叫做分布漂移。随着时间推移任务的内在规律会发生变化。一个在早期任务上总结出来的经验到了后期可能已经不再适用。那个news_from_future.md技能就是个活生生的例子它在138次正确预测中帮过大忙但在政治类任务上却频频误判——因为体育赛事有结果、有可验证的历史数据可以参考而政治事件的逻辑完全不同。**二、把问题说清楚两种亏损两个根源**研究团队没有停留在这个问题很复杂的层面而是建立了一套数学框架把问题的根源精确拆解开来。这套框架的思路类似于一家餐厅的老板分析为什么营业额不理想。先定义理想上限假设有一个全知全能的完美厨师他在接到每一道点单之前就已经基于这个餐厅所有的历史数据为这道菜量身定制了最优的食谱。这个完美厨师的表现就是理论上限论文里叫做V(H_t, x_t)即在拥有全部历史信息的条件下对任务x_t所能达到的最好成绩。而实际部署中的AI跟这个理论上限之间的差距就是遗憾值Regret。这个差距可以精确地拆成两部分。第一部分叫进化亏损Evolution Loss论文用L_evo表示。这是系统的能力天花板问题。一个只会修改提示词的系统永远无法自己写出复杂的多文件代码工具这不是努力多少的问题而是这类系统的能力上限就在那里。要缩小这部分亏损需要从根本上提升进化系统的能力让它能构建更复杂、更多样的装备。第二部分叫适配亏损Adaptation Loss论文用L_adapt表示。这是任务适配问题。即便进化系统的能力已经足够强但它在任务到来之前就把装备固定下来了没有办法根据每一道具体的题目来调整配置。任务多样性存在一天这部分亏损就无法消除——除非系统能在接到任务的瞬间动态地为这个任务挑选最合适的装备。这个框架的价值在于它把一个模糊的这个系统不够好的感受变成了两个可以分别攻关的具体工程问题。研究团队随即提出了Adaptive Auto-Harness系统分别对应地解决这两个问题同时引入了第三个机制来处理框架之外的特殊情况。**三、多智能体进化用一个专业团队替代一个全能员工**针对进化亏损研究团队的解法是把原来的单人作战模式改造成一个分工明确的专业团队。原有系统的工作方式类似于让一个人同时担任分析师、调研员、程序员和测试员——而且这四个角色的所有历史记录、所有思考过程都必须塞进同一个人的脑子里同时处理。任务流越长这个人就越容易脑子不够用。新系统把进化过程拆分为四个依次执行的阶段每个阶段由专门的智能体负责并且拥有完整的上下文预算不需要跟其他阶段抢脑容量。第一阶段是分析师的工作翻查历史失败记录找出规律生成一份任务看板列明哪些方向需要重点攻关并且还要做一项特别重要的审计——检查历史上积累下来的那些技能和规则有没有哪些是对A类任务有帮助但会伤害B类任务的有毒文物。这个反向清查的步骤专门针对前文提到的越学越差问题防止系统在错误的路上越走越远。第二阶段是研究员团队的工作多个研究员智能体并行运作每人负责一个失败方向独立搜索解决方案、测试API、验证假设并把测试结果记入研究日志。并行的好处是多个方向同时探索不会因为某个方向失败而浪费整个周期也不会因为一个智能体的先入之见而过早放弃其他可能性。第三阶段是工程师的工作读取研究员们整理好的、经过验证的解决方案把它们实现成实际可运行的代码、工具或提示词修改。第四阶段是验证员的工作在新代码上线之前运行测试用例把关质量。如果测试不过工程师可以重新修改最多重试三次。除了分工之外还有两项配套机制同样关键。其一是时间延迟反馈机制在预测市场这类场景里一个问题的答案可能要几天后才会揭晓。系统严格按照揭晓时间来决定把哪些反馈交给进化系统确保AI学到的是真实结果而不是把未来的信息提前偷看了。其二是跨周期持久记忆进化系统有一个专属工作区里面存着任务看板、研究日志、架构说明文档和测试用例这些内容在每个进化周期之间持续保留进化系统不需要在每次学习时从零开始而是可以站在之前积累的肩膀上继续工作。**四、装备树与智能路由为每道题配一套专属装备**多智能体进化解决了能力天花板的问题但适配亏损还没有解决——系统在看到任务之前就把装备锁定了面对不同类型的任务却用同一套配置。研究团队的解法是引入装备树harness tree不再只维护一套通用装备而是培育一棵装备树树上的每根分支代表一类任务的专属配置。具体实现上整套系统用一个Git代码仓库来管理装备树。每个分支branch对应一种任务类型拥有自己独立的提示词、技能库和工具注册表。比如在CTF网络安全挑战赛的场景里会有专门负责密码学的branch/crypto-classical分支以及专门负责二进制漏洞挖掘的branch/binary-reversing分支。在预测市场场景里则会有branch/sports、branch/politics、branch/finance、branch/culture等不同分支。分支不是手动指定的而是由进化系统在积累了足够的失败证据之后自动决定是否需要开辟一个新的专属分支来处理某类任务。分析师阶段会明确地给每个修复建议标注这个改动是通用的应该放到主干上还是这个改动是特定领域的应该放到某个专属分支上以免污染其他类别。到了解题时路由智能体登场。它读取每个分支的README文档找出里面什么情况下应该路由到这里的说明然后与当前任务的描述进行匹配为每个分支打一个置信度分数选出最合适的那个分支让解题系统切换到那个配置下去工作。整个路由过程是实时的每道新题到来时都会独立执行。这套机制在实验中表现出了清晰的价值。研究团队做了一个专门的实验来量化适配亏损到底有多大在每类任务都预先准备了对应分支的情况下比较每道题都用最佳分支Oracle上限和每道题都用主干分支Naive基准之间的差距。在CTF安全挑战场景里这个差距高达37.5个百分点在预测市场场景里差距也有8.8个百分点。这意味着光是把用正确的装备配置这件事做好就能带来非常可观的性能提升跟模型本身的能力没有关系。**五、人类介入的钩子当历史记录无法回答的问题出现时**上述两项机制处理了理论框架内的两类亏损。但研究团队还发现了一种框架之外的情况有些时候历史记录里根本没有相关信号无论多么强大的进化系统都无法从空气中变出它没有见过的知识。这种情况在真实部署中并不罕见。比如AI需要访问某个需要API密钥的数据源但密钥没有提供或者某个新兴领域的问题需要特定的中文数据平台但进化系统从没见过那些平台的任何线索。研究团队的解法是引入两个人类介入钩子让人类在特定的结构化时机介入而不是随时随地乱插手。第一个钩子挂在分析师完成任务看板之后。这时候人类可以翻阅任务看板补充进化系统看不到的方向、提供领域知识或告知系统可以访问哪些数据源。这是主动预判式的干预在进化开始之前就把方向导正。第二个钩子挂在研究员执行阶段遇到障碍的时刻。当研究员在测试某个方案时撞上了需要人工处理的墙比如需要认证的API系统会实时提示人类介入而不是让这个探索方向就此夭折。在FutureX事件预测数据集上的实验展示了这个机制的精准效果。研究团队只在第1个周期提供了两个API密钥研究阶段钩子然后在第3个周期补充了一份关于西方和中文专业数据端点的方向指引任务看板钩子。结果是对于宽泛的预测市场类问题提升为零因为这类问题本来就不需要这些资源对于依赖网页搜索的宽泛问题提升了5个百分点直接指向的金融科技类任务提升了20个百分点周边的西方专项问题也提升了15个百分点。这个梯度分布说明人类干预起效的机制是精确的它提供了历史记录里缺失的外部信号而不是笼统地给AI一些泛泛的建议。**六、在三条真实赛道上的全面测试**研究团队在三个完全不同类型的开放性任务流上进行了系统测试这三个赛道分别代表不同的挑战维度。PolyBench是一个包含5075道题的预测市场任务流时间跨度从2026年2月6日到22日覆盖政治、体育、金融、加密货币和娱乐等多个市场。这个赛道的非平稳性体现在早期市场中有97%是可交易的有足够流动性到了晚期只剩31%早期有44%的市场已经有明显的倾向性结果晚期只有29%势均力敌的模糊市场从18%上升到了35%。也就是说越到后来问题越模糊越难判断。CTF-Dojo是一个包含261道题的网络安全挑战流时间跨度从2011年到2024年横跨密码学、二进制漏洞、网页安全、逆向工程和取证分析等类型。这个赛道的非平稳性来自竞赛风格的演化到了任务流后期有100%的题目来自于在任务流前三分之一期间完全没有出现过的竞赛每场竞赛都有自己独特的题目规范和风格。FutureX是一个包含503道题的事件预测流时间跨度为2026年1月至4月包含英文和中文题目涵盖金融、科技、地缘政治和娱乐等领域其中还有一部分题目需要访问中文专属平台才能找到相关信息。研究团队同时与多个对照组进行了比较包括不做任何进化、直接用原始模型求解的版本分别测试了Sonnet 4.6、DeepSeek V3.2、Claude Haiku 4.5、GLM 4.7、Kimi K2.5五个模型以及五个现有的自动装备基准系统A-Evolve、GEPA、Meta-Harness、Continual Harness、SkillOS还有一个由人类专家手工设计的OctoTools系统。结果显示现有系统都有各自的偏科问题。A-Evolve在CTF和FutureX的通过率上表现最好但在PolyBench上只覆盖了21.1%的市场大量题目直接跳过。Meta-Harness在PolyBench的三个指标上全面领先覆盖率55.3%、准确率50.8%、回报率320%但在FutureX上的表现还不如不进化的原始Sonnet基准29.4% vs 31.0%。没有一个现有系统能同时在三条赛道上都处于领先地位。Adaptive Auto-Harness的三个变体共同覆盖了全部指标。其中完整系统多智能体进化路由在PolyBench上达到了97.9%的市场覆盖率、80.9%的准确率和330%的回报在CTF-Dojo上达到了50.2%的通过率。多智能体变体在FutureX上以49.5%的通过率领先因为在这个赛道上构建出正确的搜索工具比针对每道题做路由更重要。适配变体在PolyBench回报率上以352%略微领先因为把每道市场题精准匹配到对应的分析策略带来了更高的交易质量。**七、各个赛道的具体瓶颈是什么**研究团队没有停留在总体数字上而是深入分析了每个赛道的关键瓶颈所在这部分分析为理解整套系统的工作逻辑提供了重要的细节。PolyBench的核心瓶颈是置信度校准能力。研究团队画出了一张图横轴是市场共识从市场价格反推出来的多数人预期概率纵轴是AI系统给出的置信度。一个理想的系统这两者应该基本对齐形成一条对角线。单智能体变体的结果是一条几乎水平的线也就是说无论市场共识如何它给出的置信度都差不多高而多智能体变体的结果则更接近那条对角线——当市场共识低大家都不确定的时候它也会相应地降低自己的置信度。这说明多智能体系统进化出了读懂市场在说什么的能力这是原始单智能体系统根本没有的。FutureX的核心瓶颈是信息获取能力而不是推理能力。研究团队把题目按信息获取难度分成三档只用离线数据、用筛选过的网络数据维基百科DuckDuckGo、用不受限制的网络搜索。三档对应的通过率分别是34.0%、47.6%和57.1%单调递增差距相当显著。这意味着模型本身的推理能力并不是瓶颈能不能找到相关信息才是。所以FutureX上的进化任务本质上是帮AI配备更好的信息获取工具而不是让AI想得更深。CTF-Dojo的核心瓶颈是负载处理能力。研究团队把题目按最大挑战文件大小分成五档从无文件到超过1MB。随着文件规模增大通过率急剧下降单智能体从81.8%跌到30.4%多智能体从90.9%跌到39.1%。多智能体系统在每个档次上大约保持了9个百分点的优势说明多智能体进化系统确实帮助构建了更强的基础设施但面对极大文件时的处理能力天花板依然存在这是一个尚未完全解决的工程难题。逐类别分析进一步印证了这些发现。在CTF按类别统计时完整系统在网页安全类27个百分点相对于原始Sonnet和密码学类19个百分点获益最多而二进制漏洞利用类即便经过进化和路由之后通过率也只有14.8%与文件大小瓶颈一脉相承。在FutureX按语言和领域细分时英文题目的各个领域普遍受益明显但中文题目几乎没有提升中文金融类零提升中文娱乐类同样零提升这恰好是那批需要专门中文数据平台才能找到信息的题目也就是信息获取工具不到位问题的直接体现。**八、装备树路由的真实价值以及它的局限**为了严谨地量化路由机制到底贡献了多少价值研究团队做了一个专门设计的对照实验给每类任务预先准备一个对应分支在任务流上进化完装备树然后用三种不同的方式来使用这棵树。Oracle代表每道题都用事后评估出的最佳分支Adapt代表用路由智能体实时决策Naive代表永远只用主干分支。在CTF-Dojo场景里Oracle通过率为55%Adapt为35%Naive只有17.5%。这说明分支专化带来的理论价值是真实存在的55% vs 17.5%路由机制确实把这部分价值转化成了现实收益35% vs 17.5%但距离Oracle还有20个百分点的差距说明路由决策本身还有提升空间。在PolyBench里三者的收益率分别为12%、5.9%和3.2%路由比不路由好但仍远未到最优。在FutureX里出现了一个耐人寻味的例外Naive主干的通过率39.7%反而略高于Adapt路由34.5%。这并不意味着路由在这里是有害的而是因为FutureX的瓶颈在于信息获取工具而不在于选哪个分支。FutureX的分支是按题目难度级别划分的而那些难度级别高的题本身就更难路由把难题送到对应分支通过率当然低——但低的原因是题目难不是分支不对。从批次级别的分析也可以看到在第3批次里FutureX的Oracle与Adapt之间有最大的差距57.9% vs 26.3%说明那一批的分支选择本身就很有难度路由决策质量还有提升空间。装备树里每个分支的路由量也值得关注。在100道PolyBench题里路由智能体把71道题发给了branch/sports14道给了branch/finance12道给了branch/culture3道给了branch/politics-world。路由智能体从来没有触发过回退到主干的选项说明它总是能找到一个它认为匹配的分支尽管匹配质量参差不齐。**九、系统的边界与尚未解决的难题**研究团队在论文中坦诚地指出了这项工作的局限性这部分内容同样值得关注。其一基准测试的覆盖范围仍然有限。三条赛道预测市场、安全挑战、事件预测提供了相当多样的挑战但真实世界的AI部署场景远不止于此。在空间和时间维度上更大规模的任务流比如跨越数年的持续部署、覆盖更多语言和文化的任务还没有被测试到。其二论文中提出的进化亏损L_evo和适配亏损L_adapt是分析性的理论量并不是可以直接测量的实际数字。研究团队通过各种设计好的对照实验来间接诊断这两种亏损但并没有一个能直接估算Oracle装备价值的形式化方法。换句话说理论上限到底有多高这个问题目前只能间接回答。其三CTF-Dojo里二进制漏洞利用类的表现依然低迷面对大文件时的基础设施瓶颈还没有被攻克。这不是算法设计的问题而是底层工程能力的问题需要在工具层面继续突破。其四FutureX的中文任务几乎没有从进化中获益核心原因是缺乏对中文专属平台的访问能力这是一个在信息获取层面的现实工程壁垒需要人工介入补充自动进化系统本身无法从零凭空解决。说到底这项研究用一种清晰的方式回答了为什么AI助手越学越笨这个问题并且提出了一套系统性的应对框架。核心洞察是把学得更好和用得更准这两件事区分开来前者靠多智能体进化系统来积累高质量的专项能力后者靠装备树路由在答题时动态匹配最合适的配置。这两件事同等重要缺一不可——只学不选等于攒了一大堆工具但每次都随机拿一把只选不学等于把几把质量一般的工具分类摆放得井井有条。当AI系统从考试模式走向永不下班的持续工作模式它面对的挑战跟一个静态测试环境里的挑战根本不是一类问题。这项研究是朝这个方向迈出的一步而它揭示的那些尚未解决的难题也许比它解决的问题更值得继续追问。对这个话题感兴趣的读者可以通过arXiv编号2606.01770找到完整论文里面包含了大量实验细节和系统提示词的完整文本。QAQ1Adaptive Auto-Harness系统是如何防止AI越学越笨的AAdaptive Auto-Harness通过两个机制共同对抗这一问题。分析师智能体在每个学习周期开始时会主动审查历史上积累的技能和规则找出那些对某类任务有帮助但会损害其他类任务的有毒文物并标记清理。同时装备树机制把不同类型任务的专属配置隔离在不同的分支里防止某个领域的经验干扰其他领域避免一套膨胀的通用配置越来越难以维护。Q2装备树里的分支是怎么决定要不要新建的A分支的创建不是手动指定的而是由分析师智能体根据失败证据来决定。分析师会给每个修复建议打上标签如果一项改动对所有类型的任务都有好处就放到主干分支上如果一项改动只对某类任务有帮助、对其他类任务没有影响甚至有损害才会开辟一个新的专属分支。此外系统设有硬性规则少于两道题或只在单个周期内出现过的问题不允许新建分支以防止过度碎片化。Q3FutureX预测任务上的中文题目为什么没有从进化中获益AFutureX的中文题目普遍需要访问中国本土的专属数据平台如猫眼票房、东方财富证券数据等而进化系统在历史记录里根本没有接触过这些平台的任何信息无法自己推断出它们的存在和访问方式。这是一种历史信号缺失的情况自动进化系统无能为力。在引入人类介入钩子、由人工提供这些平台的名称和访问指引之后金融科技类任务提升了20个百分点说明瓶颈确实在信息获取而非模型推理。