Agent Skill越进化越蠢？我啃完3篇核心论文，把玄学自进化变成了科学调优-尧图企业网站定制

现在各种自动进化Agent都在说只要你打开自动沉淀经验/进化的开关它跑完一个任务自己就总结一条写成Skill。可能开始几次真的很惊艳越跑越顺逢人就吹这功能碉堡了。但是一个月后打开skills配置懵逼了。以前一些小而美的skills变成了冗长的缝合怪塞满了“如果遇到x要注意y” “上次在z场景下应该下w”的补丁。而且可能更气人的是它开始犯三周前根本不会犯的错。然后没拌饭回滚了版本骂了句玄学把开关关了。前天微信发了AI生态接入指引数百万小程序要靠SKILL.md变成 AI 的手和脚可能我们即将进入一个人人都要写Skill的阶段了人肯定写不过来让AI自己写自己改是必然的下一步。但大多数朋友的skills自进化的姿势可能是错的。我顺着三篇比较优秀的论文线索和开源代码又过了一遍今天给朋友们做一次深度拆解外加选型判断。省流版三句一、Skill越进化越蠢的病根是拿单次任务的轨迹直接改 Skill。这其实跟用一个badcase死磕prompt一样过拟合个例。二、三种解法归纳法Trace2Skill、自然选择EvoSkill、当模型参数训练SkillOpt代码全开源后文有地址。三、命门只有一个没有可量化的验证一切自进化都是玄学。常见的Skill的进化模式现在主流Agent的Skill自动沉淀逻辑都差不多跑完一轮任务模型看着这一轮的执行轨迹决定要么新建一个 Skill要么改一个旧的。听着很合理。但你换个生活场景想一下子就能明白。老王开了一个餐馆每收到一条差评就改一次菜谱。今天有人说咸了全店减盐明天另一桌说淡了再加回来后天来个无辣不欢的整本菜谱加辣。三个月后这本菜谱谁做谁翻车。单条轨迹是个例个例里全是偶然性。这一轮任务恰好网络抖了、恰好用户的说法刁钻、恰好踩了个长尾分支。而把这些恰好沉淀成规则Skill 就开始往身上贴创可贴。一张创可贴是经验贴满全身就动不了了。我形象的把这称为**创可贴式进化**每一张都是为某个个例贴的合起来把通用性活活贴死。但是这个模式在过去太常见了。不管是机器学习、深度学习训练。还是后来的prompt调优把badcase丢进去让它针对性优化结果prompt越改越臃肿老case还顾此失彼。个人用还好任务杂、复用少蠢一点你感觉不出来。企业场景就是灾难同类任务每天成千上万次Skill一跑偏全线跑偏效果一会儿好一会儿坏。所以现在企业的真实做法是根本不敢开线上自进化离线攒轨迹、人工改、人工评、灰度上。本质上还是叫人肉进化决策权全在人的手里规模化无从谈起。怎么让Skill真的自己进化还不进化成傻子这就是后面小节要聊的。Trace2Skill第一篇来自阿里千问团队《Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills》。它的思路是把边干边改换成先看够多再一次写成。沉淀足够的经验先。具体三步第一步攒料。让Agent拿着当前Skill批量跑任务按结果严格分成功集和失败集。这步可以暴力并行论文里用一个122B的开源模型俩小时不到生成了 200 条 50 多轮的轨迹。第二步会诊这是它最妙的设计。每条轨迹单独配一个Sub-Agent各看各的互不通气最后每人交一份补丁提案。而且成功和失败待遇不一样成功的轨迹一把就能总结单次调用搞定失败的轨迹病因千奇百怪subagent得用ReAct多轮挖根因、对照 ground truth验证猜想挖不出明确根因的整条直接扔掉。第三步合并。所有补丁层层归并成最终版归并时还有代码级硬约束引用了不存在的文件直接拒同一行被多个补丁抢着改就标冲突最后还要过格式校验。被很多subagent反复提到的模式才升级成通用规则只出现一两次的按噪声扔掉。这套模式在表格任务基准上验证出一个挺反直觉的结论从轨迹里归纳出来的Skill真能跨任务泛化比塞一堆零散记忆好使。但它有个软肋论文里边写的是手册写得好不好没有自动验证最后还是人说了算。ok 记住这个软肋后面两篇就是围绕这个来的。论文地址https://arxiv.org/pdf/2603.25158代码地址github.com/Qwen-Applications/Trace2SkillEvoSkill第二篇是Sentient Labs的《EvoSkill: Automated Skill Discovery for Multi-Agent Systems》。它补上的恰恰是验证这一环。它把自进化拆成三个角色执行者负责跑任务出轨迹提案者负责诊断失败、提改进方案搭建者负责真的动手改 Skill。听着平平无奇关键在第四步改完还不算数要打擂台。EvoSkill维护一个固定容量的精英池我自己命名的。。。里面是当前得分最高的k套模式系统提示词Skill库的完整组合。每个新改出来的候选版本必须拉到一个独立验证集上跑分赢过池子里最弱的那个才能顶替它进池输了就出局。更细的一点是被淘汰的提案不白淘汰连同它的失败原因一起记进历史库喂给提案者当反面教材下次别再往这个方向改。全文最该划线的一句验证集就是 Agent 进化的奖励函数。强化学习为什么成立因为有个明确的信号告诉模型什么是好。梯度下降为什么能收敛因为损失函数指着方向。Skill自进化为什么是玄学因为如果它连个好坏的定义都没有全靠模型自由发挥加你的体感。没有一个固定的尺子每一次优化都可能是原地画圈甚至倒车。论文地址https://arxiv.org/pdf/2603.02766代码地址github.com/sentient-agi/EvoSkillSkillOpt第三篇最硬核微软联合上交、同济、复旦发的《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》。它的世界观一句话能讲完Skill文本就是模型权重改Skill就是梯度更新那个负责改写的LLM就是优化器。既然如此深度学习训练里那套久经考验的纪律全都搬过来。那搬了哪些我挑四个最有用的一、学习率。每一步迭代只允许生效有限的L条编辑多了不收。这直接掐死了“一次大重写把祖传规则全冲掉”的灾难性遗忘。默认还是cosine调度前期大步走后期小步精修跟训模型一个味儿。二、验证 gate。候选Skill必须在预留验证集上严格高于当前最优版本才被接受是严格高于打平都算输。性能抖动不存在的。三、负反馈 buffer。被拒掉的编辑不删连同它造成的分数跌幅一起存档喂回优化器这个方向改过了跌了多少别再来。错题本机制。四、动量。每个epoch结束做一次慢更新把这批样本在新旧两版Skill下重跑一遍归因成“提升了/退步了/一直错/一直对”四类把长期成立的经验写进Skill的受保护区域。日常的小步编辑动不了这块核心逻辑焊死。它甚至还有个只给优化器看的Meta-Skill沉淀哪类修改容易被拒这种调优经验相当于给优化器自己也配了本错题本套娃但有效。最后训出来的东西特别朴素一个300到2000 token的best_skill.md纯文本零依赖Claude Code、Codex、直接对话随便哪个harness都能用。论文benchmark上它效果也是三家里最好的。不过它的代价就是复杂六个组件个个要配而且强依赖一个稳定的打分函数。论文地址arxiv.org/pdf/2605.23904代码地址github.com/microsoft/SkillOpt写在最后看到这里相信你已经对这几种模式有了比较深刻的理解。我在给一个更具体的选型判断可以直接丢给Agent参考的那种任务规律性强、手里攒了一堆轨迹、想快速出第一版 →Trace2Skill性价比最高一次成型。已经有自动化评估、想让 Agent 慢慢长出一个技能库、每个 Skill 要能对应一个具体失败模式 →EvoSkill。有一两个吃饭的核心 Skill稳定性压倒一切要精磨到极致 →SkillOpt。都想要 →可以考虑混合路线Trace2Skill出基线EvoSkill持续扩库SkillOpt精磨核心瓶颈。一票否决项如果你写不出“这次任务算不算成功”的打分函数三个都别上。先搞好验证最重要本文的核心论文选择参考阿里云开发者昨天发布的一篇文章其实这些本质上是同一件事的三种打开方式共识就是别再让单条轨迹直接改 Skill以及进化必须有一把可量化的尺子。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

2026好用的在线去水印工具，在线去水印工具推荐实用教程

TradingAgents-CN终极指南：三分钟构建你的AI金融投资大脑

JSON差异比较性能评测与优化建议

GEC6818开发板上跑的触摸式电子琴Demo，含音符识别与MP3播放全套代码

别再死记硬背了！用飞桨PaddlePaddle手把手教你训练自己的词向量（附完整代码）

告别电机“抽风”！用增量式PID算法调教你的51单片机小车，让速度稳如老狗

CH32V307开发板实战：FreeRTOS+LwIP 2.2.0rc网络移植保姆级教程（附完整源码）

微信小游戏《见缝插针》可直接运行源码，含Canvas动画逻辑与完整页面结构

物流状态同步技术实战：平台参数突变下的数据链断裂与修复

AIOps 事件关联与影响面分析：从单点告警到全局拓扑

Grafana 仪表盘即代码与模板化管理：从手动配置到 GitOps

梯度累积与大 Batch 训练策略：从显存限制到等效大批量

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定