Agent进阶实战:从只会答题到学会“挑毛病”(非常详细),收藏这一篇就够了!

Agent进阶实战:从只会答题到学会“挑毛病”(非常详细),收藏这一篇就够了! agent 训练的主流范式是模仿学习给模型看专家的成功轨迹让它学着做。但这里有一个根本性的缺陷——模型只学到了该做什么却从未理解为什么不该做别的。它见过的全是正确答案对错误状态毫无感知。一旦环境偏离训练分布agent 就像背答案的学生遇到新题只会机械重复不会变通。论文提出了 ACTAgentic Critical Training核心思路是与其让模型模仿反思文本不如通过 RL 训练它自主学会判断哪个动作更好。在三个 benchmark 上RL w/ ACT 在所有任务中均取得最高性能平均比模仿学习高 5.07 个百分点比纯 RL 高 4.62 个百分点。更有意思的是仅用 agent 任务数据训练的 ACT 模型在 MATH-500 和 GPQA-Diamond 等通用推理 benchmark 上也有提升。模仿反思和真正的反思差在哪此前有一种叫 Early Experience 的方法试图弥补模仿学习的不足在环境中同时执行专家动作和替代动作观察两者产生的下一状态然后提示模型生成一段反思文本解释为什么专家动作更好最后把这段反思混入训练数据用标准的 next-token prediction 损失训练。[Figure 1: 模仿反思与真正自主反思的对比] 左图展示 Early Experience 在环境中执行两种动作后生成反思文本再通过 SFT 训练模型模仿该文本右图展示 ACT 向模型呈现两个候选动作通过 RL 训练模型选出更优者——由于只有选择结果被奖励模型必须自主发展出关于动作质量的推理能力。论文指出Early Experience 本质上仍然是模仿学习模型训练的目标是复现一段预先生成的固定文本而非自主发现导向正确选择的推理过程。反思是模仿来的不是自发产生的。ACT 的具体做法论文将问题建模为 POMDPPartially Observable Markov Decision Process部分可观测马尔可夫决策过程。给定专家演示数据集ACT 的数据构造分三步(1) 对每个专家状态-动作对从初始策略中采样 K 个候选动作(2) 过滤掉与专家动作相同的候选(3) 将专家动作与每个替代动作配对形成对比样本。[Figure 2: ACT RL 训练流程概览] 阶段一为数据构造从专家轨迹中提取状态-动作对并采样替代动作阶段二为 ACT 训练模型通过 GRPO 学习在随机排列的候选动作中识别更优者阶段三为 RL 动作训练利用 ACT 增强后的模型进一步训练直接动作生成。训练分两个阶段均使用 GRPOGroup Relative Policy Optimization组相对策略优化。第一阶段是 ACT 本身将两个候选动作以随机顺序呈现给模型训练它选出更好的那个。关键在于唯一的监督信号是选择是否正确不提供任何推理监督模型必须自主发展出 CoTChain-of-Thought推理来最大化奖励。第二阶段是 RL 动作训练在 ACT 增强的基础上进一步用 GRPO 训练直接动作生成。奖励函数由三部分组成精确匹配专家动作得 1.0 分动作合法但不匹配得 0.1 分部分奖励缺少正确格式标签扣 0.5 分。实验使用 Qwen3-8B 作为基础模型学习率 2e-6batch size 64组大小 8候选采样数 K1在 4 块 NVIDIA GH200 GPU 上训练。三个 benchmark 的实验结果论文在 ALFWorld家庭机器人、WebShop网页购物、ScienceWorld科学实验三个 benchmark 上评估。[Table 1: Qwen3-8B 主要结果] ALFWorld 和 WebShop 报告成功率ScienceWorld 报告下一动作预测准确率。RL w/ ACT 在所有任务上均取得最高分ALFWorld ID 92.86%、OOD 88.06%WebShop 33.80%ScienceWorld 50.34%。几个关键发现RL w/ ACT 在所有 benchmark 上均为最优。ACT 叠加到 IL 上平均提升 5.07 个百分点叠加到 RL 上平均提升 4.62 个百分点。与 Early Experience 相比IL w/ ACT 平均高出 2.42 个百分点。在 ALFWorld 的 OOD 任务上ACT 对 RL 的增益3.73pp大于 ID 任务2.15pp说明 ACT 学到的推理能力能泛化到未见过的任务配置。[Figure 3: ALFWorld 上的失败恢复案例] 左图中 IL 模型遇到Nothing happens后陷入无限循环重复失败动作超过 30 步直到终止右图中 ACT 模型遇到同类失败后通过内部推理诊断出根因位置错误跳出循环并发出正确的导航命令。跨模型尺寸的数据复用ACT 需要从策略中采样替代动作来构造对比数据成本不低。论文测试了直接将 Qwen3-8B 采集的 ACT 数据用于训练 Qwen3-4B无需重新采集。[Table 2: 跨尺寸结果] 在 Qwen3-4B 上所有 ACT 增强方法均优于对应的非 ACT 版本。RL w/ ACT 在 ID 达到 92.14%OOD 达到 91.79%。结果表明 ACT 数据的收益可以跨模型尺寸迁移数据采集成本可以被摊薄。通用推理能力的意外提升论文将仅在 ALFWorld agent 数据上训练的模型直接评估 MATH-500 和 GPQA-Diamond。[Table 3: 通用推理 benchmark 结果] ACT 在 MATH-500 上达到 87.73%在 GPQA-Diamond 上达到 53.37%均为最高。相比之下IL 在 GPQA-Diamond 上从 51.52% 暴跌至 44.61%下降 6.91 个百分点。IL 出现了论文所称的推理坍塌模型在短序列、动作密集的 agent 数据上做 SFT 后覆盖了原有的深度推理能力。具体表现为两种模式——“漫无目的的游荡”生成 3.5 倍长度的文本却得出错误答案和代数死循环超过 80000 字符的重复推导仍无法收敛。[Figure 4: ACT 在 GPQA-Diamond 上的自我验证行为] ACT 模型在推导出动能后将每个选项代回能量守恒方程进行验证系统性地排除不一致选项。基础模型完成了初始推导但未系统验证所有选项。[Figure 12: 推理坍塌——漫无目的的游荡] 在高能物理阈值问题上ACT 产生聚焦的推导10K 字符而 IL 生成 3.5 倍文本38K 字符却在模糊回忆和矛盾估计中游荡最终猜错。[Figure 13: 推理坍塌——代数死循环] 在概率问题上ACT 识别出几何结构并简洁求解而 IL 生成超过 80000 字符的循环代数操作后给出错误答案。ACT 之所以能避免推理坍塌是因为 RL 优化的是结果正确性而非行为模式——奖励信号不关心回复的格式或长度只关心判断是否正确因此模型在获得 agent 能力的同时完整保留甚至增强了原有的深度推理能力。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】