Agent 效果从 “感觉” 变成 “可验证”

Agent 效果从 “感觉” 变成 “可验证” 约束迭代最大的问题是写了不代表有效。很多时候我们只是觉得 Agent 变好了但缺少稳定的验证方法做法我的流程分为四步修改约束文档形成改后版本按官方最佳实践 review先排除明显不合理的写法派 Subagent 做 A/B 对照测试比较改前和改后的效果再由 review 汇总结果评估这次约束改动是否真的有效对照方式准备同一份需求设计分别交给使用改前约束和改后约束的两个 Subagent两者都不参考实际代码只根据需求盲写解决方案盲写完成后派独立 Evaluator 进行盲评。Evaluator 可以参考实际代码但不知道 A/B 分别对应哪版约束由主 Agent 汇总评估结果对比两组方案表现判断约束改进是否有效注意点Claude Code 在同一个会话中修改 CLAUDE.md 后本次会话派发的 Subagent 看不到最新改动。它读取的是主会话启动时的 CLAUDE.md 快照一个真实案例Subagent 同时评测同一份需求设计时改后版本的 Token 使用量下降优化占比约 11.7%⏺ 2 agents finished (ctrlo to expand) ├ 盲写 writer 改后臂 · 15 tool uses · 135.8k tokens │ ⎿ Done └ 盲写 writer 改前臂 · 18 tool uses · 153.8k tokens ⎿ Done发现