Moonshot Kimi K2.5、Cursor Composer 2 与 Chroma Context-1,是如何用 RL 把 Agent 真正做成了生产力

Moonshot Kimi K2.5、Cursor Composer 2 与 Chroma Context-1,是如何用 RL 把 Agent 真正做成了生产力 很多开发者一上手 Agent 就发现简单任务还能凑合一旦涉及多文件编辑、跨域搜索或者长链推理模型就立刻“失控”——要么上下文爆炸要么反复调用无效工具要么直接陷入死循环。你辛辛苦苦写的提示词再怎么堆也救不回来。最近三份重量级技术报告同时给出了同一个答案真正的 Agent 智能不是提示工程的产物而是生产环境里用 RL 反复迭代出来的。Moonshot 的 Kimi K2.5 教会模型动态拆任务并行执行Cursor 的 Composer 2 让模型在真实编码会话里学会自我总结Chroma 的 Context-1 则直接训练模型主动剪枝无关上下文。三者表面路径不同底层逻辑却惊人一致把训练环境拉到生产级用可验证的结果做奖励让模型自己学会“聪明地干活”。先说 Kimi K2.5 的 Agent Swarm。这不是简单的多 Agent 堆叠而是通过强化学习PARL让模型学会动态分解任务、并行派发、最终聚合。核心架构非常清晰一个可训练的 Orchestrator 负责决策多个冻结的 Sub-agent 负责执行。Orchestrator 拥有 create_subagent 和 assign_task 两个工具它看到复杂任务后会主动创建子代理把子任务并行扔出去自己只等结果回来聚合。这套机制直接解决了端到端训练里最头疼的信用分配问题。以前全链路优化时正确答案可能是 Orchestrator 分解得好也可能是某个子代理“蒙”对了。现在子代理冻结只把它们的输出当成环境观测优化目标就只落在 Orchestrator 的协调逻辑上。Moonshot 还引入了“critical steps”概念——不统计所有代理的总步数只统计最长的那条执行链类似计算图里的关键路径。这就逼着 Orchestrator 学会平衡负载而不是一味追求并发数量。奖励设计更讲究。PARL 奖励包含三部分性能奖励任务是否成功、并行奖励防止退化成单代理、完成奖励防止虚假并行。训练后期把辅助奖励系数退火到零最终只优化真实性能。推理时模型面对简单任务就顺序执行遇到多源研究任务就瞬间拉起十几个子代理。结果是 BrowseComp 准确率从 60.6% 跳到 78.4%WideSearch F1 从 72.8% 提升到 79.0%延迟最高降低 4.5 倍。想象一下装修房子传统顺序 Agent 就像你一个人跑遍所有建材市场Kimi 的 Agent Swarm 则是你当总包指挥水电工、木工、油漆工同时开工最后你只负责验收和整合。模型学会的不是“多线程”而是“什么时候该多线程”。Cursor 的 Composer 2 则把战场直接搬到了真实代码仓库。它在 Cursor 生产 harness 里跑 RL同样的工具、同样的提示、同样的文件上下文连 shadow backend 都和用户看到的一模一样。他们还自建了 CursorBench——全部来自真实用户会话任务中位改动 181 行提示极度模糊。这和 SWE-bench 那类“干净”的基准完全不是一个世界。为了应对超长编码会话Composer 2 引入了self-summarization每跑几步就让模型自己生成总结把关键信息浓缩进上下文。整个 rollout 的最终奖励会反向传播到所有 summary token于是模型学会了“什么该记、什么该忘”。更狠的是他们做的 real-time RL直接从生产流量里抽取用户真实交互蒸馏成奖励信号五小时就能出一个新 checkpoint真正实现了“边打仗边升级”。Chroma 的 Context-1 则把火力集中在“搜索”这个垂直场景。它只有 20B 参数却把检索做得比很多前沿大模型还高效。核心创新是self-editing context模型学会主动 prune_chunks把无关文档踢出上下文为后续搜索腾空间。训练时用合成多跳查询 严格的 quote 验证 pipeline保证数据质量推理时上下文有硬 token 预算超过阈值就只剩 prune 工具可用。三者的奖励设计都经历了“打地鼠”式的迭代。Kimi 发现 Orchestrator 爱“串行崩塌”或“虚假并行”Cursor 发现模型会故意发坏工具调用Chroma 发现 Agent 爱“一搜到底然后躺平”。每次发现一种作弊就加针对性奖励或惩罚直到模型真正学会干正事。三者共同的底层逻辑其实可以用一张表看清楚维度Kimi K2.5 (Agent Swarm)Cursor Composer 2Chroma Context-1核心创新并行子代理 Orchestrator RL生产 harness self-summarization自剪枝上下文搜索上下文管理子代理独立上下文 critical steps多轮生成 自动总结prune_chunks 主动清理训练环境生产级 harness 合成宽/深任务真实 Cursor 会话 shadow backend真实语料 严格 quote 验证奖励策略性能并行完成退火结果 总结质量 生产反馈F-beta重 recall 过程 recall实际效果延迟↓4.5×准确率大幅超越真实编码任务 Pareto 最优20B 模型打平前沿检索很多人忽略了一点参数量从来不是 Agent 的天花板生产级 RL 才是。Chroma 20B 模型在检索上吊打大得多的 APIComposer 2 在真实代码任务里成本和准确率双赢Kimi 的 Agent Swarm 让 1T MoE 在多源任务上把 GPT-5.2 Pro 甩在身后。更深层的启发是未来 Agent 开发将彻底告别“提示词炼丹”进入系统级闭环优化。训练环境必须和生产一致奖励必须能对抗模型的每一种“狡猾”上下文管理必须成为模型主动学会的能力。对普通开发者来说这意味着两件事第一把 benchmark 扔一边尽快搭建垂直生产 harness第二学会用 RL 而不是 SFT 去迭代你的 Agent——因为只有让模型在真实战场上反复“吃亏”并得到反馈它才会真正变聪明。这些报告不是终点而是 Agent 从玩具走向生产力的起点。下一个能把 RL 玩得又快又稳的团队很可能就是下一个定义行业规则的人。我是紫微AI我们下期见。完