ACTS:代理链式思考 Steering 用于高效且可控的 LLM 推理

ACTS:代理链式思考 Steering 用于高效且可控的 LLM 推理 ACTS代理链式思考 Steering 用于高效且可控的 LLM 推理来源arXiv:2606.03965链接https://arxiv.org/abs/2606.03965优化日期2026-06-01领域大模型推理LLM Reasoning、链式思考Chain-of-Thought、推理控制、强化学习 概述与核心贡献ACTS (Agentic Chain-of-Thought Steering)提出了一种将推理控制从“全局长度约束”转向“分步策略级控制”的新范式。传统的链式思考CoT虽然提高了准确率但在推理效率上往往表现不佳且缺乏对推理过程的精细控制。ACTS 将推理控制建模为一个马尔可夫决策过程MDP通过一个轻量级的控制器代理Controller Agent动态选择推理策略并自然语言表达如“PLAN”或“CHECK”来引导冻结的推理器Reasoner。核心贡献推理即控制Reasoning as Control将推理过程视为 MDP控制器在每一步选择策略并生成自然语言提示引导推理器进行高效推理。策略集Strategy Set预定义了一组策略包括UNDERSTAND理解、PLAN规划、EXECUTE执行、EXPLORE探索、CHECK检查、SUMMARIZE总结、CONCLUDE得出结论。异步解耦架构控制器与推理器作为异步解耦的服务器运行通过 HTTP 通信有效摊销了延迟保持了高吞吐量。️ 架构机制推理控制作为 MDP状态 (Ht−1H_{t-1}Ht−1​)包含之前的动作、推理器步骤以及剩余的预算比例btb_tbt​。动作 (at(ut,pt)a_t (u_t, p_t)at​(ut​,pt​))ut∈Uu_t \in \mathcal{U}ut​∈U从预定义策略集中选择的高层推理策略。ptp_tpt​自由形式的自然语言引导短语用于初始化推理器。策略集U\mathcal{U}U{UNDERSTAND, PLAN, EXECUTE, EXPLORE, CHECK, SUMMARIZE, CONCLUDE}状态转移推理器在给定策略短语ptp_tpt​的条件下生成延续sts_tst​。预算更新为btbt−1−ℓ(zt)/Bb_t b_{t-1} - \ell(z_t)/Bbt​bt−1​−ℓ(zt​)/B。终止条件CONCLUDE动作、|end|标记或最大步骤限制。控制器与推理器的解耦异步服务器通信控制器Controller和推理器Reasoner作为解耦的异步服务器运行通过 SGLang通过 HTTP 通信。吞吐量优化这种设计摊销了延迟保持了与直接生成Direct Generation相当的吞吐量。 训练管线与步骤训练阶段概览阶段方法关键细节1. 合成轨迹构建提取自专家轨迹使用 DeepSeek-R1 轨迹来自 OpenR1-Math。LLM 标注器Qwen3-32B将步骤分类到U\mathcal{U}U并提取引导短语。在段落边界.\\n\\n或?\\n\\n进行分段。2. 多预算增强重新缩放预算让控制器暴露于不同的终止 regimes耗尽型(0%)、早终止型(0-40%)和全预算型。模拟不同的用户预算和题目难度。3. 监督微调 (SFT)行为初始化最小化控制器转向损失。学习率1e-5批次大小64。4. 强化学习 (GRPO)预算条件奖励塑形优化准确率与预算合规性。惩罚过度思考与过早终止。组大小8 rollout 批次32。预算条件奖励塑形公式终端奖励对低效推理进行非对称惩罚R(τ,y^){1αmin⁡(bT,0),c1 (正确答案)−α∣bT∣,c0 (错误答案) R(\tau, \hat{y}) \begin{cases} 1 \alpha \min(b_T, 0), c1 \text{ (正确答案)} \\ -\alpha |b_T|, c0 \text{ (错误答案)} \end{cases}R(τ,y^​){1αmin(bT​,0),−α∣bT​∣,​c1(正确答案)c0(错误答案)​α∈[0,1]\alpha \in [0, 1]α∈[0,1]控制惩罚幅度默认0.5。bT0b_T0bT​0周围的10%余量可防止微小的边界超调触发惩罚。 关键结果与基准测试基准测试与模型基准MATH-500, AIME24, AMC (2022/2023), OlympiadBench (数学子集), GPQA Diamond (科学问答)推理器评估DeepSeek-R1-Distill-Qwen-{1.5B, 7B}, Qwen3-8B指标准确率 (Acc), 总令牌数 (#Tok), 令牌节省 (% ) 性能亮点方法MATH-500 准确率相比 Vanilla 的令牌节省AIME24 准确率相比 Vanilla 的令牌节省Vanilla83.6%-28.0%-ACTS (1.5B)82.8%53.3%36.7%37.9%ACTS (7B)85.2%57.0%60.0%37.1%ACTS (Qwen3-8B)95.2%37.0%73.3%24.7%准确率-效率折衷ACTS 曲线严格位于 Vanilla/无思考NoThink插值线之上实现了对准确率与令牌成本之间的平滑控制。泛化性在 GPQA Diamond 上实现了11.9% 准确率提升且无需任何科学领域训练归因于领域无关的过度思考校正机制。机制分析令牌节省源于Rescue高效纠正错误答案和Shorten修剪冗余验证而非无差别的截断。回归ACTS 错误而 Vanilla 正确占令牌节省的5%。吞吐量异步管道实现了~99% 的 Vanilla 吞吐量在 1-11% 的下降范围内优于迭代型早退出基线如 DEER。 局限性与未来工作模型规模评估仅限于最多 8B 的参数。扩展到 70B 或前沿专有模型是未来的工作。预算假设假设推理时提供了外部预算。完全自主的自适应预算估计例如通过难度估计是未来的工作。领域范围目前主要集中在数学和科学推理未来将扩展到其他领域。 实验步骤与资源下载实验环境配置# 克隆 ACTS 仓库gitclone https://github.com/acts-reasoning/ACTS.gitcdACTS# 创建环境conda create-nactspython3.10conda activate acts# 安装依赖pipinstall-rrequirements.txt# 下载预训练模型与权重bashscripts/download_models.sh运行评估# 运行推理控制评估python run_evaluation.py--modelQwen3-8B--benchmarkMATH-500# 运行不同预算的测试python run_evaluation.py--modelQwen3-8B--budget_ratio0.5# 生成吞吐量报告python run_throughput.py--configthroughput_config.yaml资源下载与验证# 下载合成轨迹数据bashscripts/download_synthetic_data.sh--sourceOpenR1-Math# 验证推理器与控制器解耦性能python verify_async_pipeline.py--controllercontroller_server.json--reasonerreasoner_server.json# 运行 GRPO 训练步骤bashscripts/run_grpo.sh--budget_conditionadaptive 领域专家总结ACTSAgentic Chain-of-Thought Steering通过将推理过程建模为马尔可夫决策过程MDP成功解决了大语言模型在推理过程中“过度思考”Overthinking与资源浪费的问题。其核心突破在于策略级控制Strategy-Level Control不再仅仅约束长度而是通过控制器在每一步选择策略如PLAN、CHECK引导模型高效推理。异步解耦Asynchronous Decoupling将控制器与推理器解耦并通过异步服务器运行实现了高吞吐量与低延迟的平衡吞吐量损失控制在 11% 以内。精准惩罚机制通过非对称的预算条件奖励塑形Budget-Conditioned Reward Shaping有效抑制了过度推理和过早终止同时实现了卓越的准确率-效率折衷。该研究为高效推理提供了一种具有高度可控性的工程化方案特别适合资源受限且对推理延迟敏感的部署场景。本文基于 arXiv:2606.03965v1 优化整理保留原始实验步骤、脚本及资源链接。