Latent Reasoning Refinement在不训练任何参数的前提下给 Coconut 套一层心理调节器论文标题Efficient Post-Training Refinement of Latent Reasoning in Large Language ModelsarXiv2506.08552v2代码github.com/anord-wang/Lateng-Reasoning作者Xinyuan Wang, Dongjie Wang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Sixun Dong, Kunpeng Liu, Yanjie Fu单位Arizona State University, University of Kansas, Clemson UniversityAAAI 2026 / DOI 10.1609/aaai.v40i40.40659一句话感受读完这篇我一开始有点犹豫——它的故事很简洁方法很轻benchmark 涨幅在 5% 量级。和 GenPRM 那种 1.5B 打 GPT-4o 的视觉冲击比起来明显是另一个 league。但读到第二遍时我意识到这篇的价值不在数字而在它问对了一个被忽视的问题Coconut 那条把 reasoning 压进 latent space 的路线在 inference 阶段是不是还有空间过去一年所有 latent reasoning 工作都在卷怎么训得更好——这篇直接绕开训练问训完之后还能怎么改。它给的两个 building block 都极其朴素Contrastive Reasoning Feedback Search找一个强 checkpoint和一个弱 checkpoint用它们俩对当前 hidden state 的 forward 输出之差作为梯度方向更新当前 latent。Residual Embedding Refinement每步 latent 更新时不要全替换按α ⋅ h t − 1 ( 1 − α ) ⋅ f ( h t − 1 ) \alpha \cdot h^{t-1} (1-\alpha) \cdot f(h^{t-1})α⋅ht−1(1−α)⋅f(ht−1)做残差混合。加起来 MathQA 5.10%、ProsQA 最大 7.7%、StrategyQA 2.63%。全部 training-free没有任何参数更新——只在 forward 上算几次 MSE 梯度。这种不用训的方法学价值在哪我的判断是当 Coconut 这种 latent reasoning backbone 被 frozen很多生产场景模型是 frozen 的你能做的就只剩 inference 阶段调控。这篇 paper 把latent space inference 期可以怎么调这个问题的下限抬高了。为什么需要对 latent reasoning 做 post-training refine我把作者的 motivation 翻译成研究员视角的两个具体痛点。痛点一CoT 是 verbose 的但 Coconut 是 rigid 的。CoT 的问题大家都熟——一题动辄输出几百个 reasoning token慢、贵、还会因为表达冗余引入错误累积。Coconut 是 Meta 那篇把 reasoning 全部压进 hidden state 的工作[hao2024training]思路非常漂亮让 reasoning 在 continuous space 里循环每步h t f ( h t − 1 ) h^t f(h^{t-1})htf(ht−1)不输出任何文本最后再 decode 成 answer。但 Coconut 的代价是这条 latent 轨迹一旦进入推理就没有任何修正机制——前一步往哪偏后面只能跟着偏下去。痛点二Latent space 没有梯度信号。显式 CoT 可以靠 self-consistency / Best-of-N 这类外部多采样修正轨迹Coconut 只跑 forward pass连一个让模型知道自己跑偏了的信号都没有。这就是 latent reasoning 论文里反复出现的 “trajectory drift” 问题。作者的两条 motivation 来源也很有意思对比方向的 idea 来自 RLHF——relative comparison 比 absolute supervision 更高效。残差更新的 idea 来自 ResNet 人脑工作记忆——保留前一步信号避免 abrupt shift。把 RLHF 和 ResNet 拼到 Coconut 上做 inference 期校准这种交叉的玩法本身就值得读一下。方法两条朴素的 forward-only 操作整个方法用两个公式就能讲清楚。先说对比搜索。Contrastive Reasoning Feedback Search给定当前 latent stateh t h^tht作者会找两个辅助 checkpoint——一个强good和一个弱bad。这两个 checkpoint 都是从同一个 CoT 训练 trajectory 上不同 epoch 切下来的快照——比如 epoch 30 是 good、epoch 5 是 bad。注意作者说得很清楚good 和 bad 都比最终的 Coconut 模型弱它们的存在只是为了定义一个相对方向。每一步分别用 good model 和 bad model 对当前h t h^tht做 forward得到h good t h^t_{\text{good}}hgoodt和h bad t h^t_{\text{bad}}hbadt。然后按下式更新h updated t h t η ⋅ ∇ h t [ MSE ( h good t , h t ) − MSE ( h bad t , h t ) ] h^t_{\text{updated}} h^t \eta \cdot \nabla_{h^t} \big[ \text{MSE}(h^t_{\text{good}}, h^t) - \text{MSE}(h^t_{\text{bad}}, h^t) \big]hupdatedthtη⋅∇ht[MSE(hgoodt,ht)−MSE(hbadt,ht)]这个公式的直觉是我希望当前 latent 更靠近 good model 的输出 → 减小MSE ( h good t , h t ) \text{MSE}(h^t_{\text{good}}, h^t)MSE(hgoodt,ht)我希望当前 latent 远离 bad model 的输出 → 增大MSE ( h bad t , h t ) \text{MSE}(h^t_{\text{bad}}, h^t)MSE(hbadt,ht)这两条加起来给了一个梯度方向沿着它走η \etaη步。注意几个关键点第一整个过程不更新模型参数。梯度只是用来算该往哪个方向调h t h^tht模型本身完全 frozen。这才是它能号称 training-free 的原因。第二good 和 bad 是相对的不是绝对意义上的强教师。这点作者反复强调——他们用的是 CoT 训练过程中的 early checkpointbad和 late checkpointgood。这种用 training trajectory 自带的 implicit ordering 来构造对比方向的做法很取巧不依赖任何外部强模型。第三这个梯度更新不是 backprop 到模型权重而是对 latent embedding 自身求导。因为h t h^tht是 forward pass 得到的但当你把它当成一个 leaf tensor 写进 PyTorch 的 autograd graph 时可以算∂ MSE / ∂ h t \partial \text{MSE} / \partial h^t∂MSE/∂ht。这是 inference 期间的小型 inner loop开销远小于真正的训练。Residual Embedding Refinement这部分更朴素一行公式h t α ⋅ h t − 1 ( 1 − α ) ⋅ f ( h t − 1 ) , α ∈ [ 0 , 1 ] h^t \alpha \cdot h^{t-1} (1 - \alpha) \cdot f(h^{t-1}), \quad \alpha \in [0, 1]htα⋅ht−1(1−α)⋅f(ht−1),α∈[0,1]对的就是个加权平均。α \alphaα是固定的不训练因为是 train-free 设定叫 memory rate。α 0 \alpha0α0就是原版 Coconut完全用f ( h t − 1 ) f(h^{t-1})f(ht−1)替换α 1 \alpha1α1就是冻死不更新了。中间某个值表示留一部分上一步信号 一部分新算的输出。灵感来源是 ResNet 的 skip connection 和人脑的 working memory。我个人的看法是把它和 Search 一起用其实是在做两件互补的事情Search 是主动的、有方向的调整——告诉 latent 该往哪走。Residual 是被动的、稳定的调整——保住上一步的有效信号别丢了。只用 Search 容易在某些步把 latent 推得过头只用 Residual 没有方向感只能维持稳定。两个一起才有既稳又准的效果。主结果MathQA 5.10%ProsQA 7.7%但 GSM8K 输给 CoT主表论文 Figure 4画得很大但数值没在正文给精确数字。我把图里读出来的近似值整理成表GPT-2 base 117M backboneBenchmarkNo-CoTCoTCoconutOursGain over CoconutGSM8K16.542.7636.336.90.6MathQA23.035.338.2540.201.95AQUA22.824.728.531.32.76ProsQA75.077.582.085.73.67StrategyQA50.657.559.462.02.63我从这张表里读出几个 takeaway。第一提升真实但很小。Gain 在 1.95 到 3.67 之间绝对值都没破 5消融表里 MathQA 5.10 是和 Latent only 38.25 比包含了 backbone 优化的部分。这种量级的提升必须放在零训练成本的语境下评判才合理。如果你愿意付训练代价比如继续训 Coconut 10 个 epoch你能拿到比 5% 更大的收益——但那就不叫 training-free 了。第二GSM8K 是个反例CoT 在那里独占鳌头。42.76% vs Ours 36.9%差了 6 个点。作者在正文里坦诚地解释了这件事GSM8K 的题目是开放式数值题不是多选需要长链算术人类做这种题都要写在纸上算全压在 latent space 里硬扛容易出错。MathQA 虽然也是数学题但是多选题——latent reasoning 只需要挑一个而不是算出一个数难度低很多。这个解释让我对 latent reasoning 的适用边界有了更清晰的认识latent space 适合 selection 任务不适合 generation 任务。第三“非数学” reasoning 任务才是 latent refinement 的甜区。ProsQA结构化逻辑推理3.67StrategyQA常识组合推理2.63AQUA符号推理2.76。这三个任务的共同点是 reasoning step 不需要精确算术——只要 latent 大致方向对就够了。Inference-only 居然比 TrainingInference 更好论文 Q2 部分给了一个反直觉的实验在 ProsQA 上比较四种 latent refinement 启用策略SettingAccuracy GainTrain TimeTrain Mem (GB)原版 Coconutbaseline——只在 Inference 应用 latent refinement4.470 (24 sec inference)31.23继续训 10 epoch Inference1.6354 min39.04Training Inference 都用 1.63更长更大最大收益来自 inference-only。在 train infer 都用的设定下反而退化。作者给的解释我觉得是这篇 paper 最值得思考的洞察在训练时refinement 只影响 forward pass不进入 backward gradient所以模型没法真正学会怎么用它。在数据有限时这种额外信号反而可能让模型困惑或者干扰收敛。然后 inference 时再 apply 一次相当于做了第二次调整可能overshoot正确方向。我读到这里的反应是train-free 不是因为训不动而是因为训了反而不好。这是一个很反直觉、但在 latent reasoning 这个场景里说得通的发现。Refinement 本质是 inference 期对 latent state 做一次轻量校准如果你在 train 阶段也用等于让模型预先把这种校准烙进权重里而它的固化形式可能不如 inference 期动态调整灵活。这给我一个工程暗示所有依赖 forward-only 的 inference 期校准方法都应该认真验证一下训练时启用是不是反而有副作用。这不是一句空话——很多工作默认 train infer 一致是最优但这篇用 ProsQA 上的三个 dataset 一致性观察证明了反例。消融Search 和 Residual 都不可少论文 Q3 部分在 MathQA 上拆开了两个组件VariantAccuracy (%)Gain over Latent onlyLatent onlyCoconut baseline38.25— Residual refinement40.024.63 Latent Search39.794.03完整版Residual Search40.205.10我反复盯着这张表看了两遍。直觉里我以为 Search 是主菜提供方向感Residual 是配菜保稳定。但实际数字表明Residual 单独用4.63比 Search 单独用4.03更强。这个事实重新定义了我对这套方法的理解。Residual 不是防止崩坏的安全带而是主动累积上下文的核心机制。Coconut 默认每步用f ( h t − 1 ) f(h^{t-1})f(ht−1)替换h t − 1 h^{t-1}ht−1这相当于丢掉 100% 的上一步信号——而 reasoning 这种任务里上一步的中间状态非常宝贵。把α \alphaα从 0 调到合理值论文里没明说最优α \alphaα从 sensitivity 实验看 MathQA 偏好α → 1 \alpha \to 1α→1等于给 Coconut 装了一条 short-term memory。两个都用比单用提升非常有限0.18 vs 0.41。说明这两个组件的收益没有完全独立——它们都在做让 latent 不要漂走这件事只是路径不同。Residual 通过保留信号防漂Search 通过主动校准防偏。在 MathQA 这种比较乖的多选任务上它们的 overlap 比较大。我猜在更难的任务比如 ProsQA上两者的协同效应会更明显——因为更长的 reasoning chain 既需要稳定Residual又需要修正Search。Hyperparameter sensitivityMathQA 吃 memoryAQUA 吃 search stepQ5 的 sensitivity 实验是一个很有意思的对照。两个超参η \etaηSearch step lengthlatent 更新的步长α \alphaαMemory rate残差混合的权重在 MathQA 和 AQUA 上分别画热力图MathQAaccuracy 随α \alphaα增大单调提升对η \etaη不敏感。AQUAaccuracy 对α \alphaα不敏感但对η \etaη敏感得多。作者的解释——MathQA数学需要稳定积累中间步骤memory所以α \alphaα高更好AQUA常识 QA需要灵活校正方向search step所以η \etaη更关键。这个观察我觉得非常实用部署时别一套超参吃所有任务。如果你的下游是数学题先把α \alphaα调高0.7~0.9再调η \etaη如果是常识或多跳 QA反过来。论文没给最优值的精确数字但这个 task-dependent sensitivity 的现象已经足够指导调参方向。跨 backbone 泛化117M 到 3B 都能用Q6 在 GPT-2 (117M) / Qwen-2.5 (1.5B) / LLaMA-3.2 (3B) 三个 backbone 上 MathQA 评估BackboneLatent onlyOursGainGPT-2 (117M)38.2540.205.10Qwen-2.5 (1.5B)42.2943.041.77LLaMA-3.2 (3B)39.3041.104.58我注意到 Qwen 上提升只有 1.77明显比 GPT-2 和 LLaMA 小。作者没解释为什么我的猜测是Qwen-2.5 1.5B 本身的 latent reasoning baseline 就比另外两个高42.29% 是表里最高的 Latent only可能已经接近 latent reasoning 在 MathQA 上的天花板refinement 的边际收益自然下降。也可能是 Qwen 的 hidden state 几何性质和 GPT-2/LLaMA 不一样Search 的对比方向在那里效果衰减。无论哪个原因这都提示这个方法的收益不是线性的——你不能假设在所有 backbone 上都能拿到 5。但好消息是它至少不退化三个 backbone 都正向涨。inference 成本也很可控117M ~ 3B 全部在 7 分钟内完成、显存 24GB。这个 cost profile 是符合 training-free 故事的——它没有把省训练换成贵推理。Token efficiency相比 CoT 省 92%这是我读到最后才注意到的一组数字论文 Table 6DatasetCoT (avg tokens/query)Latent (avg tokens/query)ReductionMathQA66.715.0292.47%AQUA72.735.3192.65%注意这里的 5.02 和 5.31 token 是整个 latent reasoning 过程总共生成的文本 token 数——因为 latent reasoning 在中间步骤完全不出 token只在最后 decode 答案。92% 的减少是个很惊人的数字。但要冷静看待这是和原版 Coconut 共享的优势不是这篇 paper 独有的。Coconut 的 selling point 之一就是 token saving。不能直接换算成 92% 的 cost reduction——latent reasoning 在中间步骤跑 forward pass 仍然有计算开销只是没有 KV cache 增长和 token 输出而已。Search 模块需要额外的 forwardgood model bad model 各跑一次这部分成本论文没算进 token 里。如果你算上 Search 的 wallclock整体效率比纯 Coconut 是要打折扣的。但从输出 token 计费这个商业 API 的视角看92% 仍然是真实的。如果你做的是 latency-sensitive 的部署这个数字非常有吸引力。我的批判性笔记这篇 paper 在我看的 AAAI 2026 推荐论文里属于中规中矩但有想法的类型。我必须诚实指出几个问题。第一绝对性能没有竞争力。GPT-2 117M 在 MathQA 拿到 40.20% 听起来涨了但这是个多选题任务——四选一的 random 是 25%CoT 也才 35.3%。比起现在动辄 70% 的 7B 数学模型这个绝对水平离生产可用还非常远。论文没有在更强的 backbone比如 Qwen-2.5 7B Math上验证所以你不知道这套方法叠在一个本来就强的模型上还能不能涨。第二good/bad checkpoint是个隐形依赖。论文反复强调 training-free但 Search 模块本身需要两个额外的 CoT checkpoint。这意味着你必须先有一个完整的 CoT 训练 trajectory才能从中切出 good 和 bad。如果你没有这个 trajectory比如你直接拿一个开源模型用这个方法跑不起来。这是 training-free 故事里被掩盖的一个 setup cost。第三方法本质是把训练时该学的东西挪到了 inference。Residual update 和 Contrastive direction 这两件事理论上完全可以变成训练目标——比如让模型自己学α \alphaα、自己学 search direction。作者论证 inference-only 比 traininginference 更好但我对这个结论的 generality 持保留态度。在 ProsQA 上观察到的现象不一定能推广到其他任务特别是数据更充足的领域。第四公式 (3) 的梯度计算开销没有透明披露。论文说 “lightweight”但没有 wallclock benchmark 把 Search 单步开销和 Coconut 单步开销做对比。如果 Search 本身需要 3-5 倍的 forward 时间good bad 都要跑那 92% 的 token reduction 在 latency 上的优势会大幅缩水。这是一个工程化必须看的数字paper 里却缺失了。第五5 个 benchmark 都是分类型 / 短答案任务。GSM8K 是开放式但被作者主动放弃了“latent reasoning 不擅长长链算术”。这意味着这篇方法的实证版图集中在 selection-style reasoning对长 chain-of-thought 的支持没有证据。用它来做 long-form generation 任务比如代码生成、agent rollout是 unjustified 的。第六与 GenPRM、Self-Refine、Reflexion 的对比缺失。和 inference-time refinement 这条 broader research line 的代表方法没有 head-to-head 比较。读者很难判断latent refinement这条路线相对显式 self-critique是更好还是更弱。工程视角的 takeaway我把这篇 paper 的可落地点整理成几条Step 1先判断你是不是 latent reasoning 用户。如果你的 stack 已经在用 Coconut 或类似的 hidden-state-recurrent 方法这篇 paper 是直接增益2 到 5 acc零训练成本。如果你跑的是标准 CoT这篇 paper 不直接适用。Step 2复现优先做 Residual。从消融数据看Residual 单独用就拿到了 4.6390% 的总收益。Residual 实现极其简单——一行加权平均不需要额外 checkpoint不需要梯度计算。先把这块加上看看 baseline 能到哪。Step 3Search 模块按需启用。如果你的下游是常识 QA / 多跳推理AQUA、StrategyQA 这种Search 收益更大如果是数学 selectionMathQA 这种Search 边际收益小。Search 需要额外两个 checkpoint 和 inner-loop 梯度工程复杂度高 3-5 倍。Step 4Hyperparameter 按任务调。MathQA 类数值题α \alphaα调高0.7η \etaη任意AQUA 类常识题α \alphaα中等η \etaη仔细搜。论文 Q5 的 heatmap 是最好的参考。Step 5不要试图把它改成 trainable。作者的反直觉发现——traininginference 比 inference-only 更差——已经踩过这个坑。如果你想把这套 mechanism trainable 化需要重新设计目标函数比如显式回传 search direction 的 gradient不是简单地在 forward 里塞进去。我的总结这篇 paper 给我的整体感受是问题选得好方案很轻效果中等。它真正的贡献不是 5% MathQA accuracy 这个数字——这个数字在大模型时代不算大新闻。它的贡献是指出了 latent reasoning 范式里一个被普遍忽视的 inference-time 调控空间并用两个非常 minimal 的 building block 给出了第一个可行的 forward-only refinement 方案。从研究路线图上看它是 Coconut 这条 latent reasoning 主线的一个小补丁。如果未来 latent reasoning 真的成为主流这是一个 open question那这篇的角色会更像早期工程化探索——后续工作大概率会把它的 trick 整合到训练里去即使作者证明了 inference-only 更好那也只是当前 setup 下的局部最优。如果 latent reasoning 没有成为主流这篇 paper 的实际影响力可能就限于一个有趣的边角实验。把它放在 AAAI 2026 推荐列表里我的定位是latent reasoning 子方向选读——不是必读但读完会让你对PRM/Reasoning 训练之外还能做什么有新的视角。和 GenPRM (arXiv 2504.00891) 对照着读最有意思——前者是把 reasoning 显式化让 PRM 写 CoT 跑代码后者是把 reasoning 隐式化在 latent space 里直接调整。两条路线对 reasoning 监督的态度截然相反但都在试图回答同一个问题测试时计算到底应该花在哪里。下一篇我们去看 DeCoRL (arXiv 2511.19097)——它走的又是另一条路把 CoT 拆成可并行子步、用模块化奖励逐步打分 级联 DRPO。“显式拆步骤” vs “压进 latent” vs “生成式 PRM”——AAAI 2026 这个赛道上的三种思路第一次同台比较。
Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层“心理调节器“
Latent Reasoning Refinement在不训练任何参数的前提下给 Coconut 套一层心理调节器论文标题Efficient Post-Training Refinement of Latent Reasoning in Large Language ModelsarXiv2506.08552v2代码github.com/anord-wang/Lateng-Reasoning作者Xinyuan Wang, Dongjie Wang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Sixun Dong, Kunpeng Liu, Yanjie Fu单位Arizona State University, University of Kansas, Clemson UniversityAAAI 2026 / DOI 10.1609/aaai.v40i40.40659一句话感受读完这篇我一开始有点犹豫——它的故事很简洁方法很轻benchmark 涨幅在 5% 量级。和 GenPRM 那种 1.5B 打 GPT-4o 的视觉冲击比起来明显是另一个 league。但读到第二遍时我意识到这篇的价值不在数字而在它问对了一个被忽视的问题Coconut 那条把 reasoning 压进 latent space 的路线在 inference 阶段是不是还有空间过去一年所有 latent reasoning 工作都在卷怎么训得更好——这篇直接绕开训练问训完之后还能怎么改。它给的两个 building block 都极其朴素Contrastive Reasoning Feedback Search找一个强 checkpoint和一个弱 checkpoint用它们俩对当前 hidden state 的 forward 输出之差作为梯度方向更新当前 latent。Residual Embedding Refinement每步 latent 更新时不要全替换按α ⋅ h t − 1 ( 1 − α ) ⋅ f ( h t − 1 ) \alpha \cdot h^{t-1} (1-\alpha) \cdot f(h^{t-1})α⋅ht−1(1−α)⋅f(ht−1)做残差混合。加起来 MathQA 5.10%、ProsQA 最大 7.7%、StrategyQA 2.63%。全部 training-free没有任何参数更新——只在 forward 上算几次 MSE 梯度。这种不用训的方法学价值在哪我的判断是当 Coconut 这种 latent reasoning backbone 被 frozen很多生产场景模型是 frozen 的你能做的就只剩 inference 阶段调控。这篇 paper 把latent space inference 期可以怎么调这个问题的下限抬高了。为什么需要对 latent reasoning 做 post-training refine我把作者的 motivation 翻译成研究员视角的两个具体痛点。痛点一CoT 是 verbose 的但 Coconut 是 rigid 的。CoT 的问题大家都熟——一题动辄输出几百个 reasoning token慢、贵、还会因为表达冗余引入错误累积。Coconut 是 Meta 那篇把 reasoning 全部压进 hidden state 的工作[hao2024training]思路非常漂亮让 reasoning 在 continuous space 里循环每步h t f ( h t − 1 ) h^t f(h^{t-1})htf(ht−1)不输出任何文本最后再 decode 成 answer。但 Coconut 的代价是这条 latent 轨迹一旦进入推理就没有任何修正机制——前一步往哪偏后面只能跟着偏下去。痛点二Latent space 没有梯度信号。显式 CoT 可以靠 self-consistency / Best-of-N 这类外部多采样修正轨迹Coconut 只跑 forward pass连一个让模型知道自己跑偏了的信号都没有。这就是 latent reasoning 论文里反复出现的 “trajectory drift” 问题。作者的两条 motivation 来源也很有意思对比方向的 idea 来自 RLHF——relative comparison 比 absolute supervision 更高效。残差更新的 idea 来自 ResNet 人脑工作记忆——保留前一步信号避免 abrupt shift。把 RLHF 和 ResNet 拼到 Coconut 上做 inference 期校准这种交叉的玩法本身就值得读一下。方法两条朴素的 forward-only 操作整个方法用两个公式就能讲清楚。先说对比搜索。Contrastive Reasoning Feedback Search给定当前 latent stateh t h^tht作者会找两个辅助 checkpoint——一个强good和一个弱bad。这两个 checkpoint 都是从同一个 CoT 训练 trajectory 上不同 epoch 切下来的快照——比如 epoch 30 是 good、epoch 5 是 bad。注意作者说得很清楚good 和 bad 都比最终的 Coconut 模型弱它们的存在只是为了定义一个相对方向。每一步分别用 good model 和 bad model 对当前h t h^tht做 forward得到h good t h^t_{\text{good}}hgoodt和h bad t h^t_{\text{bad}}hbadt。然后按下式更新h updated t h t η ⋅ ∇ h t [ MSE ( h good t , h t ) − MSE ( h bad t , h t ) ] h^t_{\text{updated}} h^t \eta \cdot \nabla_{h^t} \big[ \text{MSE}(h^t_{\text{good}}, h^t) - \text{MSE}(h^t_{\text{bad}}, h^t) \big]hupdatedthtη⋅∇ht[MSE(hgoodt,ht)−MSE(hbadt,ht)]这个公式的直觉是我希望当前 latent 更靠近 good model 的输出 → 减小MSE ( h good t , h t ) \text{MSE}(h^t_{\text{good}}, h^t)MSE(hgoodt,ht)我希望当前 latent 远离 bad model 的输出 → 增大MSE ( h bad t , h t ) \text{MSE}(h^t_{\text{bad}}, h^t)MSE(hbadt,ht)这两条加起来给了一个梯度方向沿着它走η \etaη步。注意几个关键点第一整个过程不更新模型参数。梯度只是用来算该往哪个方向调h t h^tht模型本身完全 frozen。这才是它能号称 training-free 的原因。第二good 和 bad 是相对的不是绝对意义上的强教师。这点作者反复强调——他们用的是 CoT 训练过程中的 early checkpointbad和 late checkpointgood。这种用 training trajectory 自带的 implicit ordering 来构造对比方向的做法很取巧不依赖任何外部强模型。第三这个梯度更新不是 backprop 到模型权重而是对 latent embedding 自身求导。因为h t h^tht是 forward pass 得到的但当你把它当成一个 leaf tensor 写进 PyTorch 的 autograd graph 时可以算∂ MSE / ∂ h t \partial \text{MSE} / \partial h^t∂MSE/∂ht。这是 inference 期间的小型 inner loop开销远小于真正的训练。Residual Embedding Refinement这部分更朴素一行公式h t α ⋅ h t − 1 ( 1 − α ) ⋅ f ( h t − 1 ) , α ∈ [ 0 , 1 ] h^t \alpha \cdot h^{t-1} (1 - \alpha) \cdot f(h^{t-1}), \quad \alpha \in [0, 1]htα⋅ht−1(1−α)⋅f(ht−1),α∈[0,1]对的就是个加权平均。α \alphaα是固定的不训练因为是 train-free 设定叫 memory rate。α 0 \alpha0α0就是原版 Coconut完全用f ( h t − 1 ) f(h^{t-1})f(ht−1)替换α 1 \alpha1α1就是冻死不更新了。中间某个值表示留一部分上一步信号 一部分新算的输出。灵感来源是 ResNet 的 skip connection 和人脑的 working memory。我个人的看法是把它和 Search 一起用其实是在做两件互补的事情Search 是主动的、有方向的调整——告诉 latent 该往哪走。Residual 是被动的、稳定的调整——保住上一步的有效信号别丢了。只用 Search 容易在某些步把 latent 推得过头只用 Residual 没有方向感只能维持稳定。两个一起才有既稳又准的效果。主结果MathQA 5.10%ProsQA 7.7%但 GSM8K 输给 CoT主表论文 Figure 4画得很大但数值没在正文给精确数字。我把图里读出来的近似值整理成表GPT-2 base 117M backboneBenchmarkNo-CoTCoTCoconutOursGain over CoconutGSM8K16.542.7636.336.90.6MathQA23.035.338.2540.201.95AQUA22.824.728.531.32.76ProsQA75.077.582.085.73.67StrategyQA50.657.559.462.02.63我从这张表里读出几个 takeaway。第一提升真实但很小。Gain 在 1.95 到 3.67 之间绝对值都没破 5消融表里 MathQA 5.10 是和 Latent only 38.25 比包含了 backbone 优化的部分。这种量级的提升必须放在零训练成本的语境下评判才合理。如果你愿意付训练代价比如继续训 Coconut 10 个 epoch你能拿到比 5% 更大的收益——但那就不叫 training-free 了。第二GSM8K 是个反例CoT 在那里独占鳌头。42.76% vs Ours 36.9%差了 6 个点。作者在正文里坦诚地解释了这件事GSM8K 的题目是开放式数值题不是多选需要长链算术人类做这种题都要写在纸上算全压在 latent space 里硬扛容易出错。MathQA 虽然也是数学题但是多选题——latent reasoning 只需要挑一个而不是算出一个数难度低很多。这个解释让我对 latent reasoning 的适用边界有了更清晰的认识latent space 适合 selection 任务不适合 generation 任务。第三“非数学” reasoning 任务才是 latent refinement 的甜区。ProsQA结构化逻辑推理3.67StrategyQA常识组合推理2.63AQUA符号推理2.76。这三个任务的共同点是 reasoning step 不需要精确算术——只要 latent 大致方向对就够了。Inference-only 居然比 TrainingInference 更好论文 Q2 部分给了一个反直觉的实验在 ProsQA 上比较四种 latent refinement 启用策略SettingAccuracy GainTrain TimeTrain Mem (GB)原版 Coconutbaseline——只在 Inference 应用 latent refinement4.470 (24 sec inference)31.23继续训 10 epoch Inference1.6354 min39.04Training Inference 都用 1.63更长更大最大收益来自 inference-only。在 train infer 都用的设定下反而退化。作者给的解释我觉得是这篇 paper 最值得思考的洞察在训练时refinement 只影响 forward pass不进入 backward gradient所以模型没法真正学会怎么用它。在数据有限时这种额外信号反而可能让模型困惑或者干扰收敛。然后 inference 时再 apply 一次相当于做了第二次调整可能overshoot正确方向。我读到这里的反应是train-free 不是因为训不动而是因为训了反而不好。这是一个很反直觉、但在 latent reasoning 这个场景里说得通的发现。Refinement 本质是 inference 期对 latent state 做一次轻量校准如果你在 train 阶段也用等于让模型预先把这种校准烙进权重里而它的固化形式可能不如 inference 期动态调整灵活。这给我一个工程暗示所有依赖 forward-only 的 inference 期校准方法都应该认真验证一下训练时启用是不是反而有副作用。这不是一句空话——很多工作默认 train infer 一致是最优但这篇用 ProsQA 上的三个 dataset 一致性观察证明了反例。消融Search 和 Residual 都不可少论文 Q3 部分在 MathQA 上拆开了两个组件VariantAccuracy (%)Gain over Latent onlyLatent onlyCoconut baseline38.25— Residual refinement40.024.63 Latent Search39.794.03完整版Residual Search40.205.10我反复盯着这张表看了两遍。直觉里我以为 Search 是主菜提供方向感Residual 是配菜保稳定。但实际数字表明Residual 单独用4.63比 Search 单独用4.03更强。这个事实重新定义了我对这套方法的理解。Residual 不是防止崩坏的安全带而是主动累积上下文的核心机制。Coconut 默认每步用f ( h t − 1 ) f(h^{t-1})f(ht−1)替换h t − 1 h^{t-1}ht−1这相当于丢掉 100% 的上一步信号——而 reasoning 这种任务里上一步的中间状态非常宝贵。把α \alphaα从 0 调到合理值论文里没明说最优α \alphaα从 sensitivity 实验看 MathQA 偏好α → 1 \alpha \to 1α→1等于给 Coconut 装了一条 short-term memory。两个都用比单用提升非常有限0.18 vs 0.41。说明这两个组件的收益没有完全独立——它们都在做让 latent 不要漂走这件事只是路径不同。Residual 通过保留信号防漂Search 通过主动校准防偏。在 MathQA 这种比较乖的多选任务上它们的 overlap 比较大。我猜在更难的任务比如 ProsQA上两者的协同效应会更明显——因为更长的 reasoning chain 既需要稳定Residual又需要修正Search。Hyperparameter sensitivityMathQA 吃 memoryAQUA 吃 search stepQ5 的 sensitivity 实验是一个很有意思的对照。两个超参η \etaηSearch step lengthlatent 更新的步长α \alphaαMemory rate残差混合的权重在 MathQA 和 AQUA 上分别画热力图MathQAaccuracy 随α \alphaα增大单调提升对η \etaη不敏感。AQUAaccuracy 对α \alphaα不敏感但对η \etaη敏感得多。作者的解释——MathQA数学需要稳定积累中间步骤memory所以α \alphaα高更好AQUA常识 QA需要灵活校正方向search step所以η \etaη更关键。这个观察我觉得非常实用部署时别一套超参吃所有任务。如果你的下游是数学题先把α \alphaα调高0.7~0.9再调η \etaη如果是常识或多跳 QA反过来。论文没给最优值的精确数字但这个 task-dependent sensitivity 的现象已经足够指导调参方向。跨 backbone 泛化117M 到 3B 都能用Q6 在 GPT-2 (117M) / Qwen-2.5 (1.5B) / LLaMA-3.2 (3B) 三个 backbone 上 MathQA 评估BackboneLatent onlyOursGainGPT-2 (117M)38.2540.205.10Qwen-2.5 (1.5B)42.2943.041.77LLaMA-3.2 (3B)39.3041.104.58我注意到 Qwen 上提升只有 1.77明显比 GPT-2 和 LLaMA 小。作者没解释为什么我的猜测是Qwen-2.5 1.5B 本身的 latent reasoning baseline 就比另外两个高42.29% 是表里最高的 Latent only可能已经接近 latent reasoning 在 MathQA 上的天花板refinement 的边际收益自然下降。也可能是 Qwen 的 hidden state 几何性质和 GPT-2/LLaMA 不一样Search 的对比方向在那里效果衰减。无论哪个原因这都提示这个方法的收益不是线性的——你不能假设在所有 backbone 上都能拿到 5。但好消息是它至少不退化三个 backbone 都正向涨。inference 成本也很可控117M ~ 3B 全部在 7 分钟内完成、显存 24GB。这个 cost profile 是符合 training-free 故事的——它没有把省训练换成贵推理。Token efficiency相比 CoT 省 92%这是我读到最后才注意到的一组数字论文 Table 6DatasetCoT (avg tokens/query)Latent (avg tokens/query)ReductionMathQA66.715.0292.47%AQUA72.735.3192.65%注意这里的 5.02 和 5.31 token 是整个 latent reasoning 过程总共生成的文本 token 数——因为 latent reasoning 在中间步骤完全不出 token只在最后 decode 答案。92% 的减少是个很惊人的数字。但要冷静看待这是和原版 Coconut 共享的优势不是这篇 paper 独有的。Coconut 的 selling point 之一就是 token saving。不能直接换算成 92% 的 cost reduction——latent reasoning 在中间步骤跑 forward pass 仍然有计算开销只是没有 KV cache 增长和 token 输出而已。Search 模块需要额外的 forwardgood model bad model 各跑一次这部分成本论文没算进 token 里。如果你算上 Search 的 wallclock整体效率比纯 Coconut 是要打折扣的。但从输出 token 计费这个商业 API 的视角看92% 仍然是真实的。如果你做的是 latency-sensitive 的部署这个数字非常有吸引力。我的批判性笔记这篇 paper 在我看的 AAAI 2026 推荐论文里属于中规中矩但有想法的类型。我必须诚实指出几个问题。第一绝对性能没有竞争力。GPT-2 117M 在 MathQA 拿到 40.20% 听起来涨了但这是个多选题任务——四选一的 random 是 25%CoT 也才 35.3%。比起现在动辄 70% 的 7B 数学模型这个绝对水平离生产可用还非常远。论文没有在更强的 backbone比如 Qwen-2.5 7B Math上验证所以你不知道这套方法叠在一个本来就强的模型上还能不能涨。第二good/bad checkpoint是个隐形依赖。论文反复强调 training-free但 Search 模块本身需要两个额外的 CoT checkpoint。这意味着你必须先有一个完整的 CoT 训练 trajectory才能从中切出 good 和 bad。如果你没有这个 trajectory比如你直接拿一个开源模型用这个方法跑不起来。这是 training-free 故事里被掩盖的一个 setup cost。第三方法本质是把训练时该学的东西挪到了 inference。Residual update 和 Contrastive direction 这两件事理论上完全可以变成训练目标——比如让模型自己学α \alphaα、自己学 search direction。作者论证 inference-only 比 traininginference 更好但我对这个结论的 generality 持保留态度。在 ProsQA 上观察到的现象不一定能推广到其他任务特别是数据更充足的领域。第四公式 (3) 的梯度计算开销没有透明披露。论文说 “lightweight”但没有 wallclock benchmark 把 Search 单步开销和 Coconut 单步开销做对比。如果 Search 本身需要 3-5 倍的 forward 时间good bad 都要跑那 92% 的 token reduction 在 latency 上的优势会大幅缩水。这是一个工程化必须看的数字paper 里却缺失了。第五5 个 benchmark 都是分类型 / 短答案任务。GSM8K 是开放式但被作者主动放弃了“latent reasoning 不擅长长链算术”。这意味着这篇方法的实证版图集中在 selection-style reasoning对长 chain-of-thought 的支持没有证据。用它来做 long-form generation 任务比如代码生成、agent rollout是 unjustified 的。第六与 GenPRM、Self-Refine、Reflexion 的对比缺失。和 inference-time refinement 这条 broader research line 的代表方法没有 head-to-head 比较。读者很难判断latent refinement这条路线相对显式 self-critique是更好还是更弱。工程视角的 takeaway我把这篇 paper 的可落地点整理成几条Step 1先判断你是不是 latent reasoning 用户。如果你的 stack 已经在用 Coconut 或类似的 hidden-state-recurrent 方法这篇 paper 是直接增益2 到 5 acc零训练成本。如果你跑的是标准 CoT这篇 paper 不直接适用。Step 2复现优先做 Residual。从消融数据看Residual 单独用就拿到了 4.6390% 的总收益。Residual 实现极其简单——一行加权平均不需要额外 checkpoint不需要梯度计算。先把这块加上看看 baseline 能到哪。Step 3Search 模块按需启用。如果你的下游是常识 QA / 多跳推理AQUA、StrategyQA 这种Search 收益更大如果是数学 selectionMathQA 这种Search 边际收益小。Search 需要额外两个 checkpoint 和 inner-loop 梯度工程复杂度高 3-5 倍。Step 4Hyperparameter 按任务调。MathQA 类数值题α \alphaα调高0.7η \etaη任意AQUA 类常识题α \alphaα中等η \etaη仔细搜。论文 Q5 的 heatmap 是最好的参考。Step 5不要试图把它改成 trainable。作者的反直觉发现——traininginference 比 inference-only 更差——已经踩过这个坑。如果你想把这套 mechanism trainable 化需要重新设计目标函数比如显式回传 search direction 的 gradient不是简单地在 forward 里塞进去。我的总结这篇 paper 给我的整体感受是问题选得好方案很轻效果中等。它真正的贡献不是 5% MathQA accuracy 这个数字——这个数字在大模型时代不算大新闻。它的贡献是指出了 latent reasoning 范式里一个被普遍忽视的 inference-time 调控空间并用两个非常 minimal 的 building block 给出了第一个可行的 forward-only refinement 方案。从研究路线图上看它是 Coconut 这条 latent reasoning 主线的一个小补丁。如果未来 latent reasoning 真的成为主流这是一个 open question那这篇的角色会更像早期工程化探索——后续工作大概率会把它的 trick 整合到训练里去即使作者证明了 inference-only 更好那也只是当前 setup 下的局部最优。如果 latent reasoning 没有成为主流这篇 paper 的实际影响力可能就限于一个有趣的边角实验。把它放在 AAAI 2026 推荐列表里我的定位是latent reasoning 子方向选读——不是必读但读完会让你对PRM/Reasoning 训练之外还能做什么有新的视角。和 GenPRM (arXiv 2504.00891) 对照着读最有意思——前者是把 reasoning 显式化让 PRM 写 CoT 跑代码后者是把 reasoning 隐式化在 latent space 里直接调整。两条路线对 reasoning 监督的态度截然相反但都在试图回答同一个问题测试时计算到底应该花在哪里。下一篇我们去看 DeCoRL (arXiv 2511.19097)——它走的又是另一条路把 CoT 拆成可并行子步、用模块化奖励逐步打分 级联 DRPO。“显式拆步骤” vs “压进 latent” vs “生成式 PRM”——AAAI 2026 这个赛道上的三种思路第一次同台比较。