2025_NIPS_Q♯: Provably Optimal Distributional RL for LLM Post-Training

发布时间：2026/7/16 18:47:46

2025_NIPS_Q♯: Provably Optimal Distributional RL for LLM Post-Training

文章核心总结与翻译一、主要内容本文针对LLM强化学习后训练中现有方法（如PPO、DPO）难以修正预训练继承的捷径、计算成本高的问题，提出一种基于分布强化学习（distributional RL）的价值导向算法Q ♯ Q \sharpQ♯。该算法在KL正则化RL框架下，通过学习最优正则化Q函数引导参考策略，无需修改参考策略权重，仅用小型价值模型即可提升大型LLM的性能。在理论上，Q ♯ Q \sharp