2025_NIPS_Q♯: Provably Optimal Distributional RL for LLM Post-Training

2025_NIPS_Q♯: Provably Optimal Distributional RL for LLM Post-Training 文章核心总结与翻译一、主要内容本文针对LLM强化学习后训练中现有方法(如PPO、DPO)难以修正预训练继承的捷径、计算成本高的问题,提出一种基于分布强化学习(distributional RL)的价值导向算法Q ♯ Q \sharpQ♯。该算法在KL正则化RL框架下,通过学习最优正则化Q函数引导参考策略,无需修改参考策略权重,仅用小型价值模型即可提升大型LLM的性能。在理论上,Q ♯ Q \sharp