标题Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe来源arXiv, 2605.03677v1️文章简介研究问题如何克服现有在策蒸馏OPD中学生探索不足和教师监督不可靠的瓶颈以构建适用于大语言模型和多模态大模型的统一高效蒸馏框架主要贡献论文提出了 Uni-OPD 框架通过双视角优化策略学生端数据平衡与教师端结果引导的边缘校准显著提升了跨任务、跨模态及强弱模型间的蒸馏效果。重点思路学生视角优化提出离线难度感知与在线正确性感知相结合的数据平衡策略通过重采样中等难度样本并维持批内正负轨迹比例促进学生充分探索信息丰富的状态。教师视角优化发现令牌级指导需与结果奖励保持顺序一致性设计了结果引导的边缘校准机制利用全局结果奖励修复教师对错误轨迹高估或对正确轨迹低估的问题。统一框架设计将上述策略整合为通用配方支持单/多教师、强到弱及跨模态蒸馏通过反向 KL 散度目标聚合多位专家教师的知识至单一学生模型。分析总结实验表明 Uni-OPD 在数学推理、代码生成等 5 个领域 16 个基准测试中均优于标准 OPD 及 SFT 等方法且在多教师融合场景下增益显著。消融实验证实移除数据平衡会导致学生陷入局部最优而缺少边缘校准则会引起训练信号错位两者结合是性能提升的关键。跨模态蒸馏结果显示该方法能有效将纯文本领域的推理能力迁移至多模态模型证明了其作为模态无关推理能力蒸馏工具的有效性。收敛性分析显示Uni-OPD 比强化学习收敛更快且能在更少优化步数下实现更强的推理能力兼顾了效率与性能。个人观点论文洞察了 OPD 失效的根本原因并非算法本身而是数据分布偏差与监督信号错位引入结果奖励作为全局锚点来校准细粒度监督。
腾讯:双视角优化策略蒸馏
标题Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe来源arXiv, 2605.03677v1️文章简介研究问题如何克服现有在策蒸馏OPD中学生探索不足和教师监督不可靠的瓶颈以构建适用于大语言模型和多模态大模型的统一高效蒸馏框架主要贡献论文提出了 Uni-OPD 框架通过双视角优化策略学生端数据平衡与教师端结果引导的边缘校准显著提升了跨任务、跨模态及强弱模型间的蒸馏效果。重点思路学生视角优化提出离线难度感知与在线正确性感知相结合的数据平衡策略通过重采样中等难度样本并维持批内正负轨迹比例促进学生充分探索信息丰富的状态。教师视角优化发现令牌级指导需与结果奖励保持顺序一致性设计了结果引导的边缘校准机制利用全局结果奖励修复教师对错误轨迹高估或对正确轨迹低估的问题。统一框架设计将上述策略整合为通用配方支持单/多教师、强到弱及跨模态蒸馏通过反向 KL 散度目标聚合多位专家教师的知识至单一学生模型。分析总结实验表明 Uni-OPD 在数学推理、代码生成等 5 个领域 16 个基准测试中均优于标准 OPD 及 SFT 等方法且在多教师融合场景下增益显著。消融实验证实移除数据平衡会导致学生陷入局部最优而缺少边缘校准则会引起训练信号错位两者结合是性能提升的关键。跨模态蒸馏结果显示该方法能有效将纯文本领域的推理能力迁移至多模态模型证明了其作为模态无关推理能力蒸馏工具的有效性。收敛性分析显示Uni-OPD 比强化学习收敛更快且能在更少优化步数下实现更强的推理能力兼顾了效率与性能。个人观点论文洞察了 OPD 失效的根本原因并非算法本身而是数据分布偏差与监督信号错位引入结果奖励作为全局锚点来校准细粒度监督。