完全开源的语言模型学习记录--Dispersion Loss 降低小模型坍缩

完全开源的语言模型学习记录--Dispersion Loss 降低小模型坍缩 文章目录1. 一段话总结2. 思维导图3. 详细总结一、研究背景与动机二、核心现象嵌入坍缩与嵌入分散三、解决方案分散损失Dispersion Loss四、实验设计与核心结果五、研究结论与价值4. 关键问题问题1研究中定义的“嵌入坍缩”现象核心特征是什么不同规模模型表现有何差异问题2为何知识蒸馏无法缓解小模型的嵌入坍缩问题3分散损失的核心优势是什么在全预训练中能带来哪些具体性能提升Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Modelshttps://arxiv.org/pdf/2602.00217v2https://github.com/KrishnaswamyLab/LM-Dispersion1. 一段话总结该研究聚焦小型语言模型表征退化问题发现并定义嵌入坍缩embedding condensation现象——小型模型如GPT2、Qwen3-0.6B的token嵌入易收敛到狭窄锥状子空间、余弦相似度趋近于1而大模型天然具备嵌入分散embedding dispersion特性知识蒸馏无法缓解坍缩为此提出分散损失dispersion loss作为辅助训练目标实验证明该损失可逆转坍缩、复刻大模型分散模式在10项基准任务上提升小模型性能全预训练时平均性能提升**1.17**增益达3.3%。2. 思维导图## 研究背景 - 大模型性能强但算力成本高 - 核心问题复刻大模型表征优势优化小模型 ## 核心发现嵌入坍缩 - 定义token嵌入余弦相似度趋近1收敛到狭窄子空间 - 模型差异小模型GPT2、Qwen3-0.6B坍缩严重大模型GPT2-xl、Qwen3-32B抗坍缩 - 关键特征初始化即出现坍缩知识蒸馏无法缓解 ## 解决方案分散损失 - 核心设计作为辅助损失鼓励嵌入角度分散 - 替代方案去相关损失、L2排斥损失、正交化损失 - 核心参数权重λ0.1、温度τ1.0 ## 实验结果 - 中训练缓解坍缩多基准任务性能提升 - 全预训练平均提升1.1710项任务均受益 - 最优效果深层应用损失、分散损失优于替代方案 ## 研究价值 - 揭示模型规模与表征几何的关联 - 无参增量优化小模型提供几何正则化新思路3. 详细总结一、研究背景与动机大语言模型LLM性能随参数量增长显著提升但算力成本陡增难以广泛应用。核心研究目标挖掘大模型优于小模型的表征关键特性无需增加参数即可优化小模型。理论基础已有研究表明Transformer深度趋近无穷时嵌入易向单点聚类但该现象的实证表现及与性能的关联缺乏深入探索。二、核心现象嵌入坍缩与嵌入分散嵌入坍缩embedding condensation定义Transformer中token嵌入的成对余弦相似度趋近于1向量指向几乎相同方向收敛到表征空间的狭窄锥状子空间。模型规模差异小型模型GPT2、Qwen3-0.6B坍缩严重大型模型GPT2-xl、Qwen3-32B天然抗坍缩即嵌入分散embedding dispersion。出现阶段模型初始化时即出现坍缩预训练过程仅缓解、不引发坍缩。蒸馏无效性知识蒸馏无法转移大模型的抗坍缩特性蒸馏模型坍缩程度与原生小模型无差异。量化评估指标基础指标每层token嵌入成对余弦相似度的均值μ。核心指标斯皮尔曼相关系数ρ、肯德尔相关系数τ量化坍缩随模型深度的单调变化趋势趋势更清晰。三、解决方案分散损失Dispersion Loss核心设计作为辅助训练损失与标准交叉熵损失结合公式L L t r a i n λ d i s p ⋅ L d i s p \mathcal{L}\mathcal{L}_{train}\lambda_{disp} \cdot \mathcal{L}_{disp}LLtrain​λdisp​⋅Ldisp​。原理将余弦相似度映射为角度距离通过对数求和指数技巧log-sum-exp鼓励嵌入向量在单位超球面均匀分散避免坍缩。三种替代损失方案损失类型核心原理特点去相关损失最小化嵌入协方差矩阵非对角元素间接提升嵌入方向多样性L2排斥损失增大嵌入向量欧氏距离范数正则化易出现范数爆炸或坍缩稳定性差正交化损失仅分散锐角向量钝角向量不变灵活性弱不鼓励90°以上分离关键超参数权重系数λ d i s p 0.1 \lambda_{disp}0.1λdisp​0.1温度参数τ 1.0 \tau1.0τ1.0模型性能最优且稳定。四、实验设计与核心结果实验设置模型GPT2系列、Qwen3系列0.6B、1.7B。训练阶段中训练额外200M tokens、全预训练156B tokens。评估基准10项语言理解任务ANLI、LAMBADA、OpenbookQA、PIQA、TruthfulQA、WinoGrande、ARC easy、ARC challenge、MedMCQA、MMLU。核心实验结果坍缩缓解效果中训练时分散损失显著降低深层嵌入余弦相似度复刻大模型分散模式标准损失缓解效果微弱。中训练性能分散损失在GPT2、Qwen3小模型上10项任务均稳定提升平均性能优于所有替代方案及对比方法噪声嵌入、主动遗忘。全预训练性能Qwen3-0.6B全预训练加入分散损失10项任务平均提升1.17较基线增益3.3%TruthfulQA提升7.4、PIQA提升4.0知识类、长文本推理任务收益更明显。层选择性效果深层后半层应用分散损失效果更优与坍缩在深层更严重的现象一致。五、研究结论与价值核心结论嵌入坍缩是限制小模型表征能力的关键瓶颈分散损失可通过几何正则化缓解坍缩无需增参即可提升小模型泛化能力。研究价值揭示模型规模-表征几何-性能的关联提出几何感知正则化新思路为低成本优化小模型提供可行方案。4. 关键问题问题1研究中定义的“嵌入坍缩”现象核心特征是什么不同规模模型表现有何差异答案嵌入坍缩核心特征是Transformer中token嵌入的成对余弦相似度趋近于1向量指向几乎相同方向收敛到表征空间的狭窄锥状子空间。模型规模差异显著小型模型如GPT2、Qwen3-0.6B坍缩严重深层嵌入几乎完全对齐大型模型如GPT2-xl、Qwen3-32B天然具备嵌入分散特性抗坍缩能力强。问题2为何知识蒸馏无法缓解小模型的嵌入坍缩答案知识蒸馏核心是让小模型学生匹配大模型教师的输出token分布损失函数仅约束输出层logits不直接调控中间token嵌入、向量间关系及塑造表征几何的层梯度。因此蒸馏可传递预测行为但无法转移大模型抗坍缩的内部表征动态故不能缓解嵌入坍缩。问题3分散损失的核心优势是什么在全预训练中能带来哪些具体性能提升答案核心优势① 直接针对嵌入坍缩设计通过角度距离正则化复刻大模型嵌入分散模式② 稳定性优于替代方案去相关、L2排斥、正交化损失③ 可适配中训练、全预训练深层应用效果最优。全预训练性能提升Qwen3-0.6B加入分散损失后10项语言任务平均提升1.17基线增益3.3%TruthfulQA提升7.4、PIQA提升4.0知识类、长文本推理任务收益最突出。