路特格斯大学研究团队找到了巨大激活值的诞生地

路特格斯大学研究团队找到了巨大激活值的诞生地 这项由路特格斯大学Rutgers University、韦克福里斯特大学Wake Forest University与Meta AI联合开展的研究发表于2026年第43届国际机器学习大会ICML 2026会议地点为韩国首尔论文收录于PMLR第306卷。有兴趣深入阅读原文的读者可通过论文编号arXiv:2605.08504v1查询完整内容。如果你曾经用过ChatGPT、文心一言或任何一款AI聊天工具你其实已经在享受大语言模型带来的便利。然而这些庞大而复杂的系统内部究竟发生了什么长期以来都像一个黑盒子即使是研究者也不完全清楚。这项研究就是试图打开黑盒子的一次尝试——而且它找到了一个出人意料的发现在模型的深处有一个特定的关键层在那里某些神秘的巨大激活值突然被点燃并从那一刻起如影随形地贯穿整个模型的运算过程。要理解这件事的意义可以把大语言模型想象成一条流水线上的工厂。原材料你输入的文字从流水线一端进入经过数十道工序模型的每一层最终在另一端输出产品模型的回答。研究团队发现在这条流水线的某一道工序上有一台机器会突然把某个零件的规格放大几百甚至几千倍。这个被放大的零件此后会一路跟随产品流转对后续每一道工序都产生深刻影响。这台异常放大机器所在的工序就是研究者命名的巨大激活涌现层英文缩写为ME LayerMassive Emergence Layer。更出人意料的是这个现象并不是某一款模型的特有怪癖而是在Qwen3、LLaMA、Mistral、DeepSeek等多个主流大语言模型家族中普遍存在仿佛是所有现代大模型共同遵循的某种隐秘规律。研究团队不仅发现了这个规律还进一步弄清楚了它是如何产生的、会带来什么后果并提出了一种简单有效的干预方法在多项任务上持续提升了模型表现。下面就跟随研究团队的侦查足迹一步步揭开这个总开关的真面目。一、什么是巨大激活值为什么我们要关心它在理解这项研究之前需要先了解大语言模型内部是如何传递信息的。每一段文字输入模型后会被拆分成一个个词元token每个词元在模型的每一层都对应一组数字这组数字可以理解为该词元在这一层的身份信息研究者称之为隐藏状态。随着信息在层与层之间流动这些数字会不断被更新和变换。通常情况下流水线上每个词元的数字规模大致相当彼此相差无几。然而研究者在观察模型内部时发现了一个奇怪的现象在某一层某个特定词元通常是输入文字的第一个词元的数字突然暴增幅度高达其他词元的几百乃至几千倍。打个比方如果把每个词元的信息量比作一杯水那么在这一层这个特殊词元的杯子突然变成了一个游泳池。这就是所谓的巨大激活值。这个现象最早在GPT-2时代就被学者注意到此后陆续有研究表明它会影响模型压缩、推理能力和注意力分配。然而一个根本性的问题始终没有被解答这个游泳池究竟是怎么形成的是从一开始就在慢慢积累还是在某一个关键时刻突然爆发的而这正是本研究的起点。二、侦查现场巨大激活值从哪一层冒出来的研究团队对Qwen3-4B模型的每一层输出进行了详细测量追踪每个词元的信息量随着层数的变化趋势。结果一目了然在绝大多数层第一个词元的信息量与其他词元大致相当波澜不惊。但是在第7层第一个词元的信息量突然急剧攀升就像一条平静的河流忽然遇到了断崖形成了一道壮观的瀑布。此后无论经过多少层这个词元的信息量都维持在极高的水平几乎纹丝不动。这个发现的关键意义在于它说明巨大激活值并不是日积月累、缓慢形成的而是在某一个特定层一次性点燃的。研究者把这个层称为ME Layer也就是巨大激活值的诞生地。而点燃之后由于模型的每一层都有一条残差连接通道——可以理解为一条旁路让信息不经过当前层的处理直接传递到下一层——这个巨大的激活值就通过这条旁路被完整地搬运到了后续的每一层一直延续到模型输出。值得关注的是这一规律在研究团队测试的所有主流模型中都得到了印证包括Qwen3-8B、Qwen2.5-7B、LLaMA 3.1-8B、Mistral-7B和DeepSeek-llm-7b-chat等。不同模型的ME Layer位置略有差异但同一家族的模型往往在相同的层产生这一现象例如Qwen3-4B和Qwen3-8B的ME Layer都在第7层。这种跨模型的一致性强烈暗示背后存在某种与模型架构深度绑定的共同机制而不是某款模型训练过程中的偶然产物。三、解剖点火装置RMSNorm与FFN的联手作用发现了诞生地之后研究团队自然要追问在ME Layer内部究竟是哪台机器引发了这场爆炸通过对ME Layer内部各个组件的逐一解析研究团队将目光锁定在了两个关键角色身上RMSNorm和FFN。RMSNorm是一种归一化操作可以理解为一道质量检验工序它的作用是对每个词元的信息进行标准化处理确保数值不会太大或太小。但它的处理方式并不均匀——它会对信息的不同维度施加不同的放大系数某些维度被大力放大另一些则被压缩。研究团队发现在ME Layer这道质量检验工序对第一个词元的处理方式与其他词元截然不同。具体来说第一个词元的信息量在经过ME Layer的RMSNorm之后会大幅集中在那些放大系数最大的维度上整个信息结构被高度压缩和放大与RMSNorm的放大系数分布高度吻合——而其他词元则没有这种现象。如果说RMSNorm是助燃剂那么FFN前馈神经网络才是真正的点火器。FFN是每一层中负责对信息进行深度变换的核心模块可以理解为流水线上最重要的加工机器。研究团队发现在ME Layer第一个词元经过FFN三个子模块up_proj、gate_proj、down_proj处理后其信息量集中在极少数方向上的程度远超其他层这三个子模块的放大效应在ME Layer同时达到峰值共同造就了最终的巨大激活值。换句话说RMSNorm先把第一个词元的信息预处理成一种特殊形态FFN再对这种形态进行强力放大两者相互配合一起点燃了巨大激活值。为了验证这两个组件各自的贡献研究团队还分别做了拆除实验。当他们把ME Layer的FFN移除后巨大激活值虽然还会短暂出现但很快就消散了无法在后续层中持续存在当他们把ME Layer的RMSNorm移除后巨大激活值依然存在但幅度显著缩小。这说明FFN是生成和维持巨大激活值的主力而RMSNorm则是调控其规模的关键调节器两者缺一不可。四、游泳池的另一个秘密方向固化与注意力僵化发现了巨大激活值的诞生机制之后研究团队进一步追问这个游泳池在后续的层中究竟在做什么它携带的信息发生了什么变化通过对比不同输入下第一个词元在ME Layer之后各层的隐藏状态研究团队发现了一个令人印象深刻的现象无论输入什么内容——无论是数学题、常识问答还是开放式对话——这个词元的隐藏状态在ME Layer之后几乎保持不变。不仅是数值大小保持稳定就连信息的方向——可以理解为这组数字所指向的意义空间——也高度一致与输入内容几乎无关。研究者用余弦相似度一种衡量两个方向之间接近程度的指标来量化这种一致性结果显示不同输入之间的相似度在ME Layer之后几乎是完美的1这意味着这个词元的隐藏状态完全丧失了对输入内容的敏感性。这种现象意味着什么在模型的自注意力机制self-attention中每个词元会生成查询Query和键Key两种信号模型通过计算所有词元的查询与键之间的匹配度来决定每个词元应该关注哪些其他词元。由于这个特殊词元的隐藏状态方向几乎固定不变它生成的键也几乎固定不变任何其他词元的查询与它相乘得到的匹配分数都会非常相近且因为它的数值规模远超其他词元这个分数往往会异常高。结果就是模型在做注意力计算时会把大量注意力权重倾倒在这个词元上无论实际上这个词元是否与当前任务相关。这就是另一个已被研究者广泛注意到的现象——注意力沉降attention sink即模型的注意力异常集中在少数几个词元上通常是序列的第一个词元。研究团队的观察进一步揭示注意力沉降现象正是在ME Layer之后的那一层开始出现的且其注意力权重矩阵与ME Layer产生的巨大激活值具有相同的低秩特性可以理解为信息高度压缩在少数方向上。这一发现把巨大激活值与注意力沉降两个现象串联成了一条因果链是巨大激活值导致了方向固化方向固化又导致了注意力沉降而不是此前部分研究者认为的注意力沉降源自softmax运算本身的数学特性。这是一个视角上的根本性转变把问题的根源从注意力机制拉回到了更早的隐藏状态层面。五、解法出炉权重引导维度遮蔽如何给模型松绑明确了问题的根源之后研究团队自然想到了干预方案。核心思路是既然方向固化的根本原因在于RMSNorm对某些维度的过度放大那么能不能在信息进入注意力模块之前把那些被过度放大的维度适当压制住从而恢复信息方向的多样性这个方法被命名为WeMask即权重引导遮蔽Weight-guided Masking。具体做法是在ME Layer之后的每一层在隐藏状态进入注意力模块之前先查看该层RMSNorm的放大系数找出放大系数最大的那一部分维度然后把第一个词元即巨大激活值所在的词元在这些维度上的数值直接清零。清零的比例由一个叫做遮蔽率的参数控制比如遮蔽率为0.1意味着清零放大系数最大的10%的维度。这个操作的精妙之处在于它的精准性。它并不是随机删除信息也不是删除数值最大的维度而是专门针对那些被RMSNorm过度放大、进而导致方向固化的维度进行干预。研究团队通过对比实验证明随机遮蔽维度或遮蔽激活值最大的维度都会严重损害模型性能而只有按照RMSNorm权重来选择遮蔽维度才能在修复方向固化问题的同时保留信息的有效结构。这就好比给一个被某几根超粗弦主导音色的吉他重新调音既不能随意剪断琴弦也不能只剪最粗的而要根据乐器的构造选择最合适的调整方式。在实际操作上WeMask有两种使用方式。一种是无需训练的推理时干预即直接在模型推理过程中插入这个遮蔽操作不改变任何模型参数另一种是与微调训练相结合在训练过程中始终应用这个遮蔽操作让模型在更健康的表示空间中学习。训练时遮蔽操作被应用于ME Layer之后的所有层推理时针对知识泛化类任务同样应用于所有后续层而针对数学推理和安全对齐等需要精细计算的任务则只在ME Layer本身应用遮蔽以避免对后续专业化计算的干扰。六、实验成绩从指令跟随到数学推理效果普遍提升为了验证WeMask的实际效果研究团队在多个任务和模型上进行了系统性测试。以Qwen3-4B为核心实验对象测试涵盖了MMLU综合知识问答、PIQA物理常识推理、ARC-C科学推理、MathQA数学问答、StrategyQA策略性推理、GSM8K小学数学应用题、AIME 2022-2024高中竞赛数学、Math500高等数学、SorryBench安全拒绝评估和XSTest安全行为评估等一系列基准测试。在指令跟随任务上仅使用标准微调的基线模型在这五个基准的平均分为64.43分。加入推理时无需训练的WeMask遮蔽率0.1后平均分提升至64.91分与微调训练结合遮蔽率0.1后平均分达到64.92分在MMLU上达到55.01分超过了所有其他配置。值得关注的是当遮蔽率被设置为1.0即完全遮蔽所有选定维度时模型性能大幅崩溃这与研究团队关于适度干预而非彻底消除的理论判断完全吻合。在数学推理任务上标准微调基线在GSM8K上得分20.26而加入WeMask后遮蔽率0.7的训练方式将这一分数提升至22.14在极具挑战性的AIME竞赛题上遮蔽率0.3的训练方式将分数从5.92提升至8.15。在安全对齐任务上标准微调往往会让模型变得过于保守、频繁拒绝合理请求但引入WeMask后模型在XSTest上的表现从66.22提升至最高74.00说明减少表示僵化确实有助于模型在安全性与帮助性之间取得更好的平衡。研究团队还将WeMask应用于强化学习训练范式。在使用DPO一种偏好优化方法进行安全对齐训练后加入WeMask推理干预的模型在XSTest上达到74.96分优于单纯DPO训练的72.30分在使用GRPO一种数学推理强化学习方法训练后加入WeMask的无训练版本在AIME上将分数从7.40提升至9.27。这说明WeMask的效果并不局限于监督微调在更复杂的训练范式下同样有效。此外研究团队还在LLaMA 3.1-8B-Instruct和Qwen3-8B上测试了WeMask结果同样显示出与微调训练结合时的稳定性能提升证明这一方法具有跨模型架构的通用性。与此同时研究团队还将WeMask与直接修改注意力机制以消除注意力沉降的方法如门控注意力模块进行了对比。结果显示WeMask在微调后的表现普遍优于这类方法这进一步支持了从隐藏状态层面入手比从注意力机制层面入手更有效的判断。七、注意力沉降的新解读适度保留比彻底消除更明智最后研究团队对注意力沉降现象提出了一种新的理解框架。传统观点认为注意力沉降是一种有害的模型病态行为应当被彻底消除。但这项研究的实验结果却表明完全消除注意力沉降会损害模型性能而适度降低其主导程度则能带来提升。研究团队的解释是注意力沉降实际上是巨大激活值在注意力层面的投影它携带的是一种稳定的全局参考信号对模型计算具有一定的功能价值类似于一个共享的背景基准。问题不在于它的存在而在于它的隐藏状态方向过于僵化导致这个基准信号对所有输入都一视同仁无法随着内容的变化而灵活调整。WeMask所做的正是在保留这个全局参考信号的前提下放松它的方向僵化程度让它能够与具体输入内容产生更多交互从而在保持结构稳定性的同时恢复注意力机制对输入的自适应能力。由此可见正确的策略不是消灭注意力沉降而是调节它。这个认识对于未来大语言模型的设计和优化或许具有重要的参考价值——在追求更灵活的注意力机制的同时也要保留模型内部某种必要的结构性稳定。说到底这项研究最吸引人的地方在于它用一个统一的故事把几个看起来毫不相关的现象——巨大激活值、方向固化、注意力沉降——串联成了一条清晰的因果链条。而且弄清楚这条链条之后研究者设计出的干预方法既简单又有效无需修改模型架构无需额外的计算资源只需在隐藏状态进入注意力模块之前对特定维度轻轻遮一下就能在多项任务上带来稳定的性能改善。这告诉我们有时候理解问题的根源本身就已经蕴含了解决方案的一半。当然这项研究也留下了一些尚待探索的问题。研究者注意到在模型的最后两层第一个词元再次出现了巨大激活值但这一现象背后的机制与中间层不同目前还没有清晰的解释。此外WeMask目前主要在训练后阶段微调和强化学习被验证有效在大规模预训练阶段是否同样适用还是一个开放的问题。如果你对这些未解之谜感兴趣不妨通过arXiv:2605.08504v1找到完整论文亲自深入探索。QAQ1大语言模型中的巨大激活值是什么意思A大语言模型在处理文字时每个词元在每一层都会对应一组数字来表示其含义。通常情况下各词元的数字规模大致相当。但巨大激活值指的是在某一层某个特定词元通常是输入的第一个词元的数字突然暴增幅度可达其他词元的几百乃至几千倍。这种异常放大的现象就是巨大激活值它会影响模型后续的信息处理方式。Q2WeMask方法是如何工作的它会不会破坏模型原本的能力AWeMask的核心做法是在巨大激活值所在词元的隐藏状态进入注意力模块之前找出该层RMSNorm放大系数最大的一批维度然后把这个词元在这些维度上的数值清零。这个操作是精准定向的并不随机删除信息也不删除激活值最大的维度。实验表明遮蔽率在0.1到0.3之间时模型在多项任务上的表现普遍提升只有当遮蔽率达到1.0完全遮蔽时性能才会大幅下降说明适度干预才是关键。Q3ME Layer巨大激活涌现层在不同模型里是否都存在A是的研究团队在Qwen3-4B、Qwen3-8B、Qwen2.5-7B、LLaMA 3.1-8B、Mistral-7B、DeepSeek-llm-7b-chat、Phi-3-mini等多个主流大语言模型中都观测到了ME Layer的存在。不同模型的ME Layer位置略有不同例如Qwen3系列在第7层Mistral和DeepSeek在第2层。同一模型家族的不同规模版本通常在相同的层出现这一现象说明这是与模型架构深度绑定的普遍规律而非个别模型的特殊现象。