纽约大学与弗拉托恩研究所:AI大模型到底是怎么“记住“知识的?

纽约大学与弗拉托恩研究所:AI大模型到底是怎么“记住“知识的? 这项由纽约大学与弗拉托恩研究所联合开展的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.12426。有兴趣深入探究的读者可通过该编号查阅完整论文。当你向ChatGPT询问爱因斯坦的出生地时它能准确告诉你德国乌尔姆。当你问哈利·波特的作者是谁时它同样对答如流。这看起来理所当然但背后隐藏着一个几乎没有人真正搞清楚的谜题这些事实知识究竟以什么方式藏在模型里的过去研究者普遍接受的答案有点像把事实写进一本巨大的电话本——每一条知识都对应一组特定的参数权重查询时靠模式匹配找到对应词条。这个思路听起来直白但它意味着模型想多记住一条知识就必须增加存储空间知识越多模型就得越臃肿。这就好比你每认识一个新朋友就必须在书柜里单独辟出一个新格子放他的资料朋友越多书柜就得越大。这篇论文的核心主张是真实情况远比这聪明得多。研究团队发现当模型被允许自主学习词汇的表示方式时它会采用一种几何化的压缩策略——把多条相关知识叠加编码进同一个向量里就像一个多层透明胶片叠放在一起每一层记录不同的信息但占用的空间只有一张胶片那么大。这种方式让模型在维度极小的空间内就能存储大量知识而负责读取的那个模块论文中称为MLP则扮演一个智能筛选器的角色根据当前的提问从叠加的胶片中精准抽出对应的那一层信息。一、记忆的两种哲学电话本还是叠影要理解这篇研究先要建立一个贯穿全文的核心比喻。把一个大语言模型的记忆系统想象成一座图书馆。传统的认知是图书馆里每个人占一个独立的档案柜柜子里装着这个人的所有相关信息——出生地、职业、配偶等等。要查某人的出生地就去找那个人的柜子翻出出生地那一栏。这种方式清晰、直观但也意味着你的图书馆面积必须随着档案数量线性增长。研究团队提出的几何记忆方式完全不同。在这种方式下图书馆里没有独立的档案柜而是有一面巨大的叠影投影墙。每个人的信息不是单独存放的而是被编码成一组叠加在一起的光影——他的出生地信息、职业信息、语言信息等都以特定角度叠加在同一束光里。当你想知道某人的出生地时图书馆的筛选器也就是MLP模块就会用一块特殊的滤镜过滤掉所有非出生地信息只留下与出生地对应的那道光影呈现出答案。这个思路之所以惊人在于它把存储和计算的界限彻底模糊了。知识不是被存在某个固定位置等待查询而是以一种几何上的叠加结构存在于向量空间之中由一个通用的筛选机制动态提取。这意味着存储一千个人的信息未必需要比存储一百个人多出十倍的空间——只要叠加编码的方式够聪明维度的增长可以压缩到对数级别也就是从一百到一千所需维度的增加幅度远小于十倍大约只需增加一点点。二、实验的舞台一个干净的玩具世界为了把这个猜想变成可以严格证明的结论研究团队构建了一个精心设计的玩具实验场景。他们没有直接在GPT或Llama这类复杂的大模型上做实验——那样太混乱太多干扰因素——而是搭建了一个极度简化但保留核心矛盾的设置。场景是这样的有N个主体可以理解为N个人物有R种关系可以理解为R类问题比如出生地、职业、母语等每种关系都把每个人映射到一个属性上比如某人的出生地是伦敦。关键约束是所有关系共享同一个属性池——每个人的出生地、职业、母语都从同一组N个可能值里选取而且每种关系都是双射即每个属性只对应一个主体。这比很多理论研究里假设的每种关系有自己独立的属性集要困难得多因为模型无法靠属性本身来判断它属于哪种关系。在这个场景里训练一个单层Transformer语言模型任务是在给定主体名称和关系类型后正确预测对应的属性。这就像一场填写答卷的测试题目是张三的出生地是模型要从N个可能的地名中选出正确答案。研究团队关心的核心问题是模型需要多大的向量维度才能完美记住所有N×R条知识三、数学的结论对数维度就够了这是整篇论文最核心的理论贡献需要稍微花点时间理解它的意义。在向量维度这个问题上维度可以理解为每个词汇被表示成多长的一串数字。维度越大表达能力越强但也越耗费参数。一个维度为d的向量可以粗略理解为一个有d个分量的坐标就像三维空间中的点有x、y、z三个坐标一样。传统的关联记忆方法把知识硬编码进权重矩阵需要的维度大约与N成正比——也就是说主体越多维度增长越快参数量随之线性膨胀。研究团队的核心定理论文中的定理4.1证明了如果允许模型自主学习嵌入向量那么所需维度只需要大约4R乘以log?(N)再加1其中log?(N)表示以2为底N的对数。对数是什么概念如果N是4096约4千log?(N)等于12。如果N是一百万log?(N)也只有20。换句话说哪怕需要记忆的主体数量翻了数百倍所需维度的增加量也极其有限。这是一个质的差异而不仅仅是量的差异。那么这种压缩是怎么实现的答案在于每个主体的向量被构造成一种叠加编码它把这个主体在所有R种关系下的R个属性向量用线性叠加的方式打包进一个单一的向量里。就像把一首歌的旋律、节奏、歌词信息同时压进一段声波播放时用不同的滤波器分别提取各自的成分。然后MLP模块也就是图书馆里的筛选器承担提取工作。当模型被问到某个主体在某种关系下的属性时注意力机制先把主体向量和关系信息合并再由MLP通过ReLU激活函数一种非线性操作可以理解为一个只允许正信号通过的闸门精准地从叠加中抽出对应那一层屏蔽掉其他R-1种关系的干扰。这个MLP的宽度只需要与R成正比与N完全无关这意味着它是一个通用的筛选机制而不是一个存储了所有N×R条具体知识的记忆库。四、梯度下降能找到这个解吗实验给出的答案有了理论构造下一个问题是这个解只是存在于纸面上还是训练过程中模型真的能自发找到它这是理论工作与实际AI系统之间最关键的那道鸿沟。研究团队设计了一套系统性实验来回答这个问题。他们固定N为4096个主体让关系数量R在2到16之间变化让向量维度d在32到768之间变化共测试了大量不同的参数组合每种配置跑三次取平均以保证结果的稳定性。实验的第一个发现是当维度d达到128或以上时模型几乎总能完美记忆所有N×R条知识准确率达到100%。而如果把嵌入向量冻结为随机初始化状态模拟传统的关联记忆方式不允许向量自主学习则需要的维度大得多——比如记忆R16种关系时随机嵌入需要d达到512甚至更高才能达到相同的精度而可学习嵌入只需要d128。更进一步研究团队测量了在不同N下模型达到95%准确率所需的最小维度d。对于可学习嵌入这个最小维度随N的增长符合对数曲线拟合方程约为d≈ab×log?(N)完全验证了定理4.1的预测。而对于随机嵌入最小维度随N大约呈线性增长斜率接近1与传统理论的预测一致。这两条曲线的对比直观地展示了几何记忆方式的效率优势。五、叠影结构真的存在吗三种验证方式光是模型能跑通还不够研究团队还想知道模型学到的解内部结构是否真的像理论预测的那样是个叠加编码加筛选器的组合为此他们设计了三种互补的验证实验。第一种是线性读出测试。他们对每种关系r单独训练一个线性变换矩阵Wr让它把主体的嵌入向量直接映射到该关系下的属性向量。如果叠加结构理论正确那么每种关系的属性都应该能从主体向量里被线性解码出来准确率应该很高。实验结果清晰地支持了这一预测在维度足够的情况下所有R种关系的线性读出准确率都接近100%这意味着每个主体的嵌入向量里确实叠加了所有R种关系下属性的线性痕迹。相比之下使用随机固定嵌入的模型同样的线性读出准确率几乎和随机猜测一样差——因为随机嵌入根本不会形成这种结构。第二种是因果干预测试。这个测试的思路是如果MLP真的是一个关系条件选择器那么当我偷偷修改主体向量中某种关系对应的那部分信息时模型对该关系的预测应该跟着改变但对其他关系的预测应该保持不变。研究团队用之前学到的线性变换矩阵来构造这种精准的扰动——只改变对应关系r的分量其他关系的分量保持不动。然后测量两个指标模型对关系r的预测变化了多少以及模型对其他关系的预测稳不稳定。把这两个指标的几何平均值定义为选择性分数。在维度足够的情况下这个选择性分数接近1说明MLP确实在进行关系特异性的精准筛选而不是整体改变所有关系的输出。第三种是MLP冻结迁移测试这是最令人印象深刻的验证。实验流程是先用一组随机双射训练模型直到收敛然后把MLP的参数完全冻结不允许它再学习。接着给这个模型换上一组全新的随机双射每种关系重新随机分配主体到属性的映射并用线性代数的方法重新初始化主体的嵌入向量——具体来说就是找到一组嵌入向量使得对于新的双射每个主体的嵌入仍然是其在所有R种关系下的新属性向量的线性叠加。然后直接测试模型的准确率不做任何额外训练。结果是在维度足够的情况下冻结MLP的模型在全新的双射上零样本准确率接近100%。这说明MLP学到的不是记住具体哪个主体对应哪个属性而是一套通用的筛选机制——只要主体嵌入里按正确方式叠加了属性信息它就能正确提取无论这些属性是什么。六、多跳推理当你问X的妻子的母亲是谁上述实验都是针对单步事实查询的也就是给定一个主体和一种关系直接返回属性。但现实中的问题常常更复杂比如这本书的作者的出生地在哪个国家这涉及到两步推理先找到书的作者再找到作者的出生地。研究团队把这类问题称为多跳推理并深入研究了其中的容量瓶颈。直觉告诉我们多跳推理应该比单步推理更难但难在哪里研究团队给出了一个精确的信息论答案体现在论文的定理4.2中。这个定理从计数的角度出发假设有N个主体和R种关系每种关系都是一个随机双射。所有可能的关系配置数量是(N!)^R。模型的参数权重矩阵和嵌入向量合在一起必须能区分这些不同的配置否则就会出现错误。通过对这个巨大状态空间进行精确的计数分析定理给出了模型的参数比特数W与嵌入维度比特数D之间必须满足的不等式。这个不等式揭示了三种截然不同的情形。当嵌入维度D比关系数R还小时模型的权重矩阵必须承担海量的存储工作参数需求大约与N×log(N)成正比这是一个非常大的数字相当于必须把所有知识硬编码进权重里。当D超过R的k次方k是推理跳数时嵌入空间大到足以把每个主体的完整k跳推理树都塞进去权重的负担大大减轻但代价是嵌入维度随跳数指数增长。在这两个极端之间的中间地带则存在参数数量和维度之间的连续权衡。为了验证这个下界是紧的也就是说存在真实的构造能达到这个下界研究团队给出了两种明确的多跳Transformer构造方案。第一种是键值记忆型把嵌入维度压缩到对数级别代价是MLP的宽度必须与N×R成正比——相当于在MLP里装了一张查询所有可能主体-关系组合的巨大查找表每步推理都查一次表。第二种是嵌入预计算型把整个k跳推理树预先编码进主体嵌入嵌入维度因此达到R的k次方乘以对数级别Transformer在推理时只需沿树做有限次选择操作即可。这两种构造恰好对应了下界的两个极端。七、思维链一个优雅的解法面对多跳推理的维度瓶颈一个直觉性的解决方案是让模型一步一步推把中间结果写出来而不是试图在一次前向传播中完成所有跳数。这正是思维链Chain-of-Thought简称CoT的核心思想近年来在大模型研究中已经被广泛应用但缺乏理论上的精确解释。论文的定理4.4给出了一个明确的答案。当模型被允许在回答最终问题之前先生成一系列中间步骤比如先输出第一跳的结果再把它当作第二跳的输入依此类推时只需要一个单层Transformer嵌入维度约为R×log(N)MLP宽度约为R×log(N)就可以解决任意跳数的推理问题。和不使用思维链的方案相比这是一个质的飞越嵌入维度从R的k次方级别降回到单步的对数级别层数从k层降到1层只是需要多一些推理时间来生成中间步骤。这个结论背后的逻辑非常优雅。思维链的本质是把连续的隐式计算在模型内部多层传递信息换成了显式中间状态把中间答案实际输出到序列里。每当模型输出一个中间主体它就把这个主体的完整嵌入包含其所有一跳邻居信息重新带入序列下一步推理直接使用这个新的嵌入作为起点。这相当于每次推理后都重置了状态不需要在一个连续的隐向量里维持指数量级的信息。实验结果印证了这一点在多跳实验中使用思维链加可学习嵌入的组合在k4跳、R16种关系的高难度配置下仍能保持接近完美的准确率而不使用思维链的模型在k2时准确率就已经开始明显下降k4时几乎完全失败。八、真实大模型里的线性结构理论和玩具实验都支持了几何记忆的图景但真实的大型语言模型——比如Llama、Qwen、Phi这些已经广泛部署的模型——里面是否也存在类似的结构研究团队对此进行了初步的探索性验证。他们构建了一个包含4610个实体的测试集覆盖六大类别人物、公司、电影、物种、建筑、编程语言共42种关系。对于每个类别和每种关系他们训练了一个低秩线性探针尝试从模型不同层的隐向量中预测答案词汇的嵌入向量。具体来说这个探针接受主体对应位置的隐向量作为输入输出一个向量与词汇表中每个词的输出嵌入做相似度比较看能否把正确答案排在前面。在Qwen2.5-0.5B、Qwen3-14B、Llama-3.1-8B、Llama-3.2-1B和Phi-4这五个模型上以及六个实体类别上结果显示了一个清晰而一致的模式线性探针的命中率也就是正确答案排第一的比例远高于随机猜测水平也高于只输出最常见答案的基线策略。以人物类别为例不同模型在最佳层的平均MRR均值倒数排名一种综合评价指标从0.64到0.71不等而随机猜测的MRR约为万分之一。更有意思的是各层的动态变化线性探针的效果在输入层第0层就已经有一定水平但并不是最高的随着层数加深命中率持续上升在网络深度50%到80%处达到峰值之后趋于平稳或略有下降。这与理论预测的层层丰富化图景高度吻合——模型在前向传播过程中逐渐把隐向量加工成更容易线性解码出答案方向的结构。此外研究团队还发现如果用单独一层单词嵌入也就是每个词对应唯一一个实体来训练同样架构的小型语言模型记忆相同的语料线性读出的准确率比在多层的预训练模型上还要高达到71%。这进一步验证了理论构造中主体嵌入向量直接编码属性信息的预测。九、与以往观点的对比和理论的精确位置这篇论文并非凭空而来它是在与一系列既有理论观点的对话中建立起来的。理解它在理论版图上的精确位置有助于更准确地评估它的贡献。以往最有影响力的理论框架来自Bietti等人2023年和Nichani等人2025年他们把Transformer的知识存储理解为一种联想记忆模型的注意力矩阵或MLP权重相当于一组键值对的外积每个键值对对应一条知识。这种方式的参数需求大约与知识条数成正比。Nichani等人具体证明当嵌入向量是固定的近似正交随机向量时存储N×R条知识需要的参数量约为Ω(NR)忽略对数因子这是一个与N线性相关的量级。本文的定理4.1回答了Nichani等人没有回答的一个问题如果允许嵌入向量可学习维度能降到多少答案是O(R×log(N))比线性小得多。不过要注意的是这里的比较维度是最小所需的嵌入向量长度而不是模型总参数量——实际上当嵌入可学习时总参数中的嵌入表本身也占据一定空间只是随N的增长速度比固定嵌入方案的MLP参数增长慢得多。研究团队也坦率地指出了理论分析的局限他们的理论针对的是单层Transformer而真实模型有几十甚至上百层他们的关系设置是完全随机的双射而真实世界的知识有丰富的语义结构比如相关关系的相关性、属性的类型约束等。这些差距意味着理论发现需要谨慎外推而不能直接等同于对大模型的完整解释。说到底这项研究做的是一件很有价值但也有边界的事在一个干净、可控的实验场景里严格地证明了一种比传统假设更高效的记忆机制存在并通过多种互补实验方法证明梯度下降能够自发发现这种机制同时在真实模型上找到了与理论预测相符的线性结构痕迹。它为关系知识以线性方式编码进模型表示这个现象提供了一个理论基础而这个现象此前已经被多个实验研究独立观察到但缺乏解释。对于关心AI系统如何存储和操纵知识的人来说这意味着我们对知识在模型里是什么形态有了一个更精细、更几何化的理解框架。未来如果想要设计更高效的知识编辑方法或者理解为什么某些模型在多跳推理上表现更好这个框架都可能提供有价值的启示。对于关心思维链究竟为何有效的人来说论文的构造性证明给出了一个清晰的理论解释思维链通过强制模型在每一步都把中间结果离散化并重新查询嵌入表绕开了连续隐向量存储多跳状态的指数级容量瓶颈。有兴趣深入了解数学细节、实验设置或定理证明的读者可通过arXiv编号2605.12426查阅原始论文所有定理的完整证明和实验的超参数设置均在论文附录中有详细记录。QAQ1大语言模型的几何记忆和传统关联记忆有什么具体区别A传统关联记忆把每条知识编码成权重矩阵里的一个键值对需要的参数量与知识条数成正比知识越多参数越多。几何记忆则不同它让每个词的嵌入向量同时叠加编码多条相关知识MLP只充当一个通用筛选器根据当前关系抽取对应信息。理论上这种方式存储N个主体在R种关系下的全部知识嵌入维度只需约4R×log?(N)比传统方式节省很多。Q2思维链为什么能帮助大模型进行多跳推理A不用思维链时模型必须在一次前向传播中把所有跳数的中间状态同时压缩进隐向量随着跳数增加所需的嵌入维度呈指数级增长。用了思维链后模型每一步都把中间结果实际输出出来然后用词汇表重新查询该中间主体的嵌入向量相当于每步推理都重置了状态。这样无论推多少跳每步只需要存储一跳的信息量嵌入维度就不需要随跳数增长了。Q3梯度下降训练出的模型真的会形成叠加嵌入结构吗A论文通过三种互补实验验证了这一点。首先用线性回归从主体嵌入中读出各关系属性准确率接近100%说明叠加结构确实存在。其次用因果干预只修改某种关系对应的分量模型对该关系的预测会跟着变对其他关系的预测不受影响。最关键的是把MLP权重冻结后换上全新的双射仅重新初始化嵌入向量模型在零样本情况下准确率仍接近100%证明MLP学到的是通用筛选器而非具体知识。