这项由南洋理工大学、复旦大学、上海交通大学、香港中文大学、香港科技大学广州以及Mind Lab联合完成的研究以预印本形式于2026年5月12日发布论文编号为arXiv:2605.12357有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。你有没有遇到过这样的情况和一个AI助手聊了很久分享了很多个人信息和偏好结果下次再打开对话它却像从来没见过你一样什么都不记得这种感觉就像雇了一个每天早晨都会失忆的秘书——你每天都要重新介绍自己重复交代同样的事情效率极低还令人沮丧。这正是当前大型语言模型也就是驱动ChatGPT、文心一言等AI助手的核心技术面临的一个根本性困境。研究团队为此提出了一种名为**δ-mem**读作delta-mem的全新记忆机制试图给AI装上一块真正好用的记忆芯片。一、AI为什么会失忆——问题的根源要理解这项研究解决的是什么问题先来了解一下AI是怎么思考的。现有的大型语言模型本质上是一个处理文字序列的巨型程序。每次你和它对话它能看到的内容是有限的——就好比一张纸只能写这么多字写满了就没地方写新内容了。这张纸在技术上叫做**上下文窗口**。面对记忆问题最直觉的解决办法是把纸换大一点让AI能记住更多内容。但这个办法有两个大麻烦。其一纸越大处理起来就越慢、越费电——技术上说标准注意力机制的计算量会随着内容长度呈平方级增长这意味着纸扩大一倍计算量会变成原来的四倍。其二更关键的是即便给了AI一张很大的纸它也未必能好好利用上面的所有内容。多项研究发现当内容太长时AI会出现上下文腐烂或上下文退化的现象——就像一个人面对一张密密麻麻写满字的超大纸张反而看花了眼找不到关键信息。这意味着即便是拥有百万token上下文窗口的模型也并没有从根本上解决记忆问题。正因如此研究人员一直在探索更聪明的记忆机制。在这项研究之前业界已有几类解决思路但各有缺陷。一类是把记忆以文字形式存储起来需要时再塞回到AI的纸张上但这样会压缩原本的可用空间而且把记忆压缩成文字时难免会丢失细节检索时还可能找错内容。另一类是在AI外部搭建一个单独的记忆模块通过检索的方式让AI访问但这种方式架构复杂外部模块和AI内部的语言未必对得上也会带来额外的延迟。还有一类是把记忆直接编码进AI的参数里但这样的记忆是静态的无法随着对话的进展而动态更新。δ-mem的设计正是为了突破这三类方法的局限找到一条新路。二、δ-mem的核心思想——一块会自我更新的记忆板研究团队提出的核心比喻是一块会联想记忆的板子。可以这样理解你的大脑在记忆信息时并不是把每句话都一字不差地刻下来而是把关键的关联关系压缩存储起来。比如你记住了苹果→红色、甜的、秋天成熟下次看到苹果这个词大脑会自动联想到这些属性而不需要重新读一遍关于苹果的文章。δ-mem做的事情与此类似。具体来说δ-mem在AI原有的核心结构一个冻结不动的全注意力Transformer相当于AI的大脑本体旁边额外维护了一块小小的**联想记忆在线状态矩阵**研究中称为OSAMOnline State of Associative Memory。这块矩阵非常小研究中使用的默认尺寸只有8×8总共64个数字却能压缩存储大量历史交互中的关键关联信息。每当AI处理新的输入内容时δ-mem的工作流程可以概括为三步读、导、写。首先是**读**。δ-mem用当前输入的内容去查询这块记忆板提取出与当前问题最相关的历史关联信号。这个过程不需要翻出过去所有的对话记录只需要用一个小向量去点击固定大小的矩阵计算量是固定的与历史有多长完全无关。然后是**导**。这些从记忆板中提取出的信号不会以文字形式注入到AI的输入中而是被转化为对AI注意力计算的微小修正——技术上叫做低秩修正。简单说就是在AI思考问题时悄悄给它的注意力方向打一个小补丁让它在当前这个问题的基础上自然地把历史相关信息考虑进来而不需要明确地重新阅读历史。这个修正分为两个地方施加一个是在AI形成问题之前查询端修正另一个是在AI得出回答之后输出端修正从而让记忆信号既能影响AI如何理解当前问题也能影响它最终生成的回答。最后是**写**。当AI处理完当前内容后δ-mem会把当前内容中有价值的新信息更新到记忆板上。这里用的是一种叫做**delta规则学习**delta-rule learning的方式——并不是把新信息全部叠加进去而是只写入新信息与记忆板原有预测之间的差异。打个比方就像一个精明的管家他不会把每件新事情都完整记一遍而只是在原有备忘录上注明这次有所不同的地方是……。这样做的好处是已经掌握好的关联关系不会被反复覆盖而新出现的变化会被精准捕捉。更进一步研究团队还引入了一个遗忘门机制让记忆板在保留重要历史信息的同时能够适度淡化很久以前的旧信息避免被陈年旧事干扰。从数学角度描述这个更新过程是新状态 遗忘系数 × 旧状态 写入系数 × 新值 – 旧状态对新键的预测值× 新键的转置。其中遗忘系数和写入系数都是根据当前输入动态计算的而且是按记忆板的每一个维度分别计算的这意味着记忆板的不同槽位可以以不同的速率更新和遗忘非常灵活。三、三种不同的记录方式——粒度策略的设计研究团队还意识到记忆应该在什么时间点更新对效果影响很大。于是他们设计了三种写入策略就像三种不同的记笔记方式。第一种叫**逐词写入**Token-State WriteTSW。每处理一个词就立刻更新记忆板。这就像速记员一样每说一个字都立刻记录下来。好处是信息粒度最细不会错过任何细节坏处是格式符号、语气词、重复表达等噪声信息也会被写进去可能干扰记忆质量。第二种叫**逐段写入**Sequence-State WriteSSW。把一条完整的消息比如用户的一段话处理完之后对所有词的隐藏状态取平均然后只更新记忆板一次。这就像一个整理笔记的人等你说完一段话再归纳成一句核心意思写下来。好处是减少了噪声的干扰状态变化更平稳代价是一些细粒度的词级别细节会被平均掉。第三种叫**多状态写入**Multi-State WriteMSW。不再只维护一块记忆板而是同时维护多块并行的记忆板研究中默认用4块每块记忆板通过独立的读写机制专注于不同类型的信息最后把多块记忆板的读取结果拼接在一起使用。这就像一个团队配备了多位专职记录员一位专门记事实一位专门记偏好一位专门记任务进度各司其职互不干扰。好处是减少了不同类型信息之间的相互覆盖和干扰代价是参数量相应增加。四、训练方式——只教记忆层不动大脑本体δ-mem的训练方式同样很有特点。研究团队选择把AI的大脑本体完全冻结只训练δ-mem中新增的那些轻量参数比如各种投影矩阵和门控参数。在训练时系统会先把历史上下文的内容写入记忆板生成一个存储了历史信息的状态然后把历史上下文从AI的直接输入中移除只让AI看到当前的问题和需要回答的部分通过记忆板的引导来生成正确答案。训练目标就是让生成的回答尽可能准确采用的是标准的监督微调损失。这种训练方式的妙处在于它迫使δ-mem真正学会如何把有用的历史信息压缩进记忆板并在需要时有效地提取出来而不是依赖对历史文本的直接重读。整个训练过程在8块A800 GPU上进行训练数据使用的是QASPER一个学术问答数据集中最短的2219个样本每个样本的最大序列长度约为8000个词训练一轮即可完成。δ-mem的核心超参数是记忆维度r8、缩放系数α16默认只在查询端和输出端施加修正。五、实验结果——数字背后的真实表现研究团队在多个基准测试上对δ-mem进行了系统评估基础骨干模型使用的是Qwen3-4B-Instruct一个40亿参数的指令优化模型同时还在Qwen3-8B80亿参数和SmolLM3-3B30亿参数上验证了泛化性。对比的基线方法涵盖了前面提到的三类现有记忆机制的代表方法文本记忆类的BM25 RAG检索增强生成、LLMLingua-2提示压缩、MemoryBank持续记忆管理参数记忆类的Context2LoRA和MemGen以及外部通道记忆类的MLP Memory。评测分为两大类。一类是**记忆密集型任务**包括LoCoMo评估AI在超长对话历史中的记忆保持和检索能力和MemoryAgentBench评估AI在多轮交互中的记忆保留、检索和利用能力涵盖准确检索、测试时学习、长程理解、选择性遗忘四个子类别。另一类是**通用能力任务**包括HotpotQA多跳推理问答、GPQA-Diamond研究生级别知识问答和IFEval指令遵循评估。从Qwen3-4B-Instruct上的主要结果来看原始冻结骨干模型的综合平均分为46.79%而δ-mem的三种变体均显著超越了所有对比基线。其中逐词写入TSW变体取得了最高的综合平均分51.66%比原始骨干提升了约4.87个百分点比最强的非δ-mem基线Context2LoRA高出约6.76个百分点。逐段写入SSW和多状态写入MSW变体也分别达到了51.44%和50.74%的综合平均分。在记忆密集型任务上提升尤为突出。在MemoryAgentBench上MSW变体将平均分从29.54%提升到了38.85%提升幅度超过31%。在LoCoMo上MSW变体将平均分从40.79%提升到了49.12%提升超过20%。特别值得关注的是MemoryAgentBench中的测试时学习TTL子任务SSW变体将得分从26.14分提升到了50.50分几乎翻倍——这说明δ-mem在需要从交互历史中实时学习新知识的场景下表现尤为出色。与此同时δ-mem在通用能力任务上的表现也相当稳健。在HotpotQA上TSW变体将精确匹配率从42.35%提升到49.41%F1分数从56.00%提升到63.66%。在IFEval上各变体的分数与原始骨干相当甚至略有提升说明δ-mem在提升记忆能力的同时没有损害模型原有的指令遵循能力。GPQA-Diamond的得分也有小幅提升。对比各基线方法的表现可以清晰看出各类方法的局限性。文本记忆类方法BM25 RAG、LLMLingua-2、MemoryBank的提升效果参差不齐在某些任务上甚至低于原始骨干模型反映了检索噪声和文本压缩带来的信息损失。Context2LoRA在某些任务上有一定效果但在IFEval等指令遵循任务上表现明显下滑76.71% vs 81.89%说明静态参数记忆对任务分布存在一定过拟合。MemGen的综合平均分仅有30.66%远低于原始骨干显示出训练不稳定或任务迁移困难的问题。MLP Memory的综合平均分只有22.85%在IFEval上更是只有24.95%说明缺乏顺序状态积累的外部记忆模块难以有效建模长程依赖。六、跨骨干模型的验证——适应性如何研究团队还在不同规模的骨干模型上验证了δ-mem的泛化性发现了一些有趣的规律。在规模较大的Qwen3-8B上δ-mem的绝对提升幅度相对较小从47.20%提升到50.86%这不难理解——更强的骨干本身已经有更好的内在记忆和推理能力留给外部记忆机制发挥的空间自然相对有限。在这个模型上逐段写入SSW策略表现最好这说明对于能力更强的骨干更平滑稳健的状态更新方式更为合适。在规模最小的SmolLM3-3B上δ-mem的提升幅度最为显著从26.08%跃升至36.96%提升了约10.9个百分点。在这个模型上多状态写入MSW策略表现最突出说明对于能力相对有限的小模型通过多块并行记忆板来分散不同类型信息、减少相互干扰是特别有价值的。七、记忆真的被存进去了吗——零上下文恢复实验研究团队还做了一个非常有说服力的实验来验证δ-mem的记忆是否真实有效他们在推理时完全移除了历史上下文只保留记忆板的状态让AI在什么都没给看的情况下仅凭记忆板来回答问题。结果显示在HotpotQA上零上下文时原始骨干的精确匹配率只有0.08%几乎什么都答不出来而加上δ-mem的记忆板后精确匹配率提升到了6.48%F1分数从8.27%提升到了15.20%。在需要多跳推理的Bridge子集上精确匹配率从0.08%提升到3.97%F1从6.25%提升到11.05%——这意味着记忆板确实保存了跨步骤推理所需的中间证据链。在LoCoMo上整体平均分从3.49%提升到了8.05%在多跳、时序、开放域、单跳等各类问题上均有明显提升。这些数字虽然绝对值不高毕竟从记忆板恢复信息本身就很有挑战性但提升幅度非常显著清晰地证明了δ-mem的记忆板确实在存储有意义的历史信号而非随机噪声。八、精细调优——在哪里打补丁、打多深最有效研究团队还对δ-mem的两个关键设计选择进行了消融实验以确定最优配置。第一个问题是记忆修正应该施加在注意力计算的哪个部分。研究发现单独施加在输出端o分支的效果最好平均分达到47.05%明显优于单独施加在查询端q分支44.51%或键端k分支42.19%。同时施加在查询端和输出端qo组合47.97%是性价比最高的配置因为加入所有四个分支qkvo48.05%虽然分数最高但提升幅度相对于新增的参数量来说并不值得。因此δ-mem的默认配置选择了qo组合。第二个问题是应该在模型的哪些层施加记忆修正。研究将36层模型分为前12层、中间12层、后12层三段以及全部层进行对比。结果显示施加在全部层上效果最好平均分47.97%在中间12层上效果居中46.66%在前12层44.39%和后12层44.06%上效果相当但较弱。这说明中间层是记忆注入的最佳接口因为它处于语义抽象和任务特异性计算之间的平衡点而前层的表示太底层后层的表示已经太靠近输出修正信号都难以得到充分传播。九、资源消耗——轻量到什么程度δ-mem的轻量特性是它另一个重要优势。SSW和TSW变体仅引入了487万个可训练参数只占骨干模型参数量的0.12%。即便是多状态写入MSW使用4块并行记忆板也只需要1947万参数占比0.48%。相比之下MemGen需要4620万参数1.13%而MLP Memory更是需要高达30.78亿参数相当于骨干模型的76.40%——基本上是在AI身边又搭了一个几乎同等规模的记忆大脑。在推理效率上δ-mem的GPU显存占用与原始骨干和Context2LoRA几乎相同即便将输入提示长度扩展到32K时也没有显著增加。解码速度方面δ-mem因为每步都需要读写记忆板比原始骨干和Context2LoRA慢一些但远比MemGen快且稳定。从综合性价比来看δ-mem以极低的额外开销换来了在记忆密集型任务上相当可观的性能提升。---说到底δ-mem做的事情并不神秘但它找到了一个巧妙的平衡点不修改AI的大脑本体不无限扩大输入纸张也不在外面搭建一个复杂的检索仓库而是给AI配了一块微型的联想记忆板随着对话的推进不断自我更新在AI思考的核心环节悄然发挥作用。一块只有64个数字的矩阵却能让AI在记忆密集型任务上的表现提升超过20%甚至30%这个结果本身就很说明问题。当然研究也有其局限。从绝对数值来看即便是加上δ-mem之后在某些任务上的分数仍然不算高说明有效的长期记忆机制依然是一个开放问题。零上下文恢复实验中的绝对分数也提示单靠64个数字的记忆板能存储的信息量毕竟有限。未来的研究方向可能包括更大的记忆板、更精细的写入策略、或者将δ-mem与其他记忆机制结合使用。这项研究给我们留下一个有趣的思考当我们谈论让AI记住你时究竟需要的是把所有历史都保留下来还是只需要提炼出关键的关联模式人类的记忆并不是录像机而更像是一套动态更新的关联网络——δ-mem或许在技术路径上比单纯扩大上下文窗口更接近人类记忆的工作方式。对此感兴趣的读者可通过arXiv编号2605.12357找到完整原文深入探究。---QAQ1δ-mem的记忆板只有8×864个数字真的能存下有用的信息吗Aδ-mem的8×8记忆板存储的不是原始文字而是经过压缩的关联模式类似于大脑记住苹果→红色甜的这种关系而非逐字记录关于苹果的文章。实验中零上下文恢复测试证明移除全部历史文本后仅凭记忆板的状态HotpotQA的精确匹配率从0.08%提升到6.48%LoCoMo平均分从3.49%提升到8.05%说明确实存储了有意义的历史信号。Q2δ-mem和RAG检索增强生成有什么本质区别ARAG是把历史信息以文字形式存起来需要时检索出来再塞给AI看相当于给AI递一张小纸条。δ-mem则是把历史信息压缩成数值关联模式在AI计算注意力时直接修正其内部计算过程不需要占用输入空间也没有检索噪声。实验显示BM25 RAG在多项任务上甚至低于原始骨干模型而δ-mem在记忆密集型任务上提升超过20%。Q3δ-mem训练成本高吗普通机构能复现吗Aδ-mem只训练新增的轻量参数最少仅487万参数占骨干模型的0.12%骨干模型完全冻结不动。训练数据只用了2219个样本在8块A800 GPU上训练一个完整轮次即可完成门槛相对不高。相比需要数十亿参数的MLP Memory或需要全量微调的方法δ-mem的训练成本明显更低。
南洋理工大学等:给AI装上“超级记忆芯片“,聊天助手不会忘事
这项由南洋理工大学、复旦大学、上海交通大学、香港中文大学、香港科技大学广州以及Mind Lab联合完成的研究以预印本形式于2026年5月12日发布论文编号为arXiv:2605.12357有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。你有没有遇到过这样的情况和一个AI助手聊了很久分享了很多个人信息和偏好结果下次再打开对话它却像从来没见过你一样什么都不记得这种感觉就像雇了一个每天早晨都会失忆的秘书——你每天都要重新介绍自己重复交代同样的事情效率极低还令人沮丧。这正是当前大型语言模型也就是驱动ChatGPT、文心一言等AI助手的核心技术面临的一个根本性困境。研究团队为此提出了一种名为**δ-mem**读作delta-mem的全新记忆机制试图给AI装上一块真正好用的记忆芯片。一、AI为什么会失忆——问题的根源要理解这项研究解决的是什么问题先来了解一下AI是怎么思考的。现有的大型语言模型本质上是一个处理文字序列的巨型程序。每次你和它对话它能看到的内容是有限的——就好比一张纸只能写这么多字写满了就没地方写新内容了。这张纸在技术上叫做**上下文窗口**。面对记忆问题最直觉的解决办法是把纸换大一点让AI能记住更多内容。但这个办法有两个大麻烦。其一纸越大处理起来就越慢、越费电——技术上说标准注意力机制的计算量会随着内容长度呈平方级增长这意味着纸扩大一倍计算量会变成原来的四倍。其二更关键的是即便给了AI一张很大的纸它也未必能好好利用上面的所有内容。多项研究发现当内容太长时AI会出现上下文腐烂或上下文退化的现象——就像一个人面对一张密密麻麻写满字的超大纸张反而看花了眼找不到关键信息。这意味着即便是拥有百万token上下文窗口的模型也并没有从根本上解决记忆问题。正因如此研究人员一直在探索更聪明的记忆机制。在这项研究之前业界已有几类解决思路但各有缺陷。一类是把记忆以文字形式存储起来需要时再塞回到AI的纸张上但这样会压缩原本的可用空间而且把记忆压缩成文字时难免会丢失细节检索时还可能找错内容。另一类是在AI外部搭建一个单独的记忆模块通过检索的方式让AI访问但这种方式架构复杂外部模块和AI内部的语言未必对得上也会带来额外的延迟。还有一类是把记忆直接编码进AI的参数里但这样的记忆是静态的无法随着对话的进展而动态更新。δ-mem的设计正是为了突破这三类方法的局限找到一条新路。二、δ-mem的核心思想——一块会自我更新的记忆板研究团队提出的核心比喻是一块会联想记忆的板子。可以这样理解你的大脑在记忆信息时并不是把每句话都一字不差地刻下来而是把关键的关联关系压缩存储起来。比如你记住了苹果→红色、甜的、秋天成熟下次看到苹果这个词大脑会自动联想到这些属性而不需要重新读一遍关于苹果的文章。δ-mem做的事情与此类似。具体来说δ-mem在AI原有的核心结构一个冻结不动的全注意力Transformer相当于AI的大脑本体旁边额外维护了一块小小的**联想记忆在线状态矩阵**研究中称为OSAMOnline State of Associative Memory。这块矩阵非常小研究中使用的默认尺寸只有8×8总共64个数字却能压缩存储大量历史交互中的关键关联信息。每当AI处理新的输入内容时δ-mem的工作流程可以概括为三步读、导、写。首先是**读**。δ-mem用当前输入的内容去查询这块记忆板提取出与当前问题最相关的历史关联信号。这个过程不需要翻出过去所有的对话记录只需要用一个小向量去点击固定大小的矩阵计算量是固定的与历史有多长完全无关。然后是**导**。这些从记忆板中提取出的信号不会以文字形式注入到AI的输入中而是被转化为对AI注意力计算的微小修正——技术上叫做低秩修正。简单说就是在AI思考问题时悄悄给它的注意力方向打一个小补丁让它在当前这个问题的基础上自然地把历史相关信息考虑进来而不需要明确地重新阅读历史。这个修正分为两个地方施加一个是在AI形成问题之前查询端修正另一个是在AI得出回答之后输出端修正从而让记忆信号既能影响AI如何理解当前问题也能影响它最终生成的回答。最后是**写**。当AI处理完当前内容后δ-mem会把当前内容中有价值的新信息更新到记忆板上。这里用的是一种叫做**delta规则学习**delta-rule learning的方式——并不是把新信息全部叠加进去而是只写入新信息与记忆板原有预测之间的差异。打个比方就像一个精明的管家他不会把每件新事情都完整记一遍而只是在原有备忘录上注明这次有所不同的地方是……。这样做的好处是已经掌握好的关联关系不会被反复覆盖而新出现的变化会被精准捕捉。更进一步研究团队还引入了一个遗忘门机制让记忆板在保留重要历史信息的同时能够适度淡化很久以前的旧信息避免被陈年旧事干扰。从数学角度描述这个更新过程是新状态 遗忘系数 × 旧状态 写入系数 × 新值 – 旧状态对新键的预测值× 新键的转置。其中遗忘系数和写入系数都是根据当前输入动态计算的而且是按记忆板的每一个维度分别计算的这意味着记忆板的不同槽位可以以不同的速率更新和遗忘非常灵活。三、三种不同的记录方式——粒度策略的设计研究团队还意识到记忆应该在什么时间点更新对效果影响很大。于是他们设计了三种写入策略就像三种不同的记笔记方式。第一种叫**逐词写入**Token-State WriteTSW。每处理一个词就立刻更新记忆板。这就像速记员一样每说一个字都立刻记录下来。好处是信息粒度最细不会错过任何细节坏处是格式符号、语气词、重复表达等噪声信息也会被写进去可能干扰记忆质量。第二种叫**逐段写入**Sequence-State WriteSSW。把一条完整的消息比如用户的一段话处理完之后对所有词的隐藏状态取平均然后只更新记忆板一次。这就像一个整理笔记的人等你说完一段话再归纳成一句核心意思写下来。好处是减少了噪声的干扰状态变化更平稳代价是一些细粒度的词级别细节会被平均掉。第三种叫**多状态写入**Multi-State WriteMSW。不再只维护一块记忆板而是同时维护多块并行的记忆板研究中默认用4块每块记忆板通过独立的读写机制专注于不同类型的信息最后把多块记忆板的读取结果拼接在一起使用。这就像一个团队配备了多位专职记录员一位专门记事实一位专门记偏好一位专门记任务进度各司其职互不干扰。好处是减少了不同类型信息之间的相互覆盖和干扰代价是参数量相应增加。四、训练方式——只教记忆层不动大脑本体δ-mem的训练方式同样很有特点。研究团队选择把AI的大脑本体完全冻结只训练δ-mem中新增的那些轻量参数比如各种投影矩阵和门控参数。在训练时系统会先把历史上下文的内容写入记忆板生成一个存储了历史信息的状态然后把历史上下文从AI的直接输入中移除只让AI看到当前的问题和需要回答的部分通过记忆板的引导来生成正确答案。训练目标就是让生成的回答尽可能准确采用的是标准的监督微调损失。这种训练方式的妙处在于它迫使δ-mem真正学会如何把有用的历史信息压缩进记忆板并在需要时有效地提取出来而不是依赖对历史文本的直接重读。整个训练过程在8块A800 GPU上进行训练数据使用的是QASPER一个学术问答数据集中最短的2219个样本每个样本的最大序列长度约为8000个词训练一轮即可完成。δ-mem的核心超参数是记忆维度r8、缩放系数α16默认只在查询端和输出端施加修正。五、实验结果——数字背后的真实表现研究团队在多个基准测试上对δ-mem进行了系统评估基础骨干模型使用的是Qwen3-4B-Instruct一个40亿参数的指令优化模型同时还在Qwen3-8B80亿参数和SmolLM3-3B30亿参数上验证了泛化性。对比的基线方法涵盖了前面提到的三类现有记忆机制的代表方法文本记忆类的BM25 RAG检索增强生成、LLMLingua-2提示压缩、MemoryBank持续记忆管理参数记忆类的Context2LoRA和MemGen以及外部通道记忆类的MLP Memory。评测分为两大类。一类是**记忆密集型任务**包括LoCoMo评估AI在超长对话历史中的记忆保持和检索能力和MemoryAgentBench评估AI在多轮交互中的记忆保留、检索和利用能力涵盖准确检索、测试时学习、长程理解、选择性遗忘四个子类别。另一类是**通用能力任务**包括HotpotQA多跳推理问答、GPQA-Diamond研究生级别知识问答和IFEval指令遵循评估。从Qwen3-4B-Instruct上的主要结果来看原始冻结骨干模型的综合平均分为46.79%而δ-mem的三种变体均显著超越了所有对比基线。其中逐词写入TSW变体取得了最高的综合平均分51.66%比原始骨干提升了约4.87个百分点比最强的非δ-mem基线Context2LoRA高出约6.76个百分点。逐段写入SSW和多状态写入MSW变体也分别达到了51.44%和50.74%的综合平均分。在记忆密集型任务上提升尤为突出。在MemoryAgentBench上MSW变体将平均分从29.54%提升到了38.85%提升幅度超过31%。在LoCoMo上MSW变体将平均分从40.79%提升到了49.12%提升超过20%。特别值得关注的是MemoryAgentBench中的测试时学习TTL子任务SSW变体将得分从26.14分提升到了50.50分几乎翻倍——这说明δ-mem在需要从交互历史中实时学习新知识的场景下表现尤为出色。与此同时δ-mem在通用能力任务上的表现也相当稳健。在HotpotQA上TSW变体将精确匹配率从42.35%提升到49.41%F1分数从56.00%提升到63.66%。在IFEval上各变体的分数与原始骨干相当甚至略有提升说明δ-mem在提升记忆能力的同时没有损害模型原有的指令遵循能力。GPQA-Diamond的得分也有小幅提升。对比各基线方法的表现可以清晰看出各类方法的局限性。文本记忆类方法BM25 RAG、LLMLingua-2、MemoryBank的提升效果参差不齐在某些任务上甚至低于原始骨干模型反映了检索噪声和文本压缩带来的信息损失。Context2LoRA在某些任务上有一定效果但在IFEval等指令遵循任务上表现明显下滑76.71% vs 81.89%说明静态参数记忆对任务分布存在一定过拟合。MemGen的综合平均分仅有30.66%远低于原始骨干显示出训练不稳定或任务迁移困难的问题。MLP Memory的综合平均分只有22.85%在IFEval上更是只有24.95%说明缺乏顺序状态积累的外部记忆模块难以有效建模长程依赖。六、跨骨干模型的验证——适应性如何研究团队还在不同规模的骨干模型上验证了δ-mem的泛化性发现了一些有趣的规律。在规模较大的Qwen3-8B上δ-mem的绝对提升幅度相对较小从47.20%提升到50.86%这不难理解——更强的骨干本身已经有更好的内在记忆和推理能力留给外部记忆机制发挥的空间自然相对有限。在这个模型上逐段写入SSW策略表现最好这说明对于能力更强的骨干更平滑稳健的状态更新方式更为合适。在规模最小的SmolLM3-3B上δ-mem的提升幅度最为显著从26.08%跃升至36.96%提升了约10.9个百分点。在这个模型上多状态写入MSW策略表现最突出说明对于能力相对有限的小模型通过多块并行记忆板来分散不同类型信息、减少相互干扰是特别有价值的。七、记忆真的被存进去了吗——零上下文恢复实验研究团队还做了一个非常有说服力的实验来验证δ-mem的记忆是否真实有效他们在推理时完全移除了历史上下文只保留记忆板的状态让AI在什么都没给看的情况下仅凭记忆板来回答问题。结果显示在HotpotQA上零上下文时原始骨干的精确匹配率只有0.08%几乎什么都答不出来而加上δ-mem的记忆板后精确匹配率提升到了6.48%F1分数从8.27%提升到了15.20%。在需要多跳推理的Bridge子集上精确匹配率从0.08%提升到3.97%F1从6.25%提升到11.05%——这意味着记忆板确实保存了跨步骤推理所需的中间证据链。在LoCoMo上整体平均分从3.49%提升到了8.05%在多跳、时序、开放域、单跳等各类问题上均有明显提升。这些数字虽然绝对值不高毕竟从记忆板恢复信息本身就很有挑战性但提升幅度非常显著清晰地证明了δ-mem的记忆板确实在存储有意义的历史信号而非随机噪声。八、精细调优——在哪里打补丁、打多深最有效研究团队还对δ-mem的两个关键设计选择进行了消融实验以确定最优配置。第一个问题是记忆修正应该施加在注意力计算的哪个部分。研究发现单独施加在输出端o分支的效果最好平均分达到47.05%明显优于单独施加在查询端q分支44.51%或键端k分支42.19%。同时施加在查询端和输出端qo组合47.97%是性价比最高的配置因为加入所有四个分支qkvo48.05%虽然分数最高但提升幅度相对于新增的参数量来说并不值得。因此δ-mem的默认配置选择了qo组合。第二个问题是应该在模型的哪些层施加记忆修正。研究将36层模型分为前12层、中间12层、后12层三段以及全部层进行对比。结果显示施加在全部层上效果最好平均分47.97%在中间12层上效果居中46.66%在前12层44.39%和后12层44.06%上效果相当但较弱。这说明中间层是记忆注入的最佳接口因为它处于语义抽象和任务特异性计算之间的平衡点而前层的表示太底层后层的表示已经太靠近输出修正信号都难以得到充分传播。九、资源消耗——轻量到什么程度δ-mem的轻量特性是它另一个重要优势。SSW和TSW变体仅引入了487万个可训练参数只占骨干模型参数量的0.12%。即便是多状态写入MSW使用4块并行记忆板也只需要1947万参数占比0.48%。相比之下MemGen需要4620万参数1.13%而MLP Memory更是需要高达30.78亿参数相当于骨干模型的76.40%——基本上是在AI身边又搭了一个几乎同等规模的记忆大脑。在推理效率上δ-mem的GPU显存占用与原始骨干和Context2LoRA几乎相同即便将输入提示长度扩展到32K时也没有显著增加。解码速度方面δ-mem因为每步都需要读写记忆板比原始骨干和Context2LoRA慢一些但远比MemGen快且稳定。从综合性价比来看δ-mem以极低的额外开销换来了在记忆密集型任务上相当可观的性能提升。---说到底δ-mem做的事情并不神秘但它找到了一个巧妙的平衡点不修改AI的大脑本体不无限扩大输入纸张也不在外面搭建一个复杂的检索仓库而是给AI配了一块微型的联想记忆板随着对话的推进不断自我更新在AI思考的核心环节悄然发挥作用。一块只有64个数字的矩阵却能让AI在记忆密集型任务上的表现提升超过20%甚至30%这个结果本身就很说明问题。当然研究也有其局限。从绝对数值来看即便是加上δ-mem之后在某些任务上的分数仍然不算高说明有效的长期记忆机制依然是一个开放问题。零上下文恢复实验中的绝对分数也提示单靠64个数字的记忆板能存储的信息量毕竟有限。未来的研究方向可能包括更大的记忆板、更精细的写入策略、或者将δ-mem与其他记忆机制结合使用。这项研究给我们留下一个有趣的思考当我们谈论让AI记住你时究竟需要的是把所有历史都保留下来还是只需要提炼出关键的关联模式人类的记忆并不是录像机而更像是一套动态更新的关联网络——δ-mem或许在技术路径上比单纯扩大上下文窗口更接近人类记忆的工作方式。对此感兴趣的读者可通过arXiv编号2605.12357找到完整原文深入探究。---QAQ1δ-mem的记忆板只有8×864个数字真的能存下有用的信息吗Aδ-mem的8×8记忆板存储的不是原始文字而是经过压缩的关联模式类似于大脑记住苹果→红色甜的这种关系而非逐字记录关于苹果的文章。实验中零上下文恢复测试证明移除全部历史文本后仅凭记忆板的状态HotpotQA的精确匹配率从0.08%提升到6.48%LoCoMo平均分从3.49%提升到8.05%说明确实存储了有意义的历史信号。Q2δ-mem和RAG检索增强生成有什么本质区别ARAG是把历史信息以文字形式存起来需要时检索出来再塞给AI看相当于给AI递一张小纸条。δ-mem则是把历史信息压缩成数值关联模式在AI计算注意力时直接修正其内部计算过程不需要占用输入空间也没有检索噪声。实验显示BM25 RAG在多项任务上甚至低于原始骨干模型而δ-mem在记忆密集型任务上提升超过20%。Q3δ-mem训练成本高吗普通机构能复现吗Aδ-mem只训练新增的轻量参数最少仅487万参数占骨干模型的0.12%骨干模型完全冻结不动。训练数据只用了2219个样本在8块A800 GPU上训练一个完整轮次即可完成门槛相对不高。相比需要数十亿参数的MLP Memory或需要全量微调的方法δ-mem的训练成本明显更低。