《MEMO: Memory as a Model》的核心研究内容是提出一种名为 MEMO 的模块化框架通过将外部知识训练成一个独立的“记忆模型”使大语言模型能够在不修改自身参数、不依赖检索索引的情况下高效、鲁棒地整合新知识并支持与任意大语言模型包括闭源模型即插即用。下面从五个方面进行全面总结一、研究背景与问题问题大语言模型训练后长期冻结无法及时更新知识。重新训练成本极高现有方法检索增强、微调、潜在记忆各有缺陷检索方法受上下文窗口限制难以处理跨文档关系且对检索噪声敏感。微调方法计算昂贵易发生灾难性遗忘且不适用于闭源模型。潜在记忆方法表示与特定模型耦合不可迁移。二、MEMO 框架核心设计MEMO 将系统分为两个部分记忆模型一个小型、可训练的语言模型专门用于内化新语料库中的知识。执行模型原有的冻结大语言模型负责推理和回答用户问题可以任意替换。关键创新点反思问答数据合成流程使用一个“生成器模型”将原始文档语料库通过五个步骤事实提取、事实合并、实体显化、验证、跨文档合成转化为“反思问答数据集”。该数据集不仅包含单文档事实更重要的是包含了跨文档关系和组合式知识这是模型能够进行复杂推理的基础。结构化多轮推理协议推理时分三个阶段与记忆模型交互基础建立执行模型将用户问题拆解为多个原子性子问题批量向记忆模型提问。实体识别根据初步答案迭代追问以唯一确定相关的关键实体。答案寻求与合成针对确认的实体进一步索取支持事实最终合成答案。这种设计使得检索成本与原始语料库大小解耦仅与记忆模型输出长度相关且对检索噪声具有鲁棒性。即插即用与持续更新记忆模型一旦训练好可以与任意执行模型甚至闭源模型如 Gemini-3-Flash搭配使用无需重训练。支持模型合并技术如 TIES来持续整合多个语料库成本远低于从头重新训练。三、实验评估基准数据集BrowseComp-Plus多跳、多文档、NarrativeQA长文档理解、MuSiQue多步推理。主要对比基线BM25、NV-Embed-V2、HippoRAG2最先进图式 RAG、Cartridges。主要结果性能优越在 NarrativeQA 和 MuSiQue 上MEMO 显著超越所有基线在 BrowseComp-Plus 上达到与最先进 RAG 相当的水平。鲁棒性强在检索噪声增加时基于 RAG 的方法性能明显下降而 MEMO 的性能几乎不受影响。即插即用有效更换更强的执行模型Qwen2.5-32B → Gemini-3-FlashMEMO 性能同步大幅提升证明其通用性。模型合并高效与完整重训练相比模型合并可节省约 33% 的计算成本且合并后的模型性能仍优于所有检索基线。四、优势总结方法冻结基础模型无检索索引黑盒兼容无灾难性遗忘恒定大小记忆跨模型可迁移RAG✓×✓✓×✓微调×✓××✓×潜在记忆✓✓×✓××MEMO本文✓✓✓✓✓✓五、结论与展望结论MEMO 成功将“记忆”建模为一个独立的模型在保持大语言模型灵活性和低成本的同时实现了高效、鲁棒、可扩展的知识整合。它尤其适用于需要频繁更新或引入特定领域知识的场景如医疗、法律、科研并且对闭源商业模型友好。局限与未来工作数据合成阶段特别是跨文档合成计算成本仍较高。记忆模型容量存在理论上限无法无限压缩超大规模语料库。未来可探索更高效的数据生成、记忆模型与执行模型的深度协同以及应用于动态语料库。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要大语言模型在广泛任务上表现出强大性能但在预训练后直至后续更新之前其参数保持冻结。许多实际应用需要及时、特定领域的信息这促使我们需要高效的机制来整合新知识。本文提出 MEMOMemory as a Model一个模块化框架它将新知识编码到一个专用的记忆模型中同时保持大语言模型参数不变。与现有方法相比MEMO 具有以下优势(a) 能够捕捉复杂的跨文档关系(b) 对检索噪声具有鲁棒性(c) 避免了大语言模型的灾难性遗忘(d) 无需访问大语言模型的权重或输出 logits支持与开源和专有闭源大语言模型的即插即用集成(e) 推理时其检索成本与语料库规模无关。我们在三个基准测试BrowseComp-Plus、NarrativeQA 和 MuSiQue上的实验结果表明与现有方法相比MEMO 在不同设置下均取得了强劲的性能。1. 引言大语言模型已在多种任务上展现出卓越的能力 [1–3]。尽管取得了成功这些模型在预训练后实质上会长时间冻结 [4]直到后续更新导致其预训练知识随着世界的发展而逐渐过时。对于需要最新 [5, 6] 或特定领域 [7, 8] 知识的应用这种对静态知识的依赖构成了一个根本性的架构限制 [9, 10]。重新训练是一个自然的解决方案但在现代模型规模下成本高得令人望而却步 [11]这促使我们需要一种有效的机制将新的外部知识整合到大语言模型中而无需完全重新训练。现有将新知识整合到大语言模型的方法分为三类。①非参数方法在推理时通过词汇 [12]、稠密 [13] 或基于图的检索器 [14–17] 从外部存储中检索相关信息然后通过上下文学习 [18, 19] 将其整合。然而这些方法受到有限上下文窗口的约束并且当相关信息分布在多个文档中时难以综合跨文档关系 [20, 21]。②参数化方法通过直接在目标语料库上进行持续预训练 [22] 或微调 [23–25]将知识内化到模型参数中。虽然有效但它们在计算上昂贵容易发生灾难性遗忘 [26]并且倾向于记忆训练分布而非获得可迁移的知识限制了对未见查询的泛化能力 [27]。③潜在记忆方法[28–31] 将知识压缩到软 token 或其他特定于模型的表示中但存在表示耦合问题记忆与用于生成这些表示的特定模型紧密绑定限制了跨大语言模型的可迁移性。我们提出 MEMOMemory as a Model一个模块化框架。在该框架中一个专用的记忆模型在新知识上进行训练一个执行模型在推理时通过定向子查询从记忆模型中检索相关信息然后对检索到的信息进行推理以响应用户查询。MEMO 结合了上述三种范式的互补优势同时减轻了它们各自的局限性。与非参数方法一样它通过将记忆与推理模型分离能够原样利用现成的前沿模型它与参数化方法一样能够将知识内化到模型参数中它与潜在记忆方法一样拥有紧凑、可查询的记忆工件的优势。因此MEMO 提供了以下优势(a) 捕捉复杂的跨文档关系(b) 对检索噪声具有鲁棒性(c) 通过保持执行模型参数不变来避免灾难性遗忘(d) 无需访问执行模型的权重或输出 logits支持与开源和专有大语言模型的即插即用集成(e) 由于记忆模型大小固定推理时其检索成本与语料库规模无关。然而设计 MEMO 使其在训练期间全面捕捉跨文档关系同时在推理时准确回答任意查询引入了两个关键挑战我们将在下文中概述并通过新方法加以解决。①训练记忆模型。记忆模型的一个核心挑战是确保它能在推理时准确回答各种未见过的查询包括那些需要跨文档推理和长上下文理解的查询。一种自然的方法是使用标准数据增强技术如释义 [32–34]、对生成的问答对进行额外采样 [35, 36] 或定向的空白填充 [37, 38]直接在原始语料库上训练。然而这些方法未能将相关事实整合成对未见查询进行鲁棒泛化所必需的组合式表示 [27]。基于此挑战我们设计了一个新颖的五步数据合成流程该流程由一个生成器模型驱动第 4.1 节将语料库提炼成一个反思问答数据集即在多样化查询变体下暴露底层语料库知识的组合式表示图 1左所示详见第 4.1 节。我们通过有监督微调在合成的反思问答数据集上训练记忆模型见第 4.2 节使记忆模型能够比基于检索的方法捕捉更复杂的跨文档关系和组合结构。②查询记忆模型。在推理时复杂或组合式的查询通常需要多步推理和跨多个文档的信息聚合。通过单轮或无结构的多轮交互直接查询记忆模型无法可靠地检索回答此类查询所需的知识。为解决这个问题我们设计了一个三阶段推理流程其中执行模型通过结构化的多轮协议查询并从记忆模型检索信息将复杂的用户查询分解为与共享反思接口对齐的定向子查询图 1右所示更多细节见第 4.4 节。与基于检索的方法不同此方法的检索成本与语料库规模无关并且对检索噪声具有鲁棒性见第 5.2 节。至关重要的是由于 MEMO 将执行模型视为黑盒并且不访问其权重、梯度或输出 logits它支持与任何大语言模型包括开源和专有的闭源模型进行即插即用集成。我们的方法遵循一个单一的设计原则反思即从语料库派生的、不需要知道未来查询的结构然而它们自然成为任何查询访问底层语料库而无需直接观察语料库的精确接口。在训练期间记忆模型内化这些反思执行模型在推理时通过定向子查询检索相关知识。基于上述挑战及为应对这些挑战而提出的方法我们总结了本文的主要贡献如下新颖的数据合成流程。我们提出了一个五步数据合成流程使用生成器模型一个可能与执行模型相同或更小的大语言模型将目标语料库提炼成反思使专用的记忆模型能够以组合形式内化知识从而捕捉更复杂的跨文档关系并在推理时对多样化的未见查询变体进行鲁棒泛化见第 4.1 和 4.2 节。结构化的多轮协议。我们引入了一个结构化的多轮协议系统地将复杂查询分解为与共享反思接口对齐的定向子查询。该协议支持与任意大语言模型包括专有闭源大语言模型的即插即用集成并且检索成本与语料库规模无关见第 4.4 节。实证验证。我们在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上评估了 MEMO证明了其相对于参数化和非参数化基线的强劲性能。我们还实证验证了 MEMO 对检索噪声的鲁棒性见第 5 节。2. 相关工作非参数方法。非参数替代方法 [12, 13, 17] 完全避免参数更新而是在推理时提供新知识。特别是上下文学习 [18, 19] 将相关知识直接插入提示中避免了灾难性遗忘。然而上下文学习随着上下文长度的增加扩展性差自回归生成的计算成本 [39] 随着知识库的增长导致大量的 token 开销和推理延迟 [40]即使是明确支持长上下文的模型其性能也会随着上下文长度的增加而显著下降 [41, 42]。检索增强生成 [14-17] 通过在推理时选择性地检索相关知识块来解决这个可扩展性瓶颈。然而RAG 系统对检索噪声高度敏感 [43]不相关或误导性的段落会严重降低生成质量 [44, 45]。此外RAG 系统通常难以对复杂的跨文档依赖关系进行推理 [20]因为它们缺乏综合分布在多个块或大型语料库中的信息的鲁棒机制 [21]。参数化方法。现有的后训练方法例如在新语料库上进行持续预训练 [22, 46] 或在精心策划的指令数据上进行有监督微调 [23-25]试图通过在后训练期间将新知识纳入大语言模型来克服这一限制。虽然概念上直接但这些参数化方法常常遭受灾难性遗忘即适应新观察到的知识会损害先前获得的知识、学到的能力 [26, 47, 48] 以及在大语言模型后训练期间学到的安全对齐 [49]。此外现代大语言模型的规模使得频繁微调在计算上昂贵 [50, 51]而且对于专有的闭源模型微调通常是不可行的 [52]这极大地限制了参数化方法在现实世界大规模应用中的实用性。潜在记忆方法。存储知识的另一种方法是通过压缩的潜在表示它介于非参数检索和完全参数化方法之间。上下文压缩技术如 AutoCompressor [28]、Gist tokens [29] 和 ICAE [30]将知识编码为紧凑的软 token在推理时前置在不丢弃信息的情况下减少上下文学习的 token 开销。然而这些表示与编码器紧密耦合不能被其他模型家族使用限制了与黑盒大语言模型的兼容性。类似地表 1 比较了不同记忆范式所期望的属性表明 MEMO 通过其模块化记忆构建和记忆增强推理满足了这些属性。表 1不同记忆范式下期望属性的比较表明 MEMO 通过其模块化记忆构建和记忆增强推理满足了这些属性。3. 预备知识4. MEMO将记忆作为一种模型4.1 数据合成流程4.2 训练记忆模型4.3 流式更新与模型合并4.4 推理通过结构化多轮协议查询记忆模型在推理时给定的查询 q 可能复杂需要多步推理和跨多个文档的信息聚合。我们设计了一个三阶段推理流程其中执行模型通过结构化的多轮协议查询记忆模型。每个阶段使用不同的提示、采样温度和独立预算来控制执行模型和记忆模型之间的交互次数。5. 实验数据集。我们在三个知识密集型基准上评估 MEMO。BrowseComp-Plus[61] 是一个深度研究基准需要多跳、多文档检索和推理我们使用 LangDetect [62] 过滤非英语实例采样 300 个问题并为每个问题的证据文档配相同数量的负文档总计 3,541 个文档。NarrativeQA[63] 测试对长文档如书籍和电影剧本的话语理解我们使用 100000 个文档中的 293 个问题。MuSiQue[64] 需要跨多个维基百科段落组合 2-4 个推理步骤我们使用 1,000 个问题并按照与 BrowseComp-Plus 相同的程序构建目标语料库得到 5,296 个文档。更多细节见附录 D数据集和代码在补充材料中。基线。我们将 MEMO 与四个基线进行比较BM25 [12]词汇检索NV-Embed-V2 [13]稠密检索HippoRAG2 [17]基于图的 RAG最先进以及 Cartridges [65]一个在推理时加载到执行模型上的训练好的 KV 缓存最接近 MEMO 的现有参数化基线。存在较新的方法 [28, 66]但通常需要白盒访问执行模型因此不能直接比较。我们另外包括完美检索作为一个经验上界其中执行模型在上下文中仅接收证据文档 [18]。检索基线使用 top-k9 并采用自适应退避逐步减小 k 直到检索到的上下文适合执行模型的上下文窗口。实现与评估。(a)数据生成。我们使用 Qwen2.5-32B-Instruct [67] 作为生成器模型通过 vLLM [68] 提供服务并启用 YaRN RoPE 缩放 [69, 70] 以在长上下文生成期间支持 131K token 的上下文窗口。(b)训练。我们训练记忆模型从 Qwen2.5-14B-Instruct 初始化使用融合 AdamW [71] 和 DeepSpeed 2 [72]学习率为 2×10−5共 3 个 epoch完整超参数见附录 F。(c)评估。我们使用 Qwen2.5-32B-Instruct 或 Gemini-3-Flash [73] 实例化执行模型以评估同一训练好的记忆模型在不同推理能力模型上的表现这两个模型对评估数据集的先验知识极少附录 I。执行模型通过第 4.4 节描述的多轮协议查询记忆模型。我们报告由 Gemini-2.5-Flash-Lite [74] 通过 DeepEval [75] 判断的二分类准确率对于 Qwen2.5-32B-Instruct 为三次运行的平均值±标准差对于 Gemini-3.0-Flash 为单次运行结果。(d)持续整合。对于模型合并实验第 5.5 节我们将 NarrativeQA 划分为两个成对不相交的子集K2每个约 640k QA 对在每个子集上分别 SFT 一个独立的 Qwen2.5-14B-Instruct 记忆模型并在三种密度下遍历六种合并方法共 14 种配置。5.1 实验结果MEMO 在基准测试中取得强劲性能。如表 2 所示在 NarrativeQA 和 MuSiQue 上MEMO 在使用两种执行模型时均持续优于所有基线。在最具挑战性的基准 NarrativeQA 上附录 IMEMO 使用 Qwen2.5-32B-Instruct 达到 26.85%使用 Gemini-3-Flash 达到 53.58%大幅超越所有基线。这值得注意NarrativeQA 需要对长段落进行推理并处理复杂的连接而基于检索的方法受上下文窗口限制难以跨长文档综合信息相比之下MEMO 通过训练期间的反思捕捉这些连接并在推理时通过其多轮协议检索它们。同样的趋势在 MuSiQue 上得以延续MEMO 分别达到 48.30% 和 58.70%优于那些在独立检索的段落中进行多跳推理时遇到困难的基线。在 BrowseComp-Plus 上MEMO 使用 Gemini-3-Flash 领先 (66.67%)使用 Qwen2.5-32B-Instruct 仍具竞争力 (54.22%)略低于 HippoRAG2 的 56.11%。这一差距反映了 BrowseComp-Plus 的特性其答案不存在于执行模型的参数化知识中附录 I使得直接访问证据文档特别有价值因此有利于将原始文档传递给执行模型的检索方法。表 2在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上使用两种执行模型Qwen2.5-32B-Instruct (Qwen2.5-32B-I) 和 Gemini-3-Flash (Gemini-3-F)的准确率 (%)。粗体表示每列最佳结果不包括完美检索。MEMO 使用 Qwen2.5-14B-Instruct 作为记忆模型结果取最佳训练 epoch。*完美检索代表经验上界。MEMO 支持即插即用集成。在三个基准测试中当与能力更强的执行模型Gemini-3-Flash配对时MEMO 持续获得更高的性能从 Qwen2.5-32B-Instruct 切换到 Gemini-3-Flash在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上分别带来了 12.45%、26.73% 和 11.90% 的提升。这表明 MEMO 可以用较弱的生成器模型训练一次然后在推理时无缝地与任何大语言模型包括像 Gemini-3-Flash 这样的专有模型配对。这种即插即用能力使得 MEMO 能够直接利用最先进的模型而无需任何额外的训练或开销。5.2 数据集噪声量的消融研究方法数据集0 × N Acc. (%)1 × N Acc. (%)ΔNV-Embed-V2BrowseComp-Plus56.89 ± 0.5150.67 ± 0.33↓ 6.22NV-Embed-V2MuSiQue42.30 ± 0.5337.47 ± 0.15↓ 4.83HippoRAG2BrowseComp-Plus62.33 ± 1.1556.11 ± 0.51↓ 6.22HippoRAG2MuSiQue47.33 ± 0.7442.17 ± 0.12↓ 5.16MEMOBrowseComp-Plus53.67 ± 1.1554.22 ± 0.84↑ 0.55MEMOMuSiQue50.07 ± 0.8148.30 ± 1.25↓ 1.77表 3 中的结果表明基于检索的方法对噪声表现出明显的敏感性。当从 0×N 扩展到 1×N 时NV-Embed-V2 和 HippoRAG2 在 BrowseComp-Plus 上均下降高达 6.22%在 MuSiQue 上分别下降高达 4.83% 和 5.16%证实了这些系统在现实语料库条件下难以过滤不相关文档。相比之下MEMO 在两个基准测试中均保持稳定的性能在 BrowseComp-Plus 上略有提升 0.55%在 MuSiQue 上仅下降 1.77%两者都在一个标准差之内这表明 MEMO 对增加的检索噪声具有鲁棒性。我们将这种鲁棒性归因于 MEMO 的设计尽管在包含负文档的语料库上训练但记忆模型向执行模型的子查询提供了比直接文档检索更精确的信息。附录 L 提供了对基于检索方法性能下降的额外分析。5.3 记忆模型大小的消融研究我们通过比较 Qwen2.5 系列中 1.5B 和 14B 参数的模型研究记忆模型的大小如何影响下游任务性能。实现细节见附录 M。表 4 中的结果显示了一致的正向扩展趋势更大的记忆模型在所有基准测试和执行模型上都带来了性能提升。然而结果也显示更强的执行模型推理能力在不同任务上对性能差距的影响不均匀记忆模型大小带来的性能差异在 NarrativeQA 上扩大但在 BrowseComp-Plus 和 MuSiQue 上缩小。这表明执行模型推理能力和记忆模型大小之间的交互是任务相关的。表 4Qwen2.5 系列中记忆模型大小的消融研究。粗体表示列中最佳结果。5.4 记忆模型家族的消融研究我们通过比较三个参数规模相似约 1-2B但架构和预训练谱系不同的模型Qwen2.5-1.5B-Instruct [67]、Gemma3-1B-IT [76] 和 LFM2.5-1.2B-Instruct [77]研究记忆模型家族的选择是否影响性能。实现细节见附录 N。表 5 中的结果表明记忆模型的性能在很大程度上对记忆模型的架构选择具有鲁棒性表明该框架在相似参数规模下对记忆模型的具体预训练谱系不敏感并且由我们的训练程序诱导的参数化知识压缩可推广到不同的模型家族。表 5在相似参数规模约 1-2B下不同记忆模型的消融研究。粗体表示列中最佳结果。5.5 通过模型合并实现持续整合方法累积计算量 (8×H100 GPU-h)Qwen2.5-32B-I Acc. (%)Gemini-3-F Acc. (%)完整重新训练 (X(XY))≈ 72h26.85 ± 0.3953.58Merge-TIES (ρ0.3, XY)≈ 48h15.81 ± 0.39 (↓ 11.04)34.47 ± 0.58 (↓ 19.11)6. 结论我们提出了 MEMO一个模块化框架用于通过在一个合成的反思问答数据集上训练的记忆模型将更新或特定领域的知识整合到大语言模型中。MEMO 解决了现有方法的关键局限性它绕过了基于检索方法中的上下文限制和有限的跨文档推理能力避免了昂贵且脆弱的参数更新包括灾难性遗忘并消除了潜在记忆方法中的表示耦合。其核心组件是一个捕捉显式事实和隐式关系的数据合成流程以及一个将复杂查询分解为定向子查询以从记忆模型检索所需信息的多轮推理协议。虽然 MEMO 展现了强劲的性能但它在训练成本、评估范围以及记忆模型随语料库规模扩展的能力方面存在局限性见附录 B。实证表明MEMO 在不同基准测试上优于强基线。它还为知识整合提供了一条可扩展的路径支持高效更新并可与开源和专有闭源大语言模型进行即插即用部署。未来的工作包括更高效的内存构建、对动态语料库的扩展以及执行模型和记忆模型之间更紧密的协调。我们将 MEMOMemory as a Model视为构建更灵活、可更新且具有知识意识的 AI 系统的一个有前景的基础。附录A. 影响声明MEMO 提升了大语言模型在大型、特定领域语料库上内化知识的能力而无需访问模型权重降低了在法律、医学和科学研究等知识密集型领域部署有能力的 AI 系统的门槛。通过支持与任何大语言模型包括专有模型的即插即用集成MEMO 使强大的知识整合能力大众化而这些能力原本需要大量计算资源或白盒模型访问。同时这种可访问性引入了双重用途的担忧因为使有益应用成为可能的相同能力也可能被用于大规模内化错误信息、未经授权的专有数据或有害内容。此外由于 MEMO 减少了对显式检索的依赖它可能会掩盖检索信息的来源使得归因于模型响应背后的源文档变得更加困难。我们鼓励未来的工作研究基于记忆的系统的归因机制和访问控制并敦促从业者仔细考虑用于训练记忆模型的文档的性质。B. 局限性MEMO 为每个新语料库引入了预先的训练成本并且性能可能因领域、文档类型或我们实验范围之外的大语言模型家族而异。此外MEMO 的性能本质上受到记忆模型内化目标语料库的表征能力的限制。尽管我们的实验没有显示出记忆模型已达到其容量极限的明确迹象但我们假设足够大或信息密度高的语料库将超出固定大小记忆模型所能正确压缩和表征的范围。C. 未来工作我们概述了未来工作的几个方向。数据生成流程计算成本高昂算法 1 中的步骤 5 以 O(k⋅C2⋅Q2) 的规模呈二次方增长降低此成本仍是一个未解决的问题。对分块策略及其相关权衡的系统评估附录 D同样是一个开放方向。在训练方面使记忆模型随语料库规模扩展以及开发更有效的模型合并策略以降低每语料库训练成本第 5.5 节是有前景的方向。其他后训练方法如强化学习 [79]也已被证明能有效提升模型任务性能 [80]将这些方法应用于记忆模型训练值得未来研究。更适合特定架构的 LoRA 配置包括针对架构调整秩和学习率也值得进一步研究附录 O。最后更系统地研究执行模型推理能力与记忆模型大小之间的交互第 5.3 节以及每个阶段的最佳交互预算和执行模型选择附录 J.2是其他有前景的未来工作方向。
MEMO: Memory as a Model——将记忆作为一种模型
《MEMO: Memory as a Model》的核心研究内容是提出一种名为 MEMO 的模块化框架通过将外部知识训练成一个独立的“记忆模型”使大语言模型能够在不修改自身参数、不依赖检索索引的情况下高效、鲁棒地整合新知识并支持与任意大语言模型包括闭源模型即插即用。下面从五个方面进行全面总结一、研究背景与问题问题大语言模型训练后长期冻结无法及时更新知识。重新训练成本极高现有方法检索增强、微调、潜在记忆各有缺陷检索方法受上下文窗口限制难以处理跨文档关系且对检索噪声敏感。微调方法计算昂贵易发生灾难性遗忘且不适用于闭源模型。潜在记忆方法表示与特定模型耦合不可迁移。二、MEMO 框架核心设计MEMO 将系统分为两个部分记忆模型一个小型、可训练的语言模型专门用于内化新语料库中的知识。执行模型原有的冻结大语言模型负责推理和回答用户问题可以任意替换。关键创新点反思问答数据合成流程使用一个“生成器模型”将原始文档语料库通过五个步骤事实提取、事实合并、实体显化、验证、跨文档合成转化为“反思问答数据集”。该数据集不仅包含单文档事实更重要的是包含了跨文档关系和组合式知识这是模型能够进行复杂推理的基础。结构化多轮推理协议推理时分三个阶段与记忆模型交互基础建立执行模型将用户问题拆解为多个原子性子问题批量向记忆模型提问。实体识别根据初步答案迭代追问以唯一确定相关的关键实体。答案寻求与合成针对确认的实体进一步索取支持事实最终合成答案。这种设计使得检索成本与原始语料库大小解耦仅与记忆模型输出长度相关且对检索噪声具有鲁棒性。即插即用与持续更新记忆模型一旦训练好可以与任意执行模型甚至闭源模型如 Gemini-3-Flash搭配使用无需重训练。支持模型合并技术如 TIES来持续整合多个语料库成本远低于从头重新训练。三、实验评估基准数据集BrowseComp-Plus多跳、多文档、NarrativeQA长文档理解、MuSiQue多步推理。主要对比基线BM25、NV-Embed-V2、HippoRAG2最先进图式 RAG、Cartridges。主要结果性能优越在 NarrativeQA 和 MuSiQue 上MEMO 显著超越所有基线在 BrowseComp-Plus 上达到与最先进 RAG 相当的水平。鲁棒性强在检索噪声增加时基于 RAG 的方法性能明显下降而 MEMO 的性能几乎不受影响。即插即用有效更换更强的执行模型Qwen2.5-32B → Gemini-3-FlashMEMO 性能同步大幅提升证明其通用性。模型合并高效与完整重训练相比模型合并可节省约 33% 的计算成本且合并后的模型性能仍优于所有检索基线。四、优势总结方法冻结基础模型无检索索引黑盒兼容无灾难性遗忘恒定大小记忆跨模型可迁移RAG✓×✓✓×✓微调×✓××✓×潜在记忆✓✓×✓××MEMO本文✓✓✓✓✓✓五、结论与展望结论MEMO 成功将“记忆”建模为一个独立的模型在保持大语言模型灵活性和低成本的同时实现了高效、鲁棒、可扩展的知识整合。它尤其适用于需要频繁更新或引入特定领域知识的场景如医疗、法律、科研并且对闭源商业模型友好。局限与未来工作数据合成阶段特别是跨文档合成计算成本仍较高。记忆模型容量存在理论上限无法无限压缩超大规模语料库。未来可探索更高效的数据生成、记忆模型与执行模型的深度协同以及应用于动态语料库。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要大语言模型在广泛任务上表现出强大性能但在预训练后直至后续更新之前其参数保持冻结。许多实际应用需要及时、特定领域的信息这促使我们需要高效的机制来整合新知识。本文提出 MEMOMemory as a Model一个模块化框架它将新知识编码到一个专用的记忆模型中同时保持大语言模型参数不变。与现有方法相比MEMO 具有以下优势(a) 能够捕捉复杂的跨文档关系(b) 对检索噪声具有鲁棒性(c) 避免了大语言模型的灾难性遗忘(d) 无需访问大语言模型的权重或输出 logits支持与开源和专有闭源大语言模型的即插即用集成(e) 推理时其检索成本与语料库规模无关。我们在三个基准测试BrowseComp-Plus、NarrativeQA 和 MuSiQue上的实验结果表明与现有方法相比MEMO 在不同设置下均取得了强劲的性能。1. 引言大语言模型已在多种任务上展现出卓越的能力 [1–3]。尽管取得了成功这些模型在预训练后实质上会长时间冻结 [4]直到后续更新导致其预训练知识随着世界的发展而逐渐过时。对于需要最新 [5, 6] 或特定领域 [7, 8] 知识的应用这种对静态知识的依赖构成了一个根本性的架构限制 [9, 10]。重新训练是一个自然的解决方案但在现代模型规模下成本高得令人望而却步 [11]这促使我们需要一种有效的机制将新的外部知识整合到大语言模型中而无需完全重新训练。现有将新知识整合到大语言模型的方法分为三类。①非参数方法在推理时通过词汇 [12]、稠密 [13] 或基于图的检索器 [14–17] 从外部存储中检索相关信息然后通过上下文学习 [18, 19] 将其整合。然而这些方法受到有限上下文窗口的约束并且当相关信息分布在多个文档中时难以综合跨文档关系 [20, 21]。②参数化方法通过直接在目标语料库上进行持续预训练 [22] 或微调 [23–25]将知识内化到模型参数中。虽然有效但它们在计算上昂贵容易发生灾难性遗忘 [26]并且倾向于记忆训练分布而非获得可迁移的知识限制了对未见查询的泛化能力 [27]。③潜在记忆方法[28–31] 将知识压缩到软 token 或其他特定于模型的表示中但存在表示耦合问题记忆与用于生成这些表示的特定模型紧密绑定限制了跨大语言模型的可迁移性。我们提出 MEMOMemory as a Model一个模块化框架。在该框架中一个专用的记忆模型在新知识上进行训练一个执行模型在推理时通过定向子查询从记忆模型中检索相关信息然后对检索到的信息进行推理以响应用户查询。MEMO 结合了上述三种范式的互补优势同时减轻了它们各自的局限性。与非参数方法一样它通过将记忆与推理模型分离能够原样利用现成的前沿模型它与参数化方法一样能够将知识内化到模型参数中它与潜在记忆方法一样拥有紧凑、可查询的记忆工件的优势。因此MEMO 提供了以下优势(a) 捕捉复杂的跨文档关系(b) 对检索噪声具有鲁棒性(c) 通过保持执行模型参数不变来避免灾难性遗忘(d) 无需访问执行模型的权重或输出 logits支持与开源和专有大语言模型的即插即用集成(e) 由于记忆模型大小固定推理时其检索成本与语料库规模无关。然而设计 MEMO 使其在训练期间全面捕捉跨文档关系同时在推理时准确回答任意查询引入了两个关键挑战我们将在下文中概述并通过新方法加以解决。①训练记忆模型。记忆模型的一个核心挑战是确保它能在推理时准确回答各种未见过的查询包括那些需要跨文档推理和长上下文理解的查询。一种自然的方法是使用标准数据增强技术如释义 [32–34]、对生成的问答对进行额外采样 [35, 36] 或定向的空白填充 [37, 38]直接在原始语料库上训练。然而这些方法未能将相关事实整合成对未见查询进行鲁棒泛化所必需的组合式表示 [27]。基于此挑战我们设计了一个新颖的五步数据合成流程该流程由一个生成器模型驱动第 4.1 节将语料库提炼成一个反思问答数据集即在多样化查询变体下暴露底层语料库知识的组合式表示图 1左所示详见第 4.1 节。我们通过有监督微调在合成的反思问答数据集上训练记忆模型见第 4.2 节使记忆模型能够比基于检索的方法捕捉更复杂的跨文档关系和组合结构。②查询记忆模型。在推理时复杂或组合式的查询通常需要多步推理和跨多个文档的信息聚合。通过单轮或无结构的多轮交互直接查询记忆模型无法可靠地检索回答此类查询所需的知识。为解决这个问题我们设计了一个三阶段推理流程其中执行模型通过结构化的多轮协议查询并从记忆模型检索信息将复杂的用户查询分解为与共享反思接口对齐的定向子查询图 1右所示更多细节见第 4.4 节。与基于检索的方法不同此方法的检索成本与语料库规模无关并且对检索噪声具有鲁棒性见第 5.2 节。至关重要的是由于 MEMO 将执行模型视为黑盒并且不访问其权重、梯度或输出 logits它支持与任何大语言模型包括开源和专有的闭源模型进行即插即用集成。我们的方法遵循一个单一的设计原则反思即从语料库派生的、不需要知道未来查询的结构然而它们自然成为任何查询访问底层语料库而无需直接观察语料库的精确接口。在训练期间记忆模型内化这些反思执行模型在推理时通过定向子查询检索相关知识。基于上述挑战及为应对这些挑战而提出的方法我们总结了本文的主要贡献如下新颖的数据合成流程。我们提出了一个五步数据合成流程使用生成器模型一个可能与执行模型相同或更小的大语言模型将目标语料库提炼成反思使专用的记忆模型能够以组合形式内化知识从而捕捉更复杂的跨文档关系并在推理时对多样化的未见查询变体进行鲁棒泛化见第 4.1 和 4.2 节。结构化的多轮协议。我们引入了一个结构化的多轮协议系统地将复杂查询分解为与共享反思接口对齐的定向子查询。该协议支持与任意大语言模型包括专有闭源大语言模型的即插即用集成并且检索成本与语料库规模无关见第 4.4 节。实证验证。我们在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上评估了 MEMO证明了其相对于参数化和非参数化基线的强劲性能。我们还实证验证了 MEMO 对检索噪声的鲁棒性见第 5 节。2. 相关工作非参数方法。非参数替代方法 [12, 13, 17] 完全避免参数更新而是在推理时提供新知识。特别是上下文学习 [18, 19] 将相关知识直接插入提示中避免了灾难性遗忘。然而上下文学习随着上下文长度的增加扩展性差自回归生成的计算成本 [39] 随着知识库的增长导致大量的 token 开销和推理延迟 [40]即使是明确支持长上下文的模型其性能也会随着上下文长度的增加而显著下降 [41, 42]。检索增强生成 [14-17] 通过在推理时选择性地检索相关知识块来解决这个可扩展性瓶颈。然而RAG 系统对检索噪声高度敏感 [43]不相关或误导性的段落会严重降低生成质量 [44, 45]。此外RAG 系统通常难以对复杂的跨文档依赖关系进行推理 [20]因为它们缺乏综合分布在多个块或大型语料库中的信息的鲁棒机制 [21]。参数化方法。现有的后训练方法例如在新语料库上进行持续预训练 [22, 46] 或在精心策划的指令数据上进行有监督微调 [23-25]试图通过在后训练期间将新知识纳入大语言模型来克服这一限制。虽然概念上直接但这些参数化方法常常遭受灾难性遗忘即适应新观察到的知识会损害先前获得的知识、学到的能力 [26, 47, 48] 以及在大语言模型后训练期间学到的安全对齐 [49]。此外现代大语言模型的规模使得频繁微调在计算上昂贵 [50, 51]而且对于专有的闭源模型微调通常是不可行的 [52]这极大地限制了参数化方法在现实世界大规模应用中的实用性。潜在记忆方法。存储知识的另一种方法是通过压缩的潜在表示它介于非参数检索和完全参数化方法之间。上下文压缩技术如 AutoCompressor [28]、Gist tokens [29] 和 ICAE [30]将知识编码为紧凑的软 token在推理时前置在不丢弃信息的情况下减少上下文学习的 token 开销。然而这些表示与编码器紧密耦合不能被其他模型家族使用限制了与黑盒大语言模型的兼容性。类似地表 1 比较了不同记忆范式所期望的属性表明 MEMO 通过其模块化记忆构建和记忆增强推理满足了这些属性。表 1不同记忆范式下期望属性的比较表明 MEMO 通过其模块化记忆构建和记忆增强推理满足了这些属性。3. 预备知识4. MEMO将记忆作为一种模型4.1 数据合成流程4.2 训练记忆模型4.3 流式更新与模型合并4.4 推理通过结构化多轮协议查询记忆模型在推理时给定的查询 q 可能复杂需要多步推理和跨多个文档的信息聚合。我们设计了一个三阶段推理流程其中执行模型通过结构化的多轮协议查询记忆模型。每个阶段使用不同的提示、采样温度和独立预算来控制执行模型和记忆模型之间的交互次数。5. 实验数据集。我们在三个知识密集型基准上评估 MEMO。BrowseComp-Plus[61] 是一个深度研究基准需要多跳、多文档检索和推理我们使用 LangDetect [62] 过滤非英语实例采样 300 个问题并为每个问题的证据文档配相同数量的负文档总计 3,541 个文档。NarrativeQA[63] 测试对长文档如书籍和电影剧本的话语理解我们使用 100000 个文档中的 293 个问题。MuSiQue[64] 需要跨多个维基百科段落组合 2-4 个推理步骤我们使用 1,000 个问题并按照与 BrowseComp-Plus 相同的程序构建目标语料库得到 5,296 个文档。更多细节见附录 D数据集和代码在补充材料中。基线。我们将 MEMO 与四个基线进行比较BM25 [12]词汇检索NV-Embed-V2 [13]稠密检索HippoRAG2 [17]基于图的 RAG最先进以及 Cartridges [65]一个在推理时加载到执行模型上的训练好的 KV 缓存最接近 MEMO 的现有参数化基线。存在较新的方法 [28, 66]但通常需要白盒访问执行模型因此不能直接比较。我们另外包括完美检索作为一个经验上界其中执行模型在上下文中仅接收证据文档 [18]。检索基线使用 top-k9 并采用自适应退避逐步减小 k 直到检索到的上下文适合执行模型的上下文窗口。实现与评估。(a)数据生成。我们使用 Qwen2.5-32B-Instruct [67] 作为生成器模型通过 vLLM [68] 提供服务并启用 YaRN RoPE 缩放 [69, 70] 以在长上下文生成期间支持 131K token 的上下文窗口。(b)训练。我们训练记忆模型从 Qwen2.5-14B-Instruct 初始化使用融合 AdamW [71] 和 DeepSpeed 2 [72]学习率为 2×10−5共 3 个 epoch完整超参数见附录 F。(c)评估。我们使用 Qwen2.5-32B-Instruct 或 Gemini-3-Flash [73] 实例化执行模型以评估同一训练好的记忆模型在不同推理能力模型上的表现这两个模型对评估数据集的先验知识极少附录 I。执行模型通过第 4.4 节描述的多轮协议查询记忆模型。我们报告由 Gemini-2.5-Flash-Lite [74] 通过 DeepEval [75] 判断的二分类准确率对于 Qwen2.5-32B-Instruct 为三次运行的平均值±标准差对于 Gemini-3.0-Flash 为单次运行结果。(d)持续整合。对于模型合并实验第 5.5 节我们将 NarrativeQA 划分为两个成对不相交的子集K2每个约 640k QA 对在每个子集上分别 SFT 一个独立的 Qwen2.5-14B-Instruct 记忆模型并在三种密度下遍历六种合并方法共 14 种配置。5.1 实验结果MEMO 在基准测试中取得强劲性能。如表 2 所示在 NarrativeQA 和 MuSiQue 上MEMO 在使用两种执行模型时均持续优于所有基线。在最具挑战性的基准 NarrativeQA 上附录 IMEMO 使用 Qwen2.5-32B-Instruct 达到 26.85%使用 Gemini-3-Flash 达到 53.58%大幅超越所有基线。这值得注意NarrativeQA 需要对长段落进行推理并处理复杂的连接而基于检索的方法受上下文窗口限制难以跨长文档综合信息相比之下MEMO 通过训练期间的反思捕捉这些连接并在推理时通过其多轮协议检索它们。同样的趋势在 MuSiQue 上得以延续MEMO 分别达到 48.30% 和 58.70%优于那些在独立检索的段落中进行多跳推理时遇到困难的基线。在 BrowseComp-Plus 上MEMO 使用 Gemini-3-Flash 领先 (66.67%)使用 Qwen2.5-32B-Instruct 仍具竞争力 (54.22%)略低于 HippoRAG2 的 56.11%。这一差距反映了 BrowseComp-Plus 的特性其答案不存在于执行模型的参数化知识中附录 I使得直接访问证据文档特别有价值因此有利于将原始文档传递给执行模型的检索方法。表 2在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上使用两种执行模型Qwen2.5-32B-Instruct (Qwen2.5-32B-I) 和 Gemini-3-Flash (Gemini-3-F)的准确率 (%)。粗体表示每列最佳结果不包括完美检索。MEMO 使用 Qwen2.5-14B-Instruct 作为记忆模型结果取最佳训练 epoch。*完美检索代表经验上界。MEMO 支持即插即用集成。在三个基准测试中当与能力更强的执行模型Gemini-3-Flash配对时MEMO 持续获得更高的性能从 Qwen2.5-32B-Instruct 切换到 Gemini-3-Flash在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上分别带来了 12.45%、26.73% 和 11.90% 的提升。这表明 MEMO 可以用较弱的生成器模型训练一次然后在推理时无缝地与任何大语言模型包括像 Gemini-3-Flash 这样的专有模型配对。这种即插即用能力使得 MEMO 能够直接利用最先进的模型而无需任何额外的训练或开销。5.2 数据集噪声量的消融研究方法数据集0 × N Acc. (%)1 × N Acc. (%)ΔNV-Embed-V2BrowseComp-Plus56.89 ± 0.5150.67 ± 0.33↓ 6.22NV-Embed-V2MuSiQue42.30 ± 0.5337.47 ± 0.15↓ 4.83HippoRAG2BrowseComp-Plus62.33 ± 1.1556.11 ± 0.51↓ 6.22HippoRAG2MuSiQue47.33 ± 0.7442.17 ± 0.12↓ 5.16MEMOBrowseComp-Plus53.67 ± 1.1554.22 ± 0.84↑ 0.55MEMOMuSiQue50.07 ± 0.8148.30 ± 1.25↓ 1.77表 3 中的结果表明基于检索的方法对噪声表现出明显的敏感性。当从 0×N 扩展到 1×N 时NV-Embed-V2 和 HippoRAG2 在 BrowseComp-Plus 上均下降高达 6.22%在 MuSiQue 上分别下降高达 4.83% 和 5.16%证实了这些系统在现实语料库条件下难以过滤不相关文档。相比之下MEMO 在两个基准测试中均保持稳定的性能在 BrowseComp-Plus 上略有提升 0.55%在 MuSiQue 上仅下降 1.77%两者都在一个标准差之内这表明 MEMO 对增加的检索噪声具有鲁棒性。我们将这种鲁棒性归因于 MEMO 的设计尽管在包含负文档的语料库上训练但记忆模型向执行模型的子查询提供了比直接文档检索更精确的信息。附录 L 提供了对基于检索方法性能下降的额外分析。5.3 记忆模型大小的消融研究我们通过比较 Qwen2.5 系列中 1.5B 和 14B 参数的模型研究记忆模型的大小如何影响下游任务性能。实现细节见附录 M。表 4 中的结果显示了一致的正向扩展趋势更大的记忆模型在所有基准测试和执行模型上都带来了性能提升。然而结果也显示更强的执行模型推理能力在不同任务上对性能差距的影响不均匀记忆模型大小带来的性能差异在 NarrativeQA 上扩大但在 BrowseComp-Plus 和 MuSiQue 上缩小。这表明执行模型推理能力和记忆模型大小之间的交互是任务相关的。表 4Qwen2.5 系列中记忆模型大小的消融研究。粗体表示列中最佳结果。5.4 记忆模型家族的消融研究我们通过比较三个参数规模相似约 1-2B但架构和预训练谱系不同的模型Qwen2.5-1.5B-Instruct [67]、Gemma3-1B-IT [76] 和 LFM2.5-1.2B-Instruct [77]研究记忆模型家族的选择是否影响性能。实现细节见附录 N。表 5 中的结果表明记忆模型的性能在很大程度上对记忆模型的架构选择具有鲁棒性表明该框架在相似参数规模下对记忆模型的具体预训练谱系不敏感并且由我们的训练程序诱导的参数化知识压缩可推广到不同的模型家族。表 5在相似参数规模约 1-2B下不同记忆模型的消融研究。粗体表示列中最佳结果。5.5 通过模型合并实现持续整合方法累积计算量 (8×H100 GPU-h)Qwen2.5-32B-I Acc. (%)Gemini-3-F Acc. (%)完整重新训练 (X(XY))≈ 72h26.85 ± 0.3953.58Merge-TIES (ρ0.3, XY)≈ 48h15.81 ± 0.39 (↓ 11.04)34.47 ± 0.58 (↓ 19.11)6. 结论我们提出了 MEMO一个模块化框架用于通过在一个合成的反思问答数据集上训练的记忆模型将更新或特定领域的知识整合到大语言模型中。MEMO 解决了现有方法的关键局限性它绕过了基于检索方法中的上下文限制和有限的跨文档推理能力避免了昂贵且脆弱的参数更新包括灾难性遗忘并消除了潜在记忆方法中的表示耦合。其核心组件是一个捕捉显式事实和隐式关系的数据合成流程以及一个将复杂查询分解为定向子查询以从记忆模型检索所需信息的多轮推理协议。虽然 MEMO 展现了强劲的性能但它在训练成本、评估范围以及记忆模型随语料库规模扩展的能力方面存在局限性见附录 B。实证表明MEMO 在不同基准测试上优于强基线。它还为知识整合提供了一条可扩展的路径支持高效更新并可与开源和专有闭源大语言模型进行即插即用部署。未来的工作包括更高效的内存构建、对动态语料库的扩展以及执行模型和记忆模型之间更紧密的协调。我们将 MEMOMemory as a Model视为构建更灵活、可更新且具有知识意识的 AI 系统的一个有前景的基础。附录A. 影响声明MEMO 提升了大语言模型在大型、特定领域语料库上内化知识的能力而无需访问模型权重降低了在法律、医学和科学研究等知识密集型领域部署有能力的 AI 系统的门槛。通过支持与任何大语言模型包括专有模型的即插即用集成MEMO 使强大的知识整合能力大众化而这些能力原本需要大量计算资源或白盒模型访问。同时这种可访问性引入了双重用途的担忧因为使有益应用成为可能的相同能力也可能被用于大规模内化错误信息、未经授权的专有数据或有害内容。此外由于 MEMO 减少了对显式检索的依赖它可能会掩盖检索信息的来源使得归因于模型响应背后的源文档变得更加困难。我们鼓励未来的工作研究基于记忆的系统的归因机制和访问控制并敦促从业者仔细考虑用于训练记忆模型的文档的性质。B. 局限性MEMO 为每个新语料库引入了预先的训练成本并且性能可能因领域、文档类型或我们实验范围之外的大语言模型家族而异。此外MEMO 的性能本质上受到记忆模型内化目标语料库的表征能力的限制。尽管我们的实验没有显示出记忆模型已达到其容量极限的明确迹象但我们假设足够大或信息密度高的语料库将超出固定大小记忆模型所能正确压缩和表征的范围。C. 未来工作我们概述了未来工作的几个方向。数据生成流程计算成本高昂算法 1 中的步骤 5 以 O(k⋅C2⋅Q2) 的规模呈二次方增长降低此成本仍是一个未解决的问题。对分块策略及其相关权衡的系统评估附录 D同样是一个开放方向。在训练方面使记忆模型随语料库规模扩展以及开发更有效的模型合并策略以降低每语料库训练成本第 5.5 节是有前景的方向。其他后训练方法如强化学习 [79]也已被证明能有效提升模型任务性能 [80]将这些方法应用于记忆模型训练值得未来研究。更适合特定架构的 LoRA 配置包括针对架构调整秩和学习率也值得进一步研究附录 O。最后更系统地研究执行模型推理能力与记忆模型大小之间的交互第 5.3 节以及每个阶段的最佳交互预算和执行模型选择附录 J.2是其他有前景的未来工作方向。