Are We Ready For An Agent-Native Memory System?作者Wei Zhou, Xuanhe Zhou, Shaokun Han, Hongming Xu, Guoliang Li, Zhiyu Li, Feiyu Xiong, Fan Wu核心发表机构Shanghai Jiao Tong University、Tsinghua University、MemTensor (Shanghai) Technology Co., Ltd论文链接arXiv:2606.24775v1发布于arXiv 预印本cs.CL一、核心贡献 / Core Contributions提出一个从数据管理视角分析LLM Agent记忆系统的四模块框架记忆表示与存储、记忆提取、记忆检索与路由、记忆维护。该框架将记忆系统解耦支持细粒度模块级评估。在统一实验平台上对12个代表性记忆系统和2个参考基线长上下文、Embedding RAG进行系统的端到端评估覆盖5个基准工作负载11个数据集从任务有效性、检索保真度、动态更新鲁棒性、长周期稳定性和操作成本五个维度全面衡量。通过细粒度模块消融实验量化了不同表示粒度、提取策略、检索路由和维护方案对表示保真度、检索精度、更新正确性和长程稳定性的个体影响。揭示了关键系统级发现没有单一架构在所有场景占优有效性取决于记忆结构与工作负载瓶颈的对齐程度局部维护比全局重组在成本-效用上更优显式结构图/层级在证据分散或时间距离远时最有价值。公开了完整代码https://github.com/OpenDataBox/MemoryData为后续Agent原生记忆系统的研究与工程实践提供了可复现的基准平台。二、研究背景与动机 / Background Motivation大语言模型LLMAgent的记忆机制已从简单的检索增强机制如RAG演化为支持持久存储、检索、更新、合并及动态生命周期治理的数据管理系统。然而现有评估仍主要采用端到端任务成功率如F1、BLEU将底层记忆系统视为不可拆分的黑盒。这种做法忽视了操作成本、模块间架构权衡、动态知识更新下的鲁棒性等关键系统级问题。例如不同记忆系统的工作流差异显著包括流式处理、分层摘要、知识图谱构建和复合混合架构图1。同时现有基准测试如LoCoMo、LongMemEval未能覆盖所有代表性架构依赖单一成功指标且忽略索引构建时间、查询延迟等成本指标。初步性能概览图2显示不同方法在多个指标上差异巨大但缺乏系统级解释。因此本文从数据管理视角出发系统评估现有Agent记忆系统旨在回答我们是否真正准备好构建“Agent原生”的记忆系统研究动机源于学术界和工业界对持久化、可更新、成本可控的记忆基础设施的迫切需求。三、方法 / Methodology3.1 总体框架 / Overall Architecture本文将Agent记忆系统M s y s \mathcal{M}_{sys}Msys分解为四个核心模块M s y s ⟨ R , S , Q , U ⟩ \mathcal{M}_{sys} \langle \mathcal{R}, \mathcal{S}, \mathcal{Q}, \mathcal{U} \rangleMsys⟨R,S,Q,U⟩其中R \mathcal{R}R为记忆表示与存储S \mathcal{S}S为记忆提取Q \mathcal{Q}Q为记忆检索与路由U \mathcal{U}U为记忆维护。该框架允许对每个模块独立分析而非仅关注端到端输出。基于该框架论文将现有系统归类为三类顺序上下文如MemoChat、Mem0、结构化拓扑如MemTree、Zep、Cognee和多范式混合如LightMem、SimpleMem、A-MEM、Letta。3.2 关键模块 / Key Modules记忆表示与存储Memory Representation and Storage定义信息的逻辑结构和物理存储方式。逻辑表示分为Token级序列、图与树拓扑、异构复合三种。物理存储包括瞬态上下文寄存器、专用单引擎存储向量、图、关系、文件和异构多引擎存储如SimpleMem的LanceDB同时支持稠密、稀疏BM25和SQL。不同表示方法如图3所示。存储方法如图4所示反映了从纯内存到多后端融合的多样性。记忆提取Memory Extraction将原始交互对话、工具日志转换为逻辑记忆原语。分为原始序列拼接、无模式语义提取如Mem0提取离散事实、模式约束结构化提取如Zep提取三元组MemoChat进行JSON主题分割。提取方法如图5。记忆检索与路由Memory Retrieval and Routing动态识别和提取相关历史上下文。方法包括原生注意力检索、语义稠密检索、拓扑子图遍历、自主智能体路由LLM规划查询和多阶段混合执行。如图6所示。记忆维护Memory Maintenance管理记忆条目的生命周期包括基于时间戳的多版本管理、容量驱动的物理驱逐、LLM驱动的语义整合合并、压缩以及连续参数优化。维护策略如图7。四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics论文使用五个基准工作负载涵盖11个数据集LoCoMo长对话QA评估情景、时序和开放域记忆指标为Exact Match (EM)和Answer F1。LongMemEval来自MemoryAgentBench多会话长记忆评估跨会话事实连接和时序推理指标包括Substring EM、ROUGE-L F1、ROUGE-L Recall和LLM Judge Accuracy。DB-Bench来自LifelongAgentBench评估记忆对数据库操作序列执行的支撑指标为EM和Task Success Rate。LongBench长上下文理解按Short/Medium/Long桶报告Accuracy。额外使用LoCoMo和LongMemEval的特定切片评估检索保真度RQ2、更新鲁棒性RQ3和长程稳定性RQ4。4.2 主实验结果 / Main ResultsRQ1任务有效性。端到端评估显示没有单一系统在所有工作负载占优。在LoCoMo上MemOS取得最高EM11.5在LongMemEval上Zep的LLM Judge Accuracy达到48.0Cognee的ROUGE-L F1为35.3在DB-Bench上Long Context取得最高EM48.20MemoChat取得最高Task Success Rate55.40。图8展示了各系统在LoCoMo上的有效性对比凸显了结构引导过滤方法的竞争力。RQ2检索保真度。在LoCoMo上A-MEM和MemTree在大检索预算下表现突出A-MEM的Recall10为85.9MemTree为80.5而扁平Embedding RAG仅17.7。图9显示检索保真度随证据距离的变化显式结构链接、层级在远距离检索中保持稳定。RQ3动态更新鲁棒性。图/关系组织记忆在知识更新上最强Zep在LongMemEval的Knowledge Update切片上取得Substr. EM 44.4Cognee在Temporal Reasoning切片上取得Substr. EM 18.7。MemOS在LoCoMo更新切片上EM最高8.9。骨干鲁棒性消融图10表明有效记忆管线的排序受骨干变化影响小MemOS在所有四个骨干下保持最强Answer F1。RQ4长程稳定性。SimpleMem从Short到Medium上下文准确性几乎不变35.2→34.9而Long Context从42.6降至19.0。图11展示了LongBench上的上下文长度鲁棒性显式关系链接Cognee、Zep和粗到细摘要MemOS、MemoryOS在远距离证据上表现更佳。RQ5操作成本。LightMem在平均操作延迟3.67秒时达到48.3归一化效用MemTree在15.9秒时达到63.5而Cognee和Zep需超过100秒才能达到84以上效用。图12展示了Utility-Latency前沿局部维护LightMem、MemTree提供最佳成本-效用平衡。4.3 消融实验 / Ablation Study表示粒度M1LightMem的User-Only Raw保留原始会话在LoCoMo上EM 24.2、Answer F1 38.9优于压缩和摘要版本User-Only Summary显著下降。层级MemTree更深树仅带来微小增益。提取策略M2MemOS的Fast Memorize写时保留更广在LoCoMo上EM 25.5、Answer F1 40.8远超Fine MemorizeEM 2.5。MemoChat启发式主题分割优于LLM主题分割。Hybrid Raw保留用户助手略优于User-Only Raw。检索路由M3A-MEM的Hybrid-Balanced达到最佳Answer F1 24.6、Substr. EM 27.5优于稀疏倾向变体。SimpleMem的Planning Only在多项指标上达到最优表明显式规划比简单检索更能提升效果。维护策略M4图13展示了不同维护策略的效果对比。保守的记忆巩固如LightMem的只追加维持在多数场景下优于激进的重组延迟刷新会导致可答性和覆盖率之间的欺骗性权衡。局部维护如基于有界子集的更新比全局重组更经济且稳定。五、相关工作 / Related Work现有Agent记忆评估主要将记忆视为整体黑盒使用端到端任务成功率F1、BLEU衡量忽略了操作成本、模块间权衡等系统级维度。数据库社区的相关工作如wu2026memoryeab局限于少数以聊天机器人为中心的数据集未涵盖复杂代理执行场景。而本文从数据管理视角出发解耦记忆系统为四个模块在涵盖多范式流、分层、图、复合混合的12个系统和2个基线上进行横向对比补充了系统级指标延迟、吞吐量、索引维护成本和细粒度组件分析。此外本文区别于RAGRAG是无状态、只读的检索基元而Agent记忆系统是持久的、可更新的基础设施涉及完整的生命周期管理。六、局限性与展望 / Limitations Future Work尽管本文提供了迄今为止最全面的Agent记忆系统评估仍存在以下局限实验聚焦于预编译数据集和固定任务未充分捕捉长期运行中记忆历史从数千token增长到数百万token时的动态行为。多数仅追加存储在此过程中出现灾难性退化。现有基准多围绕聊天机器人用例构建双人对话、跨会话QA而现代Agent涉及研究、规划、多步执行和工具调用其记忆需求与对话回忆有本质差异需要记忆系统与推理循环、工具执行和路由逻辑紧密耦合。细粒度消融仅覆盖M1–M3模块M4维护模块的消融相对初步缺乏对所有维护策略的完整分解。成本-效用分析依赖特定工作负载和系统实现实际部署中的硬件、并发、网络等因素未纳入。未来方向包括设计专用于Agent记忆的存储引擎支持语义访问、动态演化模式、时序一致性引入基于成本的记忆查询优化器探索多Agent工作负载下的一致性模型将物化视图、自适应索引等经典数据库技术适配到记忆领域。七、总结 / Conclusion本文从数据管理视角系统评估了LLM Agent记忆系统提出了四模块分解框架并在12个系统2个基线上完成了覆盖5个基准的全面实验。核心结论是没有通用最优的记忆架构有效性取决于记忆结构是否对齐工作负载瓶颈。显式关系链接或层级组织在证据分散、时间距离远时最具价值而局部维护策略在成本-效用上显著优于全局重组。基于这些发现本文指出了构建真正Agent原生记忆系统的关键挑战与可能路径为该领域的研究与工程提供了定量依据和开源基准平台。原文摘要:Memory for large language model (LLM) agents has rapidly evolved from simple retrieval-augmented mechanisms into a data management system that supports persistent information storage, retrieval, update, consolidation, and dynamic lifecycle governance throughout agent execution. Despite this evolution, existing evaluations still benchmark agent memory mainly through end-to-end task success metrics (e.g., F1, BLEU), while treating the underlying system as a monolithic black box. As a result, critical system-level concerns, including operational costs, architectural trade-offs across memory modules, and robustness under dynamic knowledge updates, remain insufficiently explored. In this paper, we present a systematic experimental study of agent memory from a data management perspective. We propose an analytical framework that decomposes agent memory into four core modules: memory representation and storage, extraction, retrieval and routing, and maintenance. Under this framework, we evaluate 12 representative memory systems and two reference baselines across five benchmark workloads spanning 11 datasets. Our extensive end-to-end evaluation shows that no single architecture dominates across all scenarios; instead, effectiveness depends heavily on how well the memory structure aligns with the workload bottleneck. Furthermore, through fine-grained ablation studies, we quantify their individual effects on representation fidelity, retrieval precision, update correctness, and long-horizon stability. Finally, we reveal cost-performance trade-offs under realistic workloads, showing localized maintenance is more cost-efficient than global reorganization. Based on these findings, we identify promising directions towards building truly agent-native memory systems. The code is publicly available at https://github.com/OpenDataBox/MemoryData.PDF链接:https://arxiv.org/pdf/2606.24775v1部分平台可能图片显示异常请以我的博客内容为准
Are We Ready for Agent-Native Memory? 清华上交联合评估
Are We Ready For An Agent-Native Memory System?作者Wei Zhou, Xuanhe Zhou, Shaokun Han, Hongming Xu, Guoliang Li, Zhiyu Li, Feiyu Xiong, Fan Wu核心发表机构Shanghai Jiao Tong University、Tsinghua University、MemTensor (Shanghai) Technology Co., Ltd论文链接arXiv:2606.24775v1发布于arXiv 预印本cs.CL一、核心贡献 / Core Contributions提出一个从数据管理视角分析LLM Agent记忆系统的四模块框架记忆表示与存储、记忆提取、记忆检索与路由、记忆维护。该框架将记忆系统解耦支持细粒度模块级评估。在统一实验平台上对12个代表性记忆系统和2个参考基线长上下文、Embedding RAG进行系统的端到端评估覆盖5个基准工作负载11个数据集从任务有效性、检索保真度、动态更新鲁棒性、长周期稳定性和操作成本五个维度全面衡量。通过细粒度模块消融实验量化了不同表示粒度、提取策略、检索路由和维护方案对表示保真度、检索精度、更新正确性和长程稳定性的个体影响。揭示了关键系统级发现没有单一架构在所有场景占优有效性取决于记忆结构与工作负载瓶颈的对齐程度局部维护比全局重组在成本-效用上更优显式结构图/层级在证据分散或时间距离远时最有价值。公开了完整代码https://github.com/OpenDataBox/MemoryData为后续Agent原生记忆系统的研究与工程实践提供了可复现的基准平台。二、研究背景与动机 / Background Motivation大语言模型LLMAgent的记忆机制已从简单的检索增强机制如RAG演化为支持持久存储、检索、更新、合并及动态生命周期治理的数据管理系统。然而现有评估仍主要采用端到端任务成功率如F1、BLEU将底层记忆系统视为不可拆分的黑盒。这种做法忽视了操作成本、模块间架构权衡、动态知识更新下的鲁棒性等关键系统级问题。例如不同记忆系统的工作流差异显著包括流式处理、分层摘要、知识图谱构建和复合混合架构图1。同时现有基准测试如LoCoMo、LongMemEval未能覆盖所有代表性架构依赖单一成功指标且忽略索引构建时间、查询延迟等成本指标。初步性能概览图2显示不同方法在多个指标上差异巨大但缺乏系统级解释。因此本文从数据管理视角出发系统评估现有Agent记忆系统旨在回答我们是否真正准备好构建“Agent原生”的记忆系统研究动机源于学术界和工业界对持久化、可更新、成本可控的记忆基础设施的迫切需求。三、方法 / Methodology3.1 总体框架 / Overall Architecture本文将Agent记忆系统M s y s \mathcal{M}_{sys}Msys分解为四个核心模块M s y s ⟨ R , S , Q , U ⟩ \mathcal{M}_{sys} \langle \mathcal{R}, \mathcal{S}, \mathcal{Q}, \mathcal{U} \rangleMsys⟨R,S,Q,U⟩其中R \mathcal{R}R为记忆表示与存储S \mathcal{S}S为记忆提取Q \mathcal{Q}Q为记忆检索与路由U \mathcal{U}U为记忆维护。该框架允许对每个模块独立分析而非仅关注端到端输出。基于该框架论文将现有系统归类为三类顺序上下文如MemoChat、Mem0、结构化拓扑如MemTree、Zep、Cognee和多范式混合如LightMem、SimpleMem、A-MEM、Letta。3.2 关键模块 / Key Modules记忆表示与存储Memory Representation and Storage定义信息的逻辑结构和物理存储方式。逻辑表示分为Token级序列、图与树拓扑、异构复合三种。物理存储包括瞬态上下文寄存器、专用单引擎存储向量、图、关系、文件和异构多引擎存储如SimpleMem的LanceDB同时支持稠密、稀疏BM25和SQL。不同表示方法如图3所示。存储方法如图4所示反映了从纯内存到多后端融合的多样性。记忆提取Memory Extraction将原始交互对话、工具日志转换为逻辑记忆原语。分为原始序列拼接、无模式语义提取如Mem0提取离散事实、模式约束结构化提取如Zep提取三元组MemoChat进行JSON主题分割。提取方法如图5。记忆检索与路由Memory Retrieval and Routing动态识别和提取相关历史上下文。方法包括原生注意力检索、语义稠密检索、拓扑子图遍历、自主智能体路由LLM规划查询和多阶段混合执行。如图6所示。记忆维护Memory Maintenance管理记忆条目的生命周期包括基于时间戳的多版本管理、容量驱动的物理驱逐、LLM驱动的语义整合合并、压缩以及连续参数优化。维护策略如图7。四、实验 / Experiments4.1 数据集与评估指标 / Datasets Metrics论文使用五个基准工作负载涵盖11个数据集LoCoMo长对话QA评估情景、时序和开放域记忆指标为Exact Match (EM)和Answer F1。LongMemEval来自MemoryAgentBench多会话长记忆评估跨会话事实连接和时序推理指标包括Substring EM、ROUGE-L F1、ROUGE-L Recall和LLM Judge Accuracy。DB-Bench来自LifelongAgentBench评估记忆对数据库操作序列执行的支撑指标为EM和Task Success Rate。LongBench长上下文理解按Short/Medium/Long桶报告Accuracy。额外使用LoCoMo和LongMemEval的特定切片评估检索保真度RQ2、更新鲁棒性RQ3和长程稳定性RQ4。4.2 主实验结果 / Main ResultsRQ1任务有效性。端到端评估显示没有单一系统在所有工作负载占优。在LoCoMo上MemOS取得最高EM11.5在LongMemEval上Zep的LLM Judge Accuracy达到48.0Cognee的ROUGE-L F1为35.3在DB-Bench上Long Context取得最高EM48.20MemoChat取得最高Task Success Rate55.40。图8展示了各系统在LoCoMo上的有效性对比凸显了结构引导过滤方法的竞争力。RQ2检索保真度。在LoCoMo上A-MEM和MemTree在大检索预算下表现突出A-MEM的Recall10为85.9MemTree为80.5而扁平Embedding RAG仅17.7。图9显示检索保真度随证据距离的变化显式结构链接、层级在远距离检索中保持稳定。RQ3动态更新鲁棒性。图/关系组织记忆在知识更新上最强Zep在LongMemEval的Knowledge Update切片上取得Substr. EM 44.4Cognee在Temporal Reasoning切片上取得Substr. EM 18.7。MemOS在LoCoMo更新切片上EM最高8.9。骨干鲁棒性消融图10表明有效记忆管线的排序受骨干变化影响小MemOS在所有四个骨干下保持最强Answer F1。RQ4长程稳定性。SimpleMem从Short到Medium上下文准确性几乎不变35.2→34.9而Long Context从42.6降至19.0。图11展示了LongBench上的上下文长度鲁棒性显式关系链接Cognee、Zep和粗到细摘要MemOS、MemoryOS在远距离证据上表现更佳。RQ5操作成本。LightMem在平均操作延迟3.67秒时达到48.3归一化效用MemTree在15.9秒时达到63.5而Cognee和Zep需超过100秒才能达到84以上效用。图12展示了Utility-Latency前沿局部维护LightMem、MemTree提供最佳成本-效用平衡。4.3 消融实验 / Ablation Study表示粒度M1LightMem的User-Only Raw保留原始会话在LoCoMo上EM 24.2、Answer F1 38.9优于压缩和摘要版本User-Only Summary显著下降。层级MemTree更深树仅带来微小增益。提取策略M2MemOS的Fast Memorize写时保留更广在LoCoMo上EM 25.5、Answer F1 40.8远超Fine MemorizeEM 2.5。MemoChat启发式主题分割优于LLM主题分割。Hybrid Raw保留用户助手略优于User-Only Raw。检索路由M3A-MEM的Hybrid-Balanced达到最佳Answer F1 24.6、Substr. EM 27.5优于稀疏倾向变体。SimpleMem的Planning Only在多项指标上达到最优表明显式规划比简单检索更能提升效果。维护策略M4图13展示了不同维护策略的效果对比。保守的记忆巩固如LightMem的只追加维持在多数场景下优于激进的重组延迟刷新会导致可答性和覆盖率之间的欺骗性权衡。局部维护如基于有界子集的更新比全局重组更经济且稳定。五、相关工作 / Related Work现有Agent记忆评估主要将记忆视为整体黑盒使用端到端任务成功率F1、BLEU衡量忽略了操作成本、模块间权衡等系统级维度。数据库社区的相关工作如wu2026memoryeab局限于少数以聊天机器人为中心的数据集未涵盖复杂代理执行场景。而本文从数据管理视角出发解耦记忆系统为四个模块在涵盖多范式流、分层、图、复合混合的12个系统和2个基线上进行横向对比补充了系统级指标延迟、吞吐量、索引维护成本和细粒度组件分析。此外本文区别于RAGRAG是无状态、只读的检索基元而Agent记忆系统是持久的、可更新的基础设施涉及完整的生命周期管理。六、局限性与展望 / Limitations Future Work尽管本文提供了迄今为止最全面的Agent记忆系统评估仍存在以下局限实验聚焦于预编译数据集和固定任务未充分捕捉长期运行中记忆历史从数千token增长到数百万token时的动态行为。多数仅追加存储在此过程中出现灾难性退化。现有基准多围绕聊天机器人用例构建双人对话、跨会话QA而现代Agent涉及研究、规划、多步执行和工具调用其记忆需求与对话回忆有本质差异需要记忆系统与推理循环、工具执行和路由逻辑紧密耦合。细粒度消融仅覆盖M1–M3模块M4维护模块的消融相对初步缺乏对所有维护策略的完整分解。成本-效用分析依赖特定工作负载和系统实现实际部署中的硬件、并发、网络等因素未纳入。未来方向包括设计专用于Agent记忆的存储引擎支持语义访问、动态演化模式、时序一致性引入基于成本的记忆查询优化器探索多Agent工作负载下的一致性模型将物化视图、自适应索引等经典数据库技术适配到记忆领域。七、总结 / Conclusion本文从数据管理视角系统评估了LLM Agent记忆系统提出了四模块分解框架并在12个系统2个基线上完成了覆盖5个基准的全面实验。核心结论是没有通用最优的记忆架构有效性取决于记忆结构是否对齐工作负载瓶颈。显式关系链接或层级组织在证据分散、时间距离远时最具价值而局部维护策略在成本-效用上显著优于全局重组。基于这些发现本文指出了构建真正Agent原生记忆系统的关键挑战与可能路径为该领域的研究与工程提供了定量依据和开源基准平台。原文摘要:Memory for large language model (LLM) agents has rapidly evolved from simple retrieval-augmented mechanisms into a data management system that supports persistent information storage, retrieval, update, consolidation, and dynamic lifecycle governance throughout agent execution. Despite this evolution, existing evaluations still benchmark agent memory mainly through end-to-end task success metrics (e.g., F1, BLEU), while treating the underlying system as a monolithic black box. As a result, critical system-level concerns, including operational costs, architectural trade-offs across memory modules, and robustness under dynamic knowledge updates, remain insufficiently explored. In this paper, we present a systematic experimental study of agent memory from a data management perspective. We propose an analytical framework that decomposes agent memory into four core modules: memory representation and storage, extraction, retrieval and routing, and maintenance. Under this framework, we evaluate 12 representative memory systems and two reference baselines across five benchmark workloads spanning 11 datasets. Our extensive end-to-end evaluation shows that no single architecture dominates across all scenarios; instead, effectiveness depends heavily on how well the memory structure aligns with the workload bottleneck. Furthermore, through fine-grained ablation studies, we quantify their individual effects on representation fidelity, retrieval precision, update correctness, and long-horizon stability. Finally, we reveal cost-performance trade-offs under realistic workloads, showing localized maintenance is more cost-efficient than global reorganization. Based on these findings, we identify promising directions towards building truly agent-native memory systems. The code is publicly available at https://github.com/OpenDataBox/MemoryData.PDF链接:https://arxiv.org/pdf/2606.24775v1部分平台可能图片显示异常请以我的博客内容为准