[论文学习]LLM 代理长程记忆安全调查:迈向记忆主权(Mnemonic Sovereignty)-攻击、防御与全生命週期治理框架

[论文学习]LLM 代理长程记忆安全调查:迈向记忆主权(Mnemonic Sovereignty)-攻击、防御与全生命週期治理框架 A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty (2025/2026)核心问题与动机这篇调查论文的核心问题在于当 LLM 代理LLM Agents从无状态聊天机器人演进为具备可写入、跨会话持久性长程记忆Long-Term Memory, LTM的自主系统时其安全威胁景观发生了质的改变。传统 LLM 安全研究多聚焦于参数化知识洩漏、单次提示注入Prompt Injection或 RAGRetrieval-Augmented Generation腐败但这些方法无法充分应对 LTM 引入的新特性。三个关键新特性持久性Persistence恶意内容一旦「沉淀」到长期记忆中便可在未来无数会话中被反复检索远超出单次上下文窗口的影响范围。状态性Statefulness安全分析单位从单一输入转移到代理的累积记忆状态。微妙偏差的记忆集群可能导致行为漂移Behavioral Drift而非单一条目触发安全分类器。传播性Propagation在多代理或共享状态系统中汙染可透过内部通道如代理间讯息、共享储存、工具引数扩散跨越会话、角色与使用者边界。此外论文强调非对抗性风险Benign Persistence Failures如压缩导致的记忆漂移、跨使用者汙染或记忆诱导的逢迎偏误Sycophancy这些在正常操作中也可能发生凸显记忆安全是「记忆安全」Memory Safety的超集。动机现有框架如提示防护或 RAG 缓解多限于单会话或检索阶段无法处理跨阶段依赖与长期治理。作者借鉴认知神经科学与记忆哲学人类记忆具重构性、可重整性、外部化与社会传染性将代理记忆视为「人工助记系统」Artificial Mnemonic System强调其不仅提升能力更是新型攻击面。论文旨在填补文献空白提供全生命週期视角并提出规范性框架「记忆主权Mnemonic Sovereignty」——即系统对「可写入什么、谁可读取、何时授权更新、哪些状态可被遗忘」的可验证、可恢復治理。结果/成果论文主要成果包括记忆生命週期框架Memory Lifecycle Framework沿两个轴组织分析——六个阶段Write、Store、Retrieve、Execute、Share Propagate、Forget Rollback与四个安全目标Integrity、Confidentiality、Availability、Governance。此框架揭示跨阶段攻击链如 Write 阶段植入毒化 → Retrieve 激活 → Execute 影响这是单点框架所忽略的。系统性攻击与防禦映射涵盖代表性工作2023–2026包括Write 阶段Corpus-level Poisoning如 AgentPoison、Query-induced Injection如 MINJA、Environment-injected如 eTAMP。Retrieve/ExecuteRetrieval Poisoning、Backdoor Triggers、Control-flow Hijacking。Share/PropagateCross-agent Contagion、AI Worms。Forget/RollbackResidual Derivatives、Failed Unlearning。文献显示 Write/Retrieve 完整性攻击研究丰富但 Store、Share、Forget 阶段及保密性/可用性/治理防禦相对稀疏。可验证记忆治理Verifiable Memory Governance, VMG框架提出五个架构原语Write Authorization、Provenance Visibility、Principal-Scoped Retrieval、Rollbackability、Verified Forgetting每个皆有谓词定义与评估指标。强调安全无法仅在 Retrieve/Execute 阶段「事后修补」必须从 Storage 阶段的来源追踪、版本控制与策略感知保留入手。其他贡献与现有调查比较表、架构分析指出无系统涵盖所有治理原语、LLM 作为工具的次要研究议程自动红队测试、记忆审计、遗忘验证。分析与洞见多角度分析技术角度LTM 使攻击从「瞬时劫持」转为「持久状态汙染」。例如外部内容经观察→摘要/反思→持久化→后续检索→规划执行形成长时间隙攻击链。压缩与检索机制可能放大毒化Compression Amplification。治理与规范角度引入「记忆主权」作为统一概念强调可审计性与可恢復性。借鉴人类记忆的来源监控Source Monitoring推导来源追踪需求重整窗口Reconsolidation对应读取时重写风险。治理不仅是能力加成更是未来代理竞争差异化因素。风险与边缘案例考虑多代理、组织共享记忆、跨使用者汙染等情境。无对手时的漂移风险凸显需涵盖「良性持久失败」。评估显示静态基准过度乐观需适应性 LLM 驱动红队测试。差距与启示Store/Forget 阶段防禦不足写入闸控验证与删除后验证为共同盲点缺乏全生命週期基准。扩展上下文窗口无法取代持久记忆的安全挑战。相关考量在企业部署中共享记忆可能放大隐私洩漏在自主代理中记忆漂移可能导致长期决策偏差。论文也讨论 LLM 自身用于防禦的潜力但强调需严格验证。结论论文结论主张LTM 安全是 LLM 代理安全的核心独立领域传统输入中心方法不足以应对其持久、状态性与传播特性。透过生命週期框架与 VMG 原语作者呼吁从储存阶段即建立可验证治理实现「记忆主权」。未来安全代理不仅比拼回想能力更比拼记忆治理品质。论文连结arXiv:2604.16548最新版本 v22026 年 6 月PDF 下载https://arxiv.org/pdf/2604.16548