大模型 Agent 长期记忆存安全隐患,研究提出 StateGuard 防御框架

大模型 Agent 长期记忆存安全隐患,研究提出 StateGuard 防御框架 大模型 Agent 能力转变带来安全隐忧今天的大模型 Agent 已不再只是聊天机器人开始拥有长期记忆能跨会话记住用户偏好、延续任务进度还可调用邮件、日历等外部工具正从一次性任务执行器转变为持续陪伴用户的个性化协作者。但这一能力带来了隐蔽问题若 Agent 长期记住用户习惯和上下文这些记忆是否安全非预期长期状态投毒现象过去 Agent 安全研究主要关注显式攻击如恶意提示词、间接 prompt injection 等。然而在个性化 Agent 场景中风险未必来自明确攻击者。研究发现普通日常聊天即便没有黑客、恶意提示词和明显攻击也可能逐步污染个性化 Agent 的长期状态。这种风险不会在当前对话立刻爆发而是可能写入长期记忆改变未来任务中 Agent 的默认行为。研究人员将此现象定义为 Unintended Long - Term State Poisoning非预期长期状态投毒其核心是 Agent 把某次临时请求、局部偏好等错误泛化为未来长期默认规则。例如用户为赶时间说“这类小事以后不用每次都问我直接处理就行”若 Agent 将其写入长期状态未来在邮件发送等操作中可能减少确认而用户并未真正授权所有未来操作。这与传统 prompt injection 不同传统攻击假设存在明确攻击者而这里的风险来自正常日常交互也不是普通幻觉危险会跨会话保留并影响未来安全边界。个性化 Agent 长期状态的影响个性化 Agent 的长期状态包含长期记忆、核心指令等内容会影响其未来理解用户意图等行为。长期状态是 Agent 未来行为边界的一部分一旦被错误写入风险可能在未来任务中显现。ULSPB 基准测试为研究该问题研究人员构建了双语基准 ULSPBUnintended Long - Term State Poisoning Bench用于测试日常用户 - Agent 对话是否会诱发长期状态污染。ULSPB 覆盖七类长期状态漂移场景、五类日常个性化协助任务有英文与中文两种语言为每个设置构造 24 轮普通日常对话还构造了四类单次显式注入变体用于对比。实验结果与分析研究人员在 OpenClaw 个性化 Agent 环境中实验测试了 Kimi K2.5、GPT - 5.4、MiniMax M2.7 和 Grok 4.20 四个不同的 Agent backbone。设计了状态中心指标 Harm ScoreHS衡量长期状态污染程度HS 关注授权确认边界、工具调用权限范围和 Agent 自主执行程度三个维度。结果显示显式单次注入通常带来更高的 HS但普通日常对话也能诱发明显的长期状态污染部分模型上日常对话造成的风险接近显式注入。进一步分析表明风险主要集中在和记忆高度相关的状态文件中如 MEMORY.md 和 memory/ 等区域。真实用户聊天数据测试也显示真实种子构造的日常对话虽 HS 低于合成的 ULSPB routine conversations但仍会在所有测试模型上诱发不可忽视的长期状态风险。StateGuard 防御框架基于此研究人员提出轻量级防御方法 StateGuard在 Agent 准备把新内容写入长期状态之前对状态 diff 进行审计。其流程为Agent 完成一轮交互生成候选状态更新StateGuard 检查哪些长期状态文件发生变化对新增或修改内容进行安全审计判断是否保留或回滚。若状态更新可能削弱确认边界等StateGuard 就会回滚写入。实验结果显示StateGuard 能显著降低长期状态污染风险。在无防御时四个模型 HS 较高引入 StateGuard 后尤其是在 Targeted - Ensemble 设置下HS 几乎压低到接近 0。不过StateGuard 采用偏保守的安全优先策略可能带来较高的 false positive但在长期记忆场景中这种权衡可接受。更现实的部署方式是引入分级处理机制对高风险更新直接回滚对边界模糊的更新暂缓写入并向用户发起轻量级确认。研究展望与贡献从长远看StateGuard 可视为个性化 Agent 长期状态治理的初步原型未来可扩展为更完整的“记忆写入防火墙”。随着 Agent 系统发展未来 AI 助手会更长期化安全问题也会改变。过去主要关注模型即时输出危险内容个性化 Agent 时代还需关注模型是否把危险默认规则写进长期记忆。因此Agent 安全评估需从即时行为安全扩展到长期状态安全。该研究的主要贡献包括发现新的 Agent 安全风险系统化定义非预期长期状态投毒构建 ULSPB 基准和 HS 指标提出 StateGuard 防御框架。个性化是 Agent 走向实用的关键但也让其易被日常交互“养歪”。研究表明未来 Agent 安全不能只关注 prompt 层面等关键要监控跨会话延续的内容。当 AI 助手拥有长期记忆安全问题也进入长期状态时代。该研究由香港理工大学、香港科技大学广州的研究团队共同完成。论文作者包括 Xiaoyu Xu、Minxin Du、Qipeng Xie、Haobin Ke、Qingqing Ye 和 Haibo Hu通讯作者为 Haibo Hu 和 Minxin Du。