零信任,验证一切!Anthropic发布企业自主智能体安全白皮书

零信任,验证一切!Anthropic发布企业自主智能体安全白皮书 AI Agent 正在接管越来越多的事务从搜索网页、综合信息到调用数据库、操作文件系统全程无需人工介入。Anthropic 刚发布了 Zero Trust 安全白皮书Zero Trust for AI Agents对AI智能体零信任。白皮书提出了一个尖锐的问题当 Agent 能以机器速度行动你的安全体系跟得上吗白皮书内容梳理了包括 Agent 面临的新威胁、六个安全能力域的三级路线图、八步部署工作流以及如何让防御运营跑赢自主攻击。Agent 的新战场Zero Trust 的核心前提不信任任何东西验证一切。不管请求来自公司内网还是外部一律审查。这套思路 1994 年就有了NIST 在 2020 年发了标准SP 800-207NSA 在 2026 年跟进了实施指南。前沿 AI 模型正在把漏洞到利用的时间窗口从几个月压缩到几个小时边际成本按美元计。模型现在就能找到传统工具和人工审计连续几年都没发现的严重漏洞。对部署 Agent 的组织来说加速产生了双重影响Agent 运行的基础设施暴露在 AI 加速的攻击面前Agent 本身引入了自主性能解读目标、选择工具、执行多步操作传统访问控制挡不住 Agent 滥用合法权限。Anthropic 提出了一个实用的设计检验标准这条控制措施是让攻击变得不可能还是只是让攻击变得更麻烦那些价值来自摩擦而非硬性屏障的缓解措施包括额外的跳板跳转、速率限制、非标端口、基于短信的 MFA在面对能大规模梳理麻烦步骤的AI时会大幅失效。Agent 化的攻击者有无限耐心每次尝试的成本接近于零。能通过这个测试的控制措施有一个共同模式硬件绑定的凭证、会过期的 token、密码学身份、以及根本不存在的网络路径。拿不准的时候优先选择移除能力的控制限流能力的控制靠不住。Agent 系统和传统软件不一样。传统软件执行预定义逻辑Agent 以不同程度的自主性执行多步操作。四个关键差异值得注意无人值守执行。Agent 不需要人在每一步批准就能执行操作。被操控的 Agent 能以机器速度造成伤害。工具访问。Agent 可以与 API、数据库、文件系统和外部服务交互包括 MCP。一个被攻破的 MCP 栈可能导致数据窃取、恶意代码执行和破坏。决策能力。Agent 需要解读指令并选择如何完成目标。一条对人类来说看起来无害的指令可能被 Agent 解读为能实现完全不同结果的方式。多 Agent 协作。Agent 可以与其他 Agent 通信。这一信任关系让攻击者可以攻破一个 Agent 然后横向移动到达初始目标无法直接访问的系统。两个新概念值得一提。爆炸半径blast radius衡量出问题时的潜在损害范围只读访问单个数据库的 Agent 爆炸半径很小有云基础设施管理员权限的 Agent 爆炸半径巨大。最小代理权least agency是 OWASP 造的新术语把最小权限原则延伸到了 Agent 应用限制每个 Agent 工具能做什么、多频繁、在哪里。数据库工具只拿到只读查询权限邮件摘要工具没有发送/删除权限。OWASP 识别的当前威胁包括提示注入、工具和资源劫持、身份与访问权限滥用、记忆和上下文投毒、以及供应链风险。提示注入分两种。直接注入是攻击者构造输入来覆盖系统指令算法化方法可以达到 100% 攻击成功率生成的提示可以跨模型家族迁移。间接注入更隐蔽攻击者把恶意指令嵌入 Agent 会处理的外部数据源比如网页或邮件。Microsoft Research 确认LLM 无法可靠区分信息性上下文和可执行指令。用户永远看不到恶意载荷Agent 把它当成合法请求执行了。工具和资源滥用同样危险。工具中毒是攻击者入侵 MCP 工具描述符或元数据第一个有记录的野外恶意 MCP 服务器冒充了合法邮件服务暗中复制了所有发出的邮件。工具链攻击是攻击者骗 Agent 把合法工具以有害顺序组合比如把内部 CRM 工具和外部邮件工具串联来窃取客户数据每条命令都通过可信二进制文件在有效凭证下执行主机端监控看不到恶意软件。身份与权限滥用有三个典型场景无范围权限继承高权限管理 Agent 委派任务时没做最小权限约束把完整的访问上下文传给了本应权限有限的工作 Agent。困惑代理人问题被攻破的低权限 Agent 向高权限 Agent 转发看起来合法的指令后者直接执行却没有验证原始用户意图。基于记忆的权限留存Agent 缓存凭证用于上下文复用但没做好记忆分段攻击者可以提示 Agent 用之前安全会话中缓存的密钥执行操作跨会话边界提升权限。供应链风险在 Agent 生态中更复杂。和静态软件供应链不同Agent 生态系统经常在运行时组合能力动态加载外部工具和 Agent 角色。Anthropic 研究表明只需 250 个恶意文档就能在 6 亿到 130 亿参数的 LLM 中植入后门且后门在安全训练后仍然存在。安全研究人员在主要平台上发现了约 100 个恶意 AI 模型。记忆和上下文投毒更具隐蔽性。植入到助手记忆中的恶意指令可以危害当前和所有未来的会话。RAG 投毒通过被投毒的数据源向向量数据库注入恶意数据Agent 检索到被污染的上下文后产出错误答案或执行针对性载荷。共享上下文投毒利用多租户环境中复用或共享的上下文长期记忆漂移更微妙摘要或同伴 Agent 的反馈逐步偏移存储的知识因为没有单个改变看起来是恶意的很难检测。六道防线Zero Trust 原则按三个能力等级呈现。Foundation 是中小型团队的起步点AI 加速攻击已经抬高了 Foundation 的地板短命 token、密码学身份、基于身份的隔离和自动化初步分诊现在是入门要求Enterprise 是大多数有规模部署的组织应该瞄准的目标Advanced 适用于高度监管行业、国家安全应用、或攻破带来严重后果的场景。每个等级建立在前一个之上预期 Advanced 会随领域演进变成 Enterprise 标准Enterprise 变成 Foundation。六大安全能力域每个域都给出了三级路线图。Agent 身份与认证身份和认证构成所有其他安全能力的基础。没有可验证的身份你无法执行访问控制、维护审计追踪、或将动作归因到具体的 Agent。唯一标识符单独来看只是贴标签Foundation 级别现在要求这些标识符有密码学根基。静态 API 密钥和共享服务账户密码是 AI 辅助攻击者最先找到的东西即使在 Foundation 级别也算不上合法入口。如果你现在在用带轮换策略的 API 密钥把它当作已知缺口来对待。访问控制和权限管理即使完美认证的 Agent在被授予过多权限时也会造成损害。授权层执行最小代理权。最低限度Agent 只应该拥有与其角色相关的权限邮件起草 Agent 需要邮件权限不需要访问财务部门的文件共享。沙箱执行限制了被攻破的 Agent 能触达的范围对处理网页内容、文档或任何不可信输入的 Agent 来说沙箱应该被视为必需而非愿景。可观测性和审计访问控制防止未授权的动作可观测性揭示实际发生了什么。在做其他投入之前先度量两件事驻留时间异常发生到人类知晓的时长覆盖率实际被调查的告警比例。行为监控与响应可观测性捕获 Agent 做了什么行为监控判断这些动作是正常的还是可疑的。检测异常只有在你响应得足够快以控制损害时才有意义。自动化事件周围的事务性工作不要自动化决策。模型应该做笔记、捕获证据、起草事后报告人类应该做遏制决策、披露决策和客户沟通决策。输入验证和输出控制监控和响应在威胁出现之后捕获它们预防在威胁开始之前就阻止它们。输入清洗不能从传统技术直接搬到 Agent 上SQL 注入有明确定义的模式和受限的输入字段Agent 的输入是自由形式的。Advanced 级别增加了聚光灯技术spotlighting利用已知 schema 帮助 LLM 区分系统指令和用户输入Microsoft 的聚光灯技术将间接注入攻击成功率从超过 50% 降到了不到 2%。宪法分类器constitutional classifiersAnthropic 的方法在测试中阻止了 95% 的越狱尝试过度拒绝率增幅很小。完整性和恢复当控制措施到位但仍发生攻破时你需要已验证的配置和快速恢复。在基础设施层面把启用自动更新和部署前验证签名视为互补来自可信供应商的签名更新应该自动通过未签名的变更应该直接拒绝。技术控制只能执行治理定义的东西没有清晰的策略团队会在 Agent 能做什么、出了问题谁负责等问题上做出不一致的决定。影子 AI 是特别的风险员工在 IT 不知情的情况下采用 LLM 工具绕过了框架中的所有控制。八步落地成功的 Agent 实施需要一个定义清晰的、可重复的流程。八个阶段每个处理特定的安全控制同时缓解已识别的威胁。Phase 1识别需求。定义你需要满足什么监管要求、要达成什么运营目标、在什么约束条件下工作。在开始构建之前让安全、法务、合规和业务利益相关者达成一致。Phase 2管理供应链风险。AI 物料清单AI-BOM将软件组成分析延伸到 AI 组件追踪模型来源、训练数据集血统和微调参数。用 OpenSSF Scorecard 自动评估每个依赖的安全健康度。审计依赖树的冗余用可达性分析缩小修复范围。对安全评分差且无人维护的小型依赖让前沿模型重新实现你实际使用的功能子集。在整个部署过程中对模型和软件签名审查工具提供商的安全实践。自己运行和托管 MCP 服务器在不可变平台上在你验证了代码之后自己做密码学签名在将更新引入生产之前对更新执行同样的操作。Phase 3定义 Agent 边界。精确定义每个 Agent 被允许做什么、什么时候应该升级到人工审批、以及出了问题后的爆炸半径。分配唯一身份每个 Agent 实例需要一个唯一的、有密码学根基的标识符没有独立身份在事件中关联日志就变成了猜测。文档化批准和禁止的动作一个被允许读取客户记录、总结信息和起草回复的 Agent 有清晰的边界而一个有模糊权限帮忙做客户服务的 Agent 没有。定义升级触发器高价值交易、敏感数据访问、外部方通信都可能需要审批。识别爆炸半径应用不可能还是麻烦的测试。有时候你可能想把一个 Agent 的功能拆分成多个 Agent但每个 Agent 必须有唯一 ID 和自己的访问凭证拆分成多个 Agent 但给它们都用同样的凭证就没能分隔风险。Phase 4防御提示注入。就像需要在数据库上做输入清洗一样我们需要控制和清洗呈现给 Agent 的信息。输入隔离将所有自然语言输入视为不可信。限制攻击面限制谁或什么可以与 Agent 系统交互如果系统可以限定为可信人员和资源恶意行为者劫持你系统的能力将被大幅限制。Phase 5保护工具访问。工具访问是 Agent 部署中风险最高的面之一。工具白名单将 Agent 限制在批准的工具内默认拒绝要在 Agent 级别和 Agent 外部两个层面控制静态 API 密钥不适合用于工具认证。能力限制限制允许的工具能做什么邮件工具可能被限制为只能阅读发送能力需要单独授权。参数验证在执行前验证工具调用参数在 Agent 端和工具端都做。沙箱执行带受限网络访问和系统调用过滤的容器沙箱遏制被攻破工具的影响速率限制只制造摩擦构不成屏障。审批升级让高风险工具调用暂停等待人工审核。Phase 6保护 Agent 凭证。静态 API 密钥、嵌入的凭证和共享的服务账户密码是 AI 辅助攻击者最先找到的东西把它们当作已经被攻破来对待。短命凭证作为基线token 以分钟而非天计过期。硬件绑定凭证对生产系统凭证应该绑定到经过证明的硬件抗钓鱼的双因素认证FIDO2 或 passkeys应该是人类认证环节的默认选项基于短信的验证码不满足 Foundation 级别。凭证隔离确保每个 Agent 实例有唯一凭证凭证永远不应出现在代码或配置文件中。多 Agent 系统需要显式的信任边界Agent 在接受委派任务之前应该验证其他 Agent 的身份和授权。即时访问和 ABAC 只在需要时授予权限使用后立即撤销。Phase 7保护 Agent 记忆。记忆保护阻止攻击者污染 Agent 上下文或从记忆存储中提取敏感信息和针对单个会话的攻击不同记忆投毒跨交互持续存在。记忆隔离在会话和用户之间强制严格的边界。上下文完整性验证在每次检索时验证持久化的上下文不仅是存储时将哈希存储在与记忆内容分离的防篡改日志中。上下文保留策略通过生存时间值和自动过期未验证的记忆防止被投毒内容无限期保持活跃。Claude Code 默认强制会话隔离每个会话从全新上下文开始检查点在每次编辑前捕获状态支持通过 rewind 回滚cleanupPeriodDays 控制本地转录的保留期。Phase 8度量真正重要的东西。当 Agent 系统作为黑盒运行时你无法判断它们是在交付预期结果还是已被攻破。驻留时间和覆盖率在做其他任何事之前先度量这两个指标这是 AI 自动化最有杠杆撬动的两个指标。可解释性看你能否将任何 Agent 动作追溯到其触发输入并解释 Agent 为什么选择那个响应。行为一致性追踪 Agent 动作是否与预期策略和模式一致突然偏好不同工具的 Agent 值得调查。检测速度度量团队多快能意识到 Agent 行为异常对关键系统的目标是一小时内检测到。安全团队应该能回答如果一个 Agent 失控了我们能在一小时内知道吗答案不确定的话基础控制需要更多工作。跑赢机器速度保护你部署的 Agent 只是一半工作另一半是让安全运营跑得足够快。当漏洞利用在补丁发布几小时内就出现时需要几天的响应流程就太慢了。答案在于把人从事务性工作上移到决策上。自动化证据收集、丰富、关联和文档让人类做遏制决策、披露决策和客户沟通决策。在告警队列前面放一个模型。每条进入的告警在人类看到之前都应该得到一次自动化的初步调查。选一条已知高误报率的嘈杂规则把前沿模型接入它的告警流让它为每次触发产出结构化处理意见和人类审查员对比两周。不要试图一次自动化整个队列。今天的 SOARSecurity Orchestration, Automation and Response安全编排自动化与响应平台让安全团队能整合和协调独立的安全工具。下一代是 Agentic SOAR增加了应对新情况的自适应能力在几秒钟内直接应对恶意 AI 驱动攻击。按 MITRE ATTCK 映射检测覆盖。知道你能检测哪些技术、不能检测哪些比笼统地改善检测更有用。优先覆盖横向移动和凭证访问。Atomic Red Team 是一个开源库跑几个测试看看你现有的日志实际检测到了哪些这是一个下午的练习。为五个同时发生的事件做桌面推演。标准推演假设周一出了一个关键 CVE跑一个同一周出了五个的版本围绕电子表格和每周会议构建的工作流跟不上为发现量的数量级增长做计划在它发生之前排练。提前建立紧急变更程序。生产补丁的两周变更审批周期本身就是安全风险。下线一个服务、轮换一个凭证、阻断一条网络路径提前决定谁能授权、多快能授权、需要什么证据演练授权路径。对防御型 Agent 也要验证。组织不应该盲目信任防御自动化正如不应该盲目信任其他自主系统一样。攻破防御型 Agent 的攻击者会获得强大的能力防御型 Agent 应该运行在加固的环境中以最小权限运行自动响应需要人工审批高影响决策。验证每个 Agent 动作授予最低必要权限在攻破发生时控制损害。身份支持归因和访问控制可观测性揭示发生了什么行为监控检测异常输入输出控制在边界阻止攻击完整性保护支持恢复防御运营跟上威胁的速度。跳过任何一项能力攻击者就会利用那个缺口。你的 Agent都暴露了哪些风险该查查了。参考资料https://claude.com/blog/zero-trust-for-ai-agentshttps://cdn.prod.website-files.com/6889473510b50328dbb70ae6/6a1611a04085d7cd3dadc924_Claude-eBook-Zero-Trust-for-AI-Agents-05182026.pdf