TRIAD:新型安全框架助力AI智能体抵御攻击,显著降低攻击率、提升任务完成率

TRIAD:新型安全框架助力AI智能体抵御攻击,显著降低攻击率、提升任务完成率 TRIAD新型安全框架助力AI智能体抵御攻击显著提升任务完成率随着AI智能体逐渐走向能够调用搜索、邮件、文件、数据库和代码执行等外部工具的自动化系统其能力边界不断扩展安全风险也随之放大。一段看似普通的网页内容、一封邮件、一条工具返回结果都可能成为影响Agent决策的外部风险源诱导其偏离用户原本的任务。现有护栏模型通常只能在执行前判断“安全”或“不安全”但真实Agent场景中的风险往往并不是整个任务都有害而是正常任务中混入了不可信指令直接放行可能导致攻击成功直接拒绝又会牺牲用户的正常需求。为此墨尔本大学团队开源TRIADTripartite Response for Iterative Agent Guardrailing一个面向LLM Agent的反馈驱动护栏框架。它不再只做二分类安全判断而是将决策扩展为Proceed、Update和Refuse三类——安全时继续执行完全有害时拒绝对于被提示注入污染但仍可修复的任务则通过自然语言反馈引导Agent修改行动计划回到用户的原始目标。研究背景随着大语言模型智能体LLM Agent从“回答问题”走向“调用工具、执行任务”它们正在被应用到邮件处理、网页浏览、文件管理、数据库查询、代码执行等更加复杂的场景中。相比传统聊天模型Agent不仅会生成文本还会根据上下文制定计划、选择工具并在多轮交互中根据工具返回结果继续行动。这种能力让LLM Agent更接近真实的自动化助手但也显著扩大了安全风险。这一问题在提示注入攻击Prompt Injection Attack中尤为突出。真实场景下风险往往不是来自一个完全有害的用户请求而是来自“正常任务中混入了不可信指令”。例如用户只是希望Agent帮忙搜索酒店并发送邮件但搜索结果或邮件正文中可能混入恶意内容诱导Agent将会议地点发送给无关收件人、泄露客户邮箱或调用非必要工具访问敏感信息。此时Agent面临的并不是简单的“安全 / 不安全”二分类问题它既需要拒绝恶意部分又应尽可能完成用户原本的正常任务。现有Agent护栏通常会在执行前检查输入、行动计划或工具调用并给出允许、拒绝、风险类别或解释性理由。然而这类方法往往更擅长“发现风险”却不一定能有效指导Agent接下来如何行动。对于被污染但仍可修复的任务简单拒绝虽然可以阻断攻击却会牺牲用户的正常需求直接放行则可能让Agent执行攻击者指定的工具调用。换言之Agent安全不仅需要风险检测还需要在检测到风险后对行动计划进行修复。为此本文作者团队提出了TRIADTripartite Response for Iterative Agent Guardrailing一个面向LLM Agent的反馈驱动护栏框架。TRIAD将传统的二元护栏决策扩展为三类Proceed、Update和Refuse。当行动计划安全时Agent可以继续执行当用户请求本身有害时Agent应拒绝完成而当任务中存在提示注入或不可信指令、但原始用户目标仍然合理时TRIAD会生成自然语言反馈Natural-Language Feedback引导Agent修改计划、避开恶意部分并回到用户原本的任务目标。也就是说TRIAD不只是告诉Agent“这里有风险”而是通过自然语言反馈强调风险来源和任务偏离点引导下游Agent重新规划并回到原始用户目标。Agent被带偏后重新回到原任务传统Agent护栏通常采用“检测 — 拦截”的思路在工具执行前判断当前行动是否安全如果发现风险就阻止Agent继续执行。这种方式对于完全有害的请求是有效的但在提示注入场景下会遇到困难。因为很多任务并不是整体有害而是正常任务中夹杂了恶意指令。此时简单拒绝会让Agent放弃原本可以完成的正常任务而简单放行又可能导致攻击成功。TRIAD的核心思路是把护栏从一个“二分类裁判”变成一个“反馈提供者”。Agent在每一步工具调用前都会先生成当前的行动计划和拟调用工具。随后Tri-Guard会在工具真正执行前检查这一计划并根据当前上下文、历史交互、可用工具和拟执行动作给出自然语言反馈以及三类决策Proceed、Update和Refuse。其中Proceed表示当前计划安全且与用户目标一致Agent可以继续执行工具Refuse表示用户请求本身有害或当前任务无法通过修改计划安全完成Agent应直接拒绝Update则用于处理最关键的中间情况当前计划受到了提示注入或不可信内容影响但用户原始目标仍然合理。此时TRIAD不会直接终止任务而是将Tri-Guard生成的自然语言反馈写回Agent的临时上下文明确指出风险来源、任务偏离点和当前工具调用的问题从而引导下游Agent重新规划。这一设计形成了一个闭环Agent先提出计划Tri-Guard检查计划如果需要更新反馈会被注入回Agent的上下文Agent再生成新的计划新的计划会再次经过Tri-Guard检查直到被允许执行、被拒绝或达到最大更新次数。通过这种方式TRIAD将护栏输出从静态的风险标签转化为可影响后续规划的上下文信号使Agent在面对部分污染的任务时不只是“停下来”而是有机会“回到正确方向”。为了让Tri-Guard具备这种判断和反馈能力研究者构建了一个包含多轮Agent轨迹的数据集并通过知识蒸馏knowledge distillation利用教师模型teacher model为轨迹生成结构化自然语言反馈和三类决策标签。训练后的Tri-Guard不仅需要识别当前行动是否存在风险还要区分三种情况正常任务应继续执行直接有害任务应拒绝而被提示注入污染但仍可修复的任务应进入更新流程。实验结果在ASB和AgentHarm两个benchmark上进行评测。其中ASB用于测试Agent在直接提示注入DPI和间接提示注入IPI下是否会被攻击者带偏AgentHarm则用于评估Agent面对直接有害任务时的拒绝能力以及对正常任务的保留能力。实验覆盖了四个Agent backbone包括两个开源模型Qwen3 - 32B、Kimi - 2.5以及两个前沿闭源模型GPT - 5.1和Gemini - 2.5 - Pro结果如下。主实验结果显示TRIAD Tri-Guard在不同Agent上都能显著降低攻击成功率ASR同时保留更高的正常任务完成率TSR。相比没有防护的ReActTRIAD Tri-Guard将平均ASR从74.45%降至10.42%同时将平均TSR从28.45%提升到68.60%。这一结果说明TRIAD不只是简单拦截风险还能在提示注入污染任务时引导Agent回到原始用户目标。一个重要现象是低ASR并不一定代表更好的护栏。ToolSafe和TRIAD TS-Guard在部分设置下也能压低ASR但往往伴随很高的拒绝率和较低的TSR说明它们更多是通过“拦截或放弃执行”来降低攻击成功率。相比之下TRIAD Tri-Guard在ASB - DPI和ASB - IPI上普遍取得更高的TSR说明它更擅长处理“任务部分被污染但仍可修复”的场景。为了区分“框架本身”和“护栏模型能力”的影响研究者进一步在TRIAD框架中替换不同guardrail模型。结果显示直接接入现有guardrail并不足以获得理想的安全 - 效用平衡。许多模型可以检测风险并降低ASR但它们倾向于把部分污染的任务整体视为危险任务从而导致高拒绝率和低任务完成率。以TS-Guard为例它在ASB - DPI和ASB - IPI上都能明显压低ASR但拒绝率分别达到88.80%和94.63%对应的TSR只有1.33%和0.59%。这意味着Agent虽然更少执行攻击者目标但也几乎放弃了用户原本的正常任务。相比之下Tri-Guard的ASR略高但在DPI和IPI下分别达到60.83%和61.59%的TSR同时拒绝率明显更低。这说明TRIAD的效果并不只是来自“多加一个护栏”而是来自Tri-Guard对Proceed、Update、Refuse三类决策的学习。进一步说明了trajectory - feedback training的作用。未经训练的Qwen3.5 - 9B base model本身已经具有较强的安全倾向因此可以把ASR压得很低但它的问题是过于保守经常把可修复的提示注入任务直接判为拒绝导致正常任务无法完成。经过训练后的Tri-Guard则把决策边界从“发现风险就拒绝”调整为“能修复则更新”。虽然Tri-Guard的平均ASR比base model略高但它在ASB - DPI上将TSR从26.30%提升到64.52%在ASB - IPI上将TSR从26.53%提升到72.68%同时拒绝率也明显下降。这说明训练后的Tri-Guard更符合TRIAD的核心目标不是最大化拒绝而是在降低攻击成功率的同时尽可能保留用户的正常任务。饼图从决策分布层面解释了对于正常行动计划Tri-Guard仍然能够保持较高的Proceed比例说明它不会对正常任务过度干预对于提示注入污染的行动计划Tri-Guard明显更多地选择Update而不是像base model那样直接Refuse对于直接有害任务Tri-Guard仍然保留拒绝能力。这正是TRIAD相比传统护栏的关键变化它不是把所有风险都导向同一个“拒绝”出口而是根据任务是否仍可修复选择继续执行、更新计划或拒绝执行。换句话说Tri-Guard的训练让护栏从“保守拦截器”变成了“反馈驱动的规划调节器”。总结与展望TRIAD通过Proceed、Update和Refuse三类决策以及自然语言反馈驱动的闭环修正机制为LLM Agent安全提供了一种新的护栏思路。它不再停留在简单的“安全/ 不安全”判断而是进一步关注在检测到风险后如何引导Agent识别计划中的偏离点并尽可能保留用户的原始任务目标。在提示注入和有害任务场景下TRIAD展示了更平衡的安全与效用表现。尤其是在正常任务被恶意内容部分污染时它通过Update决策引导Agent重新规划实现了从风险分类到行动计划修复的转变。希望这一工作能为Agent护栏设计提供新的参考并与社区共同探索更可靠、更可解释的LLM Agent安全框架。作者简介第一作者Yuhao Sun为墨尔本大学计算机与信息系统学院博士生一年级研究方向为Trustworthy AI与Agent Safety。本文主要合作者为墨尔本大学博士生Jiacheng Zhang与清华大学博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu与Dr. Shaanan Cohney共同指导完成。