一、大模型智能体概述1.什么是智能体AI Agents或agentic AI在20世纪50年代阿兰·图灵提出了图灵测试用于评估机器是否能够展现出与人类相当的智能。这些人工实体被称为AI智能体指具有自主能力的AI实体能够理解并响应人类输入、感知环境、做出决策并采取行动以实现特定目标。AI智能体既可以是软件也可以是物理实体既可以独立运行也可以与人类或其他智能体协同。典型的AI智能体包括DeepBlue、AlphaGo和AlphaZero等。过去关于AI智能体的研究主要集中在掌握符号推理等特定的专业技能或仅能围棋或象棋等特定任务上表现优异。2.什么是大模型智能体Large Model Agents 或 Agentic Large Models大模型主要包括OpenAI的GPT-4、Google的Pa大模型 2和Microsoft Copilot等大语言模型L大模型以及DALL-E 2等大视觉模型LVM。基于大模型的AI智能体显著增强了AI系统解决通用任务的能力为下一代智能体发展提供了坚实基础。作为智能体的“大脑”大模型赋予其在人机交互、少样本/零样本规划、上下文理解、知识学习和通用任务解决等方面的能力能够在物理、虚拟或混合现实环境中执行任务。大模型智能体通常分为两类软件型大模型智能体如AutoGPT和AutoGen能够自主解读人类指令并使用多种工具如搜索引擎和外部API收集信息并完成复杂任务。图1(a)展示了一种基于大模型的虚拟助手它可以生成个性化旅行计划、设置提醒、管理任务并在动态环境中持续学习和适应。具身型大模型智能体如FigureAI的Figure 02和Tesla的Optimus可以与物理世界直接交互。这类智能体能够感知和操作周围环境从而解决现实世界的问题。图1(b)展示了一种基于大模型的家用机器人它可以分析房间布局、表面类型和障碍物以制定定制化清洁策略而非仅仅执行通用指令。大模型智能体被认为大模型2.0的关键是迈向人工通用智能AGI的重要一步已广泛应用于网页搜索、推荐系统、虚拟助手、元宇宙游戏、机器人技术、自动驾驶和自动化渗透攻击等领域。3.大模型智能体相关标准IEEE SA-P3394标准于2023年推出旨在定义自然语言界面以增强L大模型应用、智能体和人类用户之间的沟通。该标准制定了一系列协议和指南用于促进APP、智能体与L大模型系统之间的无缝高效交互。这些协议和指南涵盖但不限于API的语法和语义、语音与文本格式、对话流程、提示工程集成、L大模型思维链集成以及API端点配置、认证与授权等内容。IEEE SA-P3428标准同样于2023年推出旨在制定教育应用中L大模型智能体的相关标准。主要目标是确保L大模型智能体在开源和专有系统之间的互操作性。重点领域包括L大模型与现有教育系统和其他AI组件如自适应教学系统的集成以及应对教育场景中的偏见、透明性和问责性问题。4.大模型智能体操作系统 大模型智能体的操作系统架构包括三个层次设计应用层承载智能体应用并提供一个SDK以抽象系统调用简化智能体开发。内核层包括普通操作系统内核和一个额外的大模型智能体内核且无需更改原有操作系统结构。硬件层包括物理资源如CPU、GPU、内存等这些资源通过操作系统系统调用间接管理而大模型智能体内核不直接与硬件交互。5.大模型智能体组成模块 大模型智能体通常由五个关键模块组成规划、行动、记忆、交互和安全共同构成一个连贯且智能的系统。规划模块规划模块是大模型智能体的核心利用高级推理技术设计有效的解决方案以应对复杂问题包括无反馈规划、有反馈规划、多角色自我规划和基于实际场景的规划等。记忆模块记忆模块支持智能体随时间学习和适应的能力包括短期记忆、长期记忆以及混合记忆。此外检索增强生成RAG技术可用于访问外部知识源和本地经验库以进一步提升决策可信性和最新性。行动模块行动模块使大模型智能体能够在各种环境中执行并调整行动包括具身行动、工具使用和工具制作等。交互模块交互模块使大模型智能体能够与人类、其他智能体和环境进行交互并通过静态和动态经验和知识缓存提升综合理解和高适应能力。安全模块安全模块确保大模型智能体的运行安全、合规且隐私保护可用于监控和规范智能体的行为、交互和决策以防止伤害并确保符合法律和伦理标准。二、大模型智能体网络概述1.什么是大模型智能体网络Large Model Agent Networks大模型智能体网络是由多个相互连接的大模型智能体组成的大规模协同式智能化系统。每个大模型智能体由两部分组成位于云端的大模型驱动的“大脑”对应的物理或数字“身体”如自动驾驶汽车、机器人狗、无人机和数字人等。对于具身型大模型智能体其物理身体内配备一个本地“小脑”即专用小模型或轻量化大模型用于处理本地推理任务而计算密集型任务则被卸载到云端大模型中实现云端大脑与本地大脑的协同计算。 大模型智能体的大脑既可以作为独立standalone实体运行也可以分层hierarchical部署在云服务器或边缘服务器等各种平台上。每个大模型智能体可以动态地与其他智能体、虚拟/现实环境以及人类进行交互。在大模型智能体网络中通信主要通过以下两种模式进行智能体内通信intra-agent communications关注单个大模型智能体内部的数据/知识交换确保各模块如规划、行动、记忆、交互和安全模块的协调运作。实现“云端大脑”与其物理或数字“身体”以及“本地小脑”之间状态、数据和知识的无缝同步。智能体间通信inter-agent communications在多个大模型智能体之间高效交换信息包括任务信息、知识和推理结果并协调计算任务构建起一个互联的协同式网络以支持任务分配、资源共享和协同行动从而超越单个大模型智能体的智能应对更加复杂的任务。总结与可研究点智能体内通信使单个大模型智能体的各组件如规划、行动、记忆和安全模块协同工作并通过发布/订阅机制等框架基于相关性高效地交换数据。 智能体间通信使多个大模型智能体能够协同、共享资源并协调行动以实现群体智能。诸如FIPA ACL和KQML等协议定义了通信词汇、消息结构以及交互策略这对智能体间的有效通信至关重要。有效的智能体间通信协议需适配网络环境如无线或有线、任务延迟要求、鲁棒性和安全性等。此外针对不同系统和智能体平台的协议互操作性是一大挑战。2.大模型智能体组网的挑战- 大模型智能体网络的动态构建构建动态大模型智能体网络需要解决多样性、高效性和便携性之间的“三难困境”。- 异构网络中的协同式大模型服务提供由于运行完整大模型需要大量计算资源边缘或终端智能体通常缺乏运行完整大模型的能力主要存在大模型轻量化策略包括知识迁移、量化、模型压缩等和大模型分片策略包括分割学习、混合专家模型等。- 自主优化和安全协同动态资源如数据、知识、模型、计算和通信等多维资源的合理分配以及协同中的安全可信保障机制对大模型智能体网络的有效性和可靠性至关重要。3.关键支撑技术大模型智能体网络架起了人类世界、物理世界与网络空间的桥梁其引擎层由五种关键技术驱动基座大模型技术、知识相关技术、交互技术、数字孪生技术和多智能体协同技术。基座大模型技术包括大语言模型、大视觉模型和多模态大模型作为大模型智能体的“大脑”支持其在规划、行动、记忆、交互和安全等方面的能力。主要功能包括高级推理、少样本/零样本泛化、工作使用能力和适应性。知识相关技术通过结合内部知识来自智能体与人类、环境及其他智能体的交互和外部知识如知识图谱和向量数据库提升大模型智能体生成最新、上下文相关输出的能力。包括知识共享、知识融合和知识检索等能力。交互技术增强大模型智能体与人类用户自然、沉浸式、上下文相关的交互能力。例如通过NLP等人机交互技术在手持设备和可穿戴设备的帮助下与人类进行交互以理解人类的意图、欲望和信念。包括NLP、人机交互、3D数字人生成、增强/虚拟/混合现实AR/VR/MR等。数字孪生技术大模型智能体可以通过数字孪生技术实现其物理/数字“身体”与云/边端“大脑”之间的数据/状态高效同步。包括虚拟-物理同步、虚拟-物理反馈和预测分析等。多智能体协同技术通过多智能体强化学习、合作博弈、平均场博弈、纳什谈判集和群体智能算法等实现共同目标和复杂任务的协同工作通过高效的云/边网络相互连接有效共享数据、知识和计算结果。包括多智能体规划、分布式推理等。4.关键特性高度异构性大模型智能体网络通常管理大量多样化的节点需支持各种任务和服务这带来了互操作性挑战。具体表现为能力差异、服务多样性和通信异构性。时空动态性大模型智能体网络在时间和空间上的动态演变要求系统具有实时响应的能力。具体表现为时间动态性和空间动态性。语义式通信采用语义感知通信优先交换有意义或上下文相关的信息以减少通信开销。包括智能体内语义式通信和智能体间语义式通信。信息中心式路由相比传统基于IP的路由网络大模型智能体网络不关注从哪儿获取数据(where the data cached)更关注于优先快速检索所需相关信息(what data is needed)例如命名数据网络NDN和发布/订阅pub/sub模型。分层分布式协同大模型智能体网络在云、边缘和终端采用分层级的分布式决策框架实现资源受限或低延迟场景中的高效协同。包括层内协同云云、边边、端端和跨层协同云边、边端、云端、云边端。5.云边端协同框架 如上图所示云-边-端协同框架由云、边缘和终端三个功能层组成云层为集中式智能中心承载基座大模型如超过1000亿参数提供广泛的存储和计算资源。负责处理计算密集型任务以及维护全局知识库。边缘节点提供中间层智能承载中等规模的大模型如10B-50B参数。边缘节点连接云和终端设备负责任务导向型大模型微调、近端数据聚合和本地化数据集的上下文推理。终端设备执行轻量级实时任务使用小型本地大模型如0-10B参数。此外终端设备优先保护隐私通过本地处理敏感数据后再与边缘或云层共享洞察。 这种跨云、边缘和终端设备的分层协同具有可扩展性、效率、适应性、安全性等关键优势。6.交互策略6.1分布式协同 分布式协同是连接大模型智能体的基本交互模式其中分布式大模型智能体通过合作实现共同目标、共享资源并优化集体成果。具体包括以下三种协同机制协同式大模型微调通过协同分割学习(Split Learning, SL)和联邦边缘学习(Federated Edge Learning在资源受限环境中对大模型进行隐私保护的高效微调。协同式大模型推理利用混合专家模型(Mixture of Experts, MoE)和分割推理(Split Inference)等方法解决资源受限环境中的计算难题。利用角色扮演(Role-Playing)实现通用场景下大模型智能体间的协同推理与决策。协同式大模型缓存通过边缘缓存机制预分发大模型减少模型下载延迟并支持动态替换和路由策略优化。包括边缘大模型缓存、边缘大模型替换、边缘大模型访问路由、RAG边缘缓存等。总结与可研究点在分布式协同中分割学习和混合专家模型聚焦于模型分割以显著减轻边缘设备的计算负担而联邦学习和角色扮演则强调模型组合以增强分布式智能体之间的协同能力。 在构建云边端协同的大模型智能体系统中面临的关键挑战包括大模型的分割如SL和MoE、模型放置、模型替换、模型路由以及知识缓存的联合优化同时还需应对边缘环境的异构性与动态性。在云边架构中高效部署和运行大模型智能体需要在模型分割与模型组合策略之间找到精妙的平衡重点优化资源分配并尽量降低服务延迟。此外解决方案需适应边缘设备固有的网络条件和硬件限制的不断变化。 未来的研究方向包括将这些技术无缝集成在考虑边缘网络静态与动态特性的基础上提供更高效、更具可扩展性的解决方案以支持大规模应用场景的需求。6.2分布式竞争 在竞争场景中大模型智能体以非合作策略追求自身利益采用多智能体辩论和非合作博弈模型通过动态互动矫正偏见、优化决策。6.3部分协同 部分协同发生在大模型智能体的利益部分重叠但不完全一致的情况下。大模型智能体可能共享某些资源或信息同时在其他方面保持独立。通过分层博弈和联盟形成博弈智能体在部分合作的环境中优化资源利用。7.协同范式 如上图所示在云-边-端架构下大模型智能体的协同范式涉及数据协同、计算协同和知识协同三个方面。7.1数据协同 在共同任务中大模型智能体不断交换并融合各自的数据如任务导向的感知数据包括多模态视角和时空视角两个方面。多模态数据协同融合来自多种模态的数据例如文本、图像、音频和视频以提供对环境的全面理解。包括两类任务(i)通过结合不同模态的数据可以创建统一的表示形式利用每种数据类型的优势。(ii)大模型智能体能够跨模态检索相关信息增强其应对复杂查询和场景的能力。时空数据协同通过跨模态和多源数据的整合和同步使大模型智能体在时间上实现全面动态的环境理解。此协同确保智能体能够有效分析模式、预测未来状态并基于数据的时空分布实时做出明智决策。7.2计算协同 大模型智能体通过分布式计算任务如服务级联实现协调推理利用集体计算能力更高效地处理复杂计算任务。- 水平协同水平协同指将复杂任务分解为可管理的子任务由多个大模型智能体并行独立完成各自分配的任务然后汇总结果生成最终输出。垂直协同垂直协同将复杂任务分解为多个阶段不同的大模型智能体按顺序处理每个阶段完成各自任务后将结果传递给下一个智能体直到整个任务完成。混合协同在实际的大模型智能体环境中真实应用通常需要水平协同和垂直协同的结合形成混合协同。7.3知识协同 大模型智能体通过知识同步、融合和检索以及分布式学习算法共享特定领域的知识和经验共同提升问题解决能力从而做出更明智的行动和决策。知识包括隐性与显性知识隐性知识源于经验与上下文使智能体能够快速适应突发情况显性知识即结构化、明确定义的信息确保智能体依据清晰规则或事实作出决策。知识共享知识共享包括多个大模型智能体之间的知识共享和更新以确保决策的一致性。包括知识传递和知识更新等多种方式。知识传递通过学习的参数形式将隐性知识从一个大模型智能体传递到另一个知识更新则是在知识对齐的前提下实现显性知识和隐性知识的更新。知识融合知识融合包括多智能体间的知识整合和补全阶段。知识整合通过整合并优化来自不同大模型智能体的知识以形成用于共同任务的稳健且全面的公共知识库。知识补全通过大模型进行文本编码或生成事实提升知识图谱补全性能。知识检索大模型智能体不仅依赖于预训练过程中学到的知识还可以动态访问和查询外部知识库如数据库、互联网和知识图谱以获取最新信息辅助推理。根据知识源的特性可分为基于静态知识源的RAG如Wikipedia和文档和基于动态知识源的RAG如新闻API。其中基于动态知识源的RAG又包括新知识检索、过去知识检索和自引导检索三种。三、大模型智能体网络的安全威胁和防护策略1.身份认证威胁 高效可靠的身份认证机制是保障大模型智能体系统功能性和完整性的前提。根据交互实体的不同针对大模型智能体的身份验证威胁可分为三类用户-智能体身份验证威胁大模型智能体通常存储大量用户的私人数据及企业的敏感信息与传统身份验证场景不同攻击者可以利用大模型智能体的高级生成能力增强其绕过身份验证的手段。智能体-智能体身份验证威胁在此场景下主要威胁是智能体伪装攻击攻击者可能破坏或冒充合法智能体干扰协同工作流。智能体-TPSP身份验证威胁此类身份验证威胁主要针对大模型智能体与TPSP之间的通信通道使其面临拦截攻击如中间人攻击和会话劫持的风险。例如攻击者可能拦截智能体-TPSP通信篡改响应或注入错误数据从而导致用户得到意外结果。应对措施开发适应性强、协同性高的弹性身份验证机制以确保复杂动态环境中的大模型智能体系统安全性和可靠性至关重要。主要包括基于风险的自适应身份验证和多智能体协同的身份验证。2.拒绝服务DoS DoS攻击能够显著增加资源消耗从而使大模型智能体过载并中断服务可用性。根据攻击方法的不同大模型智能体网络中的DoS攻击可分为数据导向型DoS攻击如海绵示例和泛滥导向型DoS攻击如智能僵尸网络。【加图22】海绵示例海绵示例是经过对抗性设计的输入可显著增加神经网络的能耗和计算延迟。大模型智能体特别容易受到此类攻击因为攻击者可以以较低成本利用大模型生成大量优化的海绵示例从而放大攻击效果并增加防御难度。智能僵尸网络智能僵尸网络利用先进的AI技术尤其是大模型技术来增强攻击能力。与传统僵尸网络不同智能僵尸网络利用大模型的理解能力分析目标系统中的漏洞自主优化攻击策略并提升攻击效果。应对措施针对DoS攻击的对策可分为两种主要类型被动防御和主动防御。被动防御侧重于检测和过滤恶意输入而主动防御以蜜罐技术为代表。3.幻觉 大模型智能体中的幻觉现象是指生成的输出内容与用户输入、生成的上下文或真实世界条件不符从而对服务可靠性构成重大风险。可分为以下四类输入冲突型幻觉输入冲突型幻觉指大模型智能体生成的内容与用户输入不一致。上下文冲突型幻觉大模型智能体生成的内容与多轮交互中先前生成的信息不一致。知识冲突型幻觉生成的响应与知识库中的对应知识不一致。事实冲突型幻觉大模型智能体生成的内容与已验证的真实世界事实不一致。 大模型智能体的幻觉问题可归因于以下三方面数据与知识、训练与推理、多智能体交互。数据与知识用于内容生成的训练数据和知识本身的偏差或不完备性。如数据标注的不相关性、训练数据分布不均、数据预处理过滤不充分以及训练数据本身知识偏差等原因。训练与推理即使训练数据几乎无偏训练和推理过程中的缺陷仍可能导致幻觉。如编码器和解码器组件的缺陷、模型优先使用偏差参数知识而非用户输入生成内容、对齐过程中的问题可能导致错误响应谄媚性幻觉以及生成策略可能导致早期错误的延续幻觉雪球效应。多智能体交互多智能体环境中智能体间的交互可能引发新的幻觉威胁。如智能体间的冲突可能导致最终响应中出现幻觉以及智能体的幻觉可能通过垂直协同传播至整个网络。 现有研究已开发了一系列应对大模型智能体幻觉威胁的措施包括数据清理、强化学习、幻觉检测、真实知识的整合、指令微调、后处理技术、模型架构优化和元编程框架等方法。4.对抗性攻击对于传统AI模型对抗性攻击者通过加入微不可察的扰动巧妙操控输入使AI模型输出偏离预期结果。在大模型智能体领域对抗性攻击主要分为两类对抗性输入攻击和提示劫持攻击如下图所示对抗性输入攻击对抗性输入攻击类似于传统的生成对抗攻击攻击者通过操控输入指令来降低大模型智能体生成内容的准确性。根据大模型智能体的模型模态对抗性输入攻击可分为L大模型对抗性输入攻击和LVM对抗性输入攻击。提示劫持攻击提示劫持攻击涉及利用特定设计的输入指令绕过大模型智能体的安全限制从而生成有害内容。这类攻击主要包括两种形式越狱攻击和提示注入。 为保障大模型智能体免受对抗性攻击现有的应对措施包括对抗性训练、输入/输出过滤、鲁棒优化以及审计与红队测试。对抗性训练对抗性训练通过将对抗性示例加入训练数据中来增强大模型在输入空间的鲁棒性。输入/输出过滤过滤机制可以从对抗性输入中消除恶意标记或从输出中去除有害内容。鲁棒优化在预训练、对齐和微调过程中通过鲁棒训练算法加强大模型智能体的防御能力。审计与红队测试审计与红队测试通过系统地探测L大模型的潜在有害输出来发现和修正问题。5.投毒与后门攻击 投毒与后门攻击通常通过在模型训练过程中向训练数据集中注入恶意数据来篡改模型参数从而降低模型性能或植入特定后门。 投毒攻击是指通过引入有毒信息如恶意训练数据操纵模型行为从而导致模型泛化能力下降或对特定输入生成预定错误。对于大模型智能体投毒攻击包括传统形式如数据投毒和模型投毒以及专为大模型智能体设计的新技术如RAG投毒和智能体投毒。数据投毒数据投毒是最常见的投毒攻击形式。由于大模型智能体从互联网和用户模型交互中收集了大量未经验证的数据数据投毒的风险显著增加。模型投毒在分布式模型预训练/推理范式如大模型智能体的协同联邦学习中攻击者可能伪装成良性智能体并在每轮通信中上传有毒的模型更新从而降低全局大模型的性能。RAG投毒攻击者可以对知识库进行投毒导致大模型智能体生成意外的响应。智能体投毒智能体投毒指通过在多智能体交互中利用复杂的投毒指令链削弱最终输出的质量和合理性。 后门攻击是一种特殊形式的目标投毒攻击与一般投毒攻击不同后门攻击旨在通过特定的触发器使模型生成攻击者期望的输出同时保持模型在主要任务上的性能。后门攻击的特点在于需要对输入进行操纵以嵌入特定触发器。通常后门攻击会通过在训练数据集中注入包含独特触发器的样本来实现。根据环节的不同可分为大模型训练过程的后门攻击和大模型推理过程的后门攻击。大模型训练过程后门攻击可能发生在预训练、对齐和微调等多个阶段。如在预训练阶段攻击者通过对文本到图像系统的编码器进行微小修改操纵大模型仅通过在提示中插入单个特殊字符触发器。在对齐阶段攻击者通过对强化学习与人类反馈RLHF训练数据进行数据投毒。在微调阶段攻击者将对抗性方法注入预定义的系统提示中使得L大模型智能体能够在规划阶段对输入提示中的后门触发器作出响应。大模型推理过程攻击者可以针对链式推理CoT提示。在推理步骤序列中插入一个后门推理步骤当输入中存在特定后门触发器时该方法可以改变生成的响应。 现有针对大模型智能体投毒与后门攻击的防御措施主要集中在识别和过滤投毒样本。此外通过移除输入样本中的触发器或引入差分隐私DP技术也可以有效缓解投毒与后门攻击的风险。6.其他安全威胁 大模型智能体还容易受到其他传统和新兴风险的攻击包括虚假与有害内容生成以及智能体劫持攻击。虚假与有害内容生成大模型智能体可能被犯罪分子恶意利用用于伪造内容或生成有害内容。例如大模型智能体可以以低成本和高适应性用于网络钓鱼诈骗或生成恶意代码。检测虚假与有害内容是应对该威胁的主要策略。智能体劫持攻击智能体劫持攻击主要针对提供在线服务的大模型智能体进行。攻击者通过对智能体的训练数据进行投毒并注入额外的寄生任务来实施劫持。防御智能体劫持攻击的技术主要包括对训练数据的清理以及移除寄生训练样本。四、大模型智能体网络的隐私威胁和防护策略1.数据记忆威胁 大模型通常具有大量参数范围从十亿到数千亿。这些参数赋予大模型卓越的理解和决策能力但也使其容易保留训练样本的细节。这些训练数据通常包含与互联网用户相关的各种个人身份信息PII和个人偏好信息PPI可能被攻击者利用从而导致隐私威胁。数据提取攻击攻击者通过精心设计的恶意查询从大模型智能体的训练数据中提取私密信息。这类攻击通常在黑箱模型下进行攻击者仅能通过精心设计的提示与部署的大模型智能体交互并获取响应内容。攻击的主要目标是诱使大模型智能体生成尽可能多的私密信息。成员推断攻击指通过分析AI模型的输出推断某个数据样本是否参与了训练。在大模型智能体领域MIA可根据大模型的训练阶段分为两种类型预训练MIA和微调MIA。预训练MIA的目标是通过分析大模型智能体生成的输出确定特定数据样本是否参与了预训练。微调MIA利用微调大模型和参考模型之间的似然比测试统计量确定特定用户是否参与了微调阶段。属性推断攻击旨在推断训练数据中某些数据样本的特定属性或特征。例如此类攻击可以用于推断某文本到图像智能体训练数据中是否包含特定艺术家风格的图像从而可能导致这些图像提供者的隐私泄露。应对措施现有缓解大模型智能体记忆化风险的对策主要集中在预训练和微调阶段的数据预处理。差分隐私DP技术和知识转移机制也是减少大模型在这些阶段记忆训练数据能力的可行方法。此外在部署大模型智能体之前检测并验证隐私泄露风险也是一种常见策略。2.大模型窃取与提示词窃取 在大模型智能体网络中大模型盗取包括模型参数、超参数和特定训练过程和提示词盗取是两种与知识产权相关的隐私威胁如下图所示。
西安交大最新综述!一文带你读懂大模型智能体及其组网与安全
一、大模型智能体概述1.什么是智能体AI Agents或agentic AI在20世纪50年代阿兰·图灵提出了图灵测试用于评估机器是否能够展现出与人类相当的智能。这些人工实体被称为AI智能体指具有自主能力的AI实体能够理解并响应人类输入、感知环境、做出决策并采取行动以实现特定目标。AI智能体既可以是软件也可以是物理实体既可以独立运行也可以与人类或其他智能体协同。典型的AI智能体包括DeepBlue、AlphaGo和AlphaZero等。过去关于AI智能体的研究主要集中在掌握符号推理等特定的专业技能或仅能围棋或象棋等特定任务上表现优异。2.什么是大模型智能体Large Model Agents 或 Agentic Large Models大模型主要包括OpenAI的GPT-4、Google的Pa大模型 2和Microsoft Copilot等大语言模型L大模型以及DALL-E 2等大视觉模型LVM。基于大模型的AI智能体显著增强了AI系统解决通用任务的能力为下一代智能体发展提供了坚实基础。作为智能体的“大脑”大模型赋予其在人机交互、少样本/零样本规划、上下文理解、知识学习和通用任务解决等方面的能力能够在物理、虚拟或混合现实环境中执行任务。大模型智能体通常分为两类软件型大模型智能体如AutoGPT和AutoGen能够自主解读人类指令并使用多种工具如搜索引擎和外部API收集信息并完成复杂任务。图1(a)展示了一种基于大模型的虚拟助手它可以生成个性化旅行计划、设置提醒、管理任务并在动态环境中持续学习和适应。具身型大模型智能体如FigureAI的Figure 02和Tesla的Optimus可以与物理世界直接交互。这类智能体能够感知和操作周围环境从而解决现实世界的问题。图1(b)展示了一种基于大模型的家用机器人它可以分析房间布局、表面类型和障碍物以制定定制化清洁策略而非仅仅执行通用指令。大模型智能体被认为大模型2.0的关键是迈向人工通用智能AGI的重要一步已广泛应用于网页搜索、推荐系统、虚拟助手、元宇宙游戏、机器人技术、自动驾驶和自动化渗透攻击等领域。3.大模型智能体相关标准IEEE SA-P3394标准于2023年推出旨在定义自然语言界面以增强L大模型应用、智能体和人类用户之间的沟通。该标准制定了一系列协议和指南用于促进APP、智能体与L大模型系统之间的无缝高效交互。这些协议和指南涵盖但不限于API的语法和语义、语音与文本格式、对话流程、提示工程集成、L大模型思维链集成以及API端点配置、认证与授权等内容。IEEE SA-P3428标准同样于2023年推出旨在制定教育应用中L大模型智能体的相关标准。主要目标是确保L大模型智能体在开源和专有系统之间的互操作性。重点领域包括L大模型与现有教育系统和其他AI组件如自适应教学系统的集成以及应对教育场景中的偏见、透明性和问责性问题。4.大模型智能体操作系统 大模型智能体的操作系统架构包括三个层次设计应用层承载智能体应用并提供一个SDK以抽象系统调用简化智能体开发。内核层包括普通操作系统内核和一个额外的大模型智能体内核且无需更改原有操作系统结构。硬件层包括物理资源如CPU、GPU、内存等这些资源通过操作系统系统调用间接管理而大模型智能体内核不直接与硬件交互。5.大模型智能体组成模块 大模型智能体通常由五个关键模块组成规划、行动、记忆、交互和安全共同构成一个连贯且智能的系统。规划模块规划模块是大模型智能体的核心利用高级推理技术设计有效的解决方案以应对复杂问题包括无反馈规划、有反馈规划、多角色自我规划和基于实际场景的规划等。记忆模块记忆模块支持智能体随时间学习和适应的能力包括短期记忆、长期记忆以及混合记忆。此外检索增强生成RAG技术可用于访问外部知识源和本地经验库以进一步提升决策可信性和最新性。行动模块行动模块使大模型智能体能够在各种环境中执行并调整行动包括具身行动、工具使用和工具制作等。交互模块交互模块使大模型智能体能够与人类、其他智能体和环境进行交互并通过静态和动态经验和知识缓存提升综合理解和高适应能力。安全模块安全模块确保大模型智能体的运行安全、合规且隐私保护可用于监控和规范智能体的行为、交互和决策以防止伤害并确保符合法律和伦理标准。二、大模型智能体网络概述1.什么是大模型智能体网络Large Model Agent Networks大模型智能体网络是由多个相互连接的大模型智能体组成的大规模协同式智能化系统。每个大模型智能体由两部分组成位于云端的大模型驱动的“大脑”对应的物理或数字“身体”如自动驾驶汽车、机器人狗、无人机和数字人等。对于具身型大模型智能体其物理身体内配备一个本地“小脑”即专用小模型或轻量化大模型用于处理本地推理任务而计算密集型任务则被卸载到云端大模型中实现云端大脑与本地大脑的协同计算。 大模型智能体的大脑既可以作为独立standalone实体运行也可以分层hierarchical部署在云服务器或边缘服务器等各种平台上。每个大模型智能体可以动态地与其他智能体、虚拟/现实环境以及人类进行交互。在大模型智能体网络中通信主要通过以下两种模式进行智能体内通信intra-agent communications关注单个大模型智能体内部的数据/知识交换确保各模块如规划、行动、记忆、交互和安全模块的协调运作。实现“云端大脑”与其物理或数字“身体”以及“本地小脑”之间状态、数据和知识的无缝同步。智能体间通信inter-agent communications在多个大模型智能体之间高效交换信息包括任务信息、知识和推理结果并协调计算任务构建起一个互联的协同式网络以支持任务分配、资源共享和协同行动从而超越单个大模型智能体的智能应对更加复杂的任务。总结与可研究点智能体内通信使单个大模型智能体的各组件如规划、行动、记忆和安全模块协同工作并通过发布/订阅机制等框架基于相关性高效地交换数据。 智能体间通信使多个大模型智能体能够协同、共享资源并协调行动以实现群体智能。诸如FIPA ACL和KQML等协议定义了通信词汇、消息结构以及交互策略这对智能体间的有效通信至关重要。有效的智能体间通信协议需适配网络环境如无线或有线、任务延迟要求、鲁棒性和安全性等。此外针对不同系统和智能体平台的协议互操作性是一大挑战。2.大模型智能体组网的挑战- 大模型智能体网络的动态构建构建动态大模型智能体网络需要解决多样性、高效性和便携性之间的“三难困境”。- 异构网络中的协同式大模型服务提供由于运行完整大模型需要大量计算资源边缘或终端智能体通常缺乏运行完整大模型的能力主要存在大模型轻量化策略包括知识迁移、量化、模型压缩等和大模型分片策略包括分割学习、混合专家模型等。- 自主优化和安全协同动态资源如数据、知识、模型、计算和通信等多维资源的合理分配以及协同中的安全可信保障机制对大模型智能体网络的有效性和可靠性至关重要。3.关键支撑技术大模型智能体网络架起了人类世界、物理世界与网络空间的桥梁其引擎层由五种关键技术驱动基座大模型技术、知识相关技术、交互技术、数字孪生技术和多智能体协同技术。基座大模型技术包括大语言模型、大视觉模型和多模态大模型作为大模型智能体的“大脑”支持其在规划、行动、记忆、交互和安全等方面的能力。主要功能包括高级推理、少样本/零样本泛化、工作使用能力和适应性。知识相关技术通过结合内部知识来自智能体与人类、环境及其他智能体的交互和外部知识如知识图谱和向量数据库提升大模型智能体生成最新、上下文相关输出的能力。包括知识共享、知识融合和知识检索等能力。交互技术增强大模型智能体与人类用户自然、沉浸式、上下文相关的交互能力。例如通过NLP等人机交互技术在手持设备和可穿戴设备的帮助下与人类进行交互以理解人类的意图、欲望和信念。包括NLP、人机交互、3D数字人生成、增强/虚拟/混合现实AR/VR/MR等。数字孪生技术大模型智能体可以通过数字孪生技术实现其物理/数字“身体”与云/边端“大脑”之间的数据/状态高效同步。包括虚拟-物理同步、虚拟-物理反馈和预测分析等。多智能体协同技术通过多智能体强化学习、合作博弈、平均场博弈、纳什谈判集和群体智能算法等实现共同目标和复杂任务的协同工作通过高效的云/边网络相互连接有效共享数据、知识和计算结果。包括多智能体规划、分布式推理等。4.关键特性高度异构性大模型智能体网络通常管理大量多样化的节点需支持各种任务和服务这带来了互操作性挑战。具体表现为能力差异、服务多样性和通信异构性。时空动态性大模型智能体网络在时间和空间上的动态演变要求系统具有实时响应的能力。具体表现为时间动态性和空间动态性。语义式通信采用语义感知通信优先交换有意义或上下文相关的信息以减少通信开销。包括智能体内语义式通信和智能体间语义式通信。信息中心式路由相比传统基于IP的路由网络大模型智能体网络不关注从哪儿获取数据(where the data cached)更关注于优先快速检索所需相关信息(what data is needed)例如命名数据网络NDN和发布/订阅pub/sub模型。分层分布式协同大模型智能体网络在云、边缘和终端采用分层级的分布式决策框架实现资源受限或低延迟场景中的高效协同。包括层内协同云云、边边、端端和跨层协同云边、边端、云端、云边端。5.云边端协同框架 如上图所示云-边-端协同框架由云、边缘和终端三个功能层组成云层为集中式智能中心承载基座大模型如超过1000亿参数提供广泛的存储和计算资源。负责处理计算密集型任务以及维护全局知识库。边缘节点提供中间层智能承载中等规模的大模型如10B-50B参数。边缘节点连接云和终端设备负责任务导向型大模型微调、近端数据聚合和本地化数据集的上下文推理。终端设备执行轻量级实时任务使用小型本地大模型如0-10B参数。此外终端设备优先保护隐私通过本地处理敏感数据后再与边缘或云层共享洞察。 这种跨云、边缘和终端设备的分层协同具有可扩展性、效率、适应性、安全性等关键优势。6.交互策略6.1分布式协同 分布式协同是连接大模型智能体的基本交互模式其中分布式大模型智能体通过合作实现共同目标、共享资源并优化集体成果。具体包括以下三种协同机制协同式大模型微调通过协同分割学习(Split Learning, SL)和联邦边缘学习(Federated Edge Learning在资源受限环境中对大模型进行隐私保护的高效微调。协同式大模型推理利用混合专家模型(Mixture of Experts, MoE)和分割推理(Split Inference)等方法解决资源受限环境中的计算难题。利用角色扮演(Role-Playing)实现通用场景下大模型智能体间的协同推理与决策。协同式大模型缓存通过边缘缓存机制预分发大模型减少模型下载延迟并支持动态替换和路由策略优化。包括边缘大模型缓存、边缘大模型替换、边缘大模型访问路由、RAG边缘缓存等。总结与可研究点在分布式协同中分割学习和混合专家模型聚焦于模型分割以显著减轻边缘设备的计算负担而联邦学习和角色扮演则强调模型组合以增强分布式智能体之间的协同能力。 在构建云边端协同的大模型智能体系统中面临的关键挑战包括大模型的分割如SL和MoE、模型放置、模型替换、模型路由以及知识缓存的联合优化同时还需应对边缘环境的异构性与动态性。在云边架构中高效部署和运行大模型智能体需要在模型分割与模型组合策略之间找到精妙的平衡重点优化资源分配并尽量降低服务延迟。此外解决方案需适应边缘设备固有的网络条件和硬件限制的不断变化。 未来的研究方向包括将这些技术无缝集成在考虑边缘网络静态与动态特性的基础上提供更高效、更具可扩展性的解决方案以支持大规模应用场景的需求。6.2分布式竞争 在竞争场景中大模型智能体以非合作策略追求自身利益采用多智能体辩论和非合作博弈模型通过动态互动矫正偏见、优化决策。6.3部分协同 部分协同发生在大模型智能体的利益部分重叠但不完全一致的情况下。大模型智能体可能共享某些资源或信息同时在其他方面保持独立。通过分层博弈和联盟形成博弈智能体在部分合作的环境中优化资源利用。7.协同范式 如上图所示在云-边-端架构下大模型智能体的协同范式涉及数据协同、计算协同和知识协同三个方面。7.1数据协同 在共同任务中大模型智能体不断交换并融合各自的数据如任务导向的感知数据包括多模态视角和时空视角两个方面。多模态数据协同融合来自多种模态的数据例如文本、图像、音频和视频以提供对环境的全面理解。包括两类任务(i)通过结合不同模态的数据可以创建统一的表示形式利用每种数据类型的优势。(ii)大模型智能体能够跨模态检索相关信息增强其应对复杂查询和场景的能力。时空数据协同通过跨模态和多源数据的整合和同步使大模型智能体在时间上实现全面动态的环境理解。此协同确保智能体能够有效分析模式、预测未来状态并基于数据的时空分布实时做出明智决策。7.2计算协同 大模型智能体通过分布式计算任务如服务级联实现协调推理利用集体计算能力更高效地处理复杂计算任务。- 水平协同水平协同指将复杂任务分解为可管理的子任务由多个大模型智能体并行独立完成各自分配的任务然后汇总结果生成最终输出。垂直协同垂直协同将复杂任务分解为多个阶段不同的大模型智能体按顺序处理每个阶段完成各自任务后将结果传递给下一个智能体直到整个任务完成。混合协同在实际的大模型智能体环境中真实应用通常需要水平协同和垂直协同的结合形成混合协同。7.3知识协同 大模型智能体通过知识同步、融合和检索以及分布式学习算法共享特定领域的知识和经验共同提升问题解决能力从而做出更明智的行动和决策。知识包括隐性与显性知识隐性知识源于经验与上下文使智能体能够快速适应突发情况显性知识即结构化、明确定义的信息确保智能体依据清晰规则或事实作出决策。知识共享知识共享包括多个大模型智能体之间的知识共享和更新以确保决策的一致性。包括知识传递和知识更新等多种方式。知识传递通过学习的参数形式将隐性知识从一个大模型智能体传递到另一个知识更新则是在知识对齐的前提下实现显性知识和隐性知识的更新。知识融合知识融合包括多智能体间的知识整合和补全阶段。知识整合通过整合并优化来自不同大模型智能体的知识以形成用于共同任务的稳健且全面的公共知识库。知识补全通过大模型进行文本编码或生成事实提升知识图谱补全性能。知识检索大模型智能体不仅依赖于预训练过程中学到的知识还可以动态访问和查询外部知识库如数据库、互联网和知识图谱以获取最新信息辅助推理。根据知识源的特性可分为基于静态知识源的RAG如Wikipedia和文档和基于动态知识源的RAG如新闻API。其中基于动态知识源的RAG又包括新知识检索、过去知识检索和自引导检索三种。三、大模型智能体网络的安全威胁和防护策略1.身份认证威胁 高效可靠的身份认证机制是保障大模型智能体系统功能性和完整性的前提。根据交互实体的不同针对大模型智能体的身份验证威胁可分为三类用户-智能体身份验证威胁大模型智能体通常存储大量用户的私人数据及企业的敏感信息与传统身份验证场景不同攻击者可以利用大模型智能体的高级生成能力增强其绕过身份验证的手段。智能体-智能体身份验证威胁在此场景下主要威胁是智能体伪装攻击攻击者可能破坏或冒充合法智能体干扰协同工作流。智能体-TPSP身份验证威胁此类身份验证威胁主要针对大模型智能体与TPSP之间的通信通道使其面临拦截攻击如中间人攻击和会话劫持的风险。例如攻击者可能拦截智能体-TPSP通信篡改响应或注入错误数据从而导致用户得到意外结果。应对措施开发适应性强、协同性高的弹性身份验证机制以确保复杂动态环境中的大模型智能体系统安全性和可靠性至关重要。主要包括基于风险的自适应身份验证和多智能体协同的身份验证。2.拒绝服务DoS DoS攻击能够显著增加资源消耗从而使大模型智能体过载并中断服务可用性。根据攻击方法的不同大模型智能体网络中的DoS攻击可分为数据导向型DoS攻击如海绵示例和泛滥导向型DoS攻击如智能僵尸网络。【加图22】海绵示例海绵示例是经过对抗性设计的输入可显著增加神经网络的能耗和计算延迟。大模型智能体特别容易受到此类攻击因为攻击者可以以较低成本利用大模型生成大量优化的海绵示例从而放大攻击效果并增加防御难度。智能僵尸网络智能僵尸网络利用先进的AI技术尤其是大模型技术来增强攻击能力。与传统僵尸网络不同智能僵尸网络利用大模型的理解能力分析目标系统中的漏洞自主优化攻击策略并提升攻击效果。应对措施针对DoS攻击的对策可分为两种主要类型被动防御和主动防御。被动防御侧重于检测和过滤恶意输入而主动防御以蜜罐技术为代表。3.幻觉 大模型智能体中的幻觉现象是指生成的输出内容与用户输入、生成的上下文或真实世界条件不符从而对服务可靠性构成重大风险。可分为以下四类输入冲突型幻觉输入冲突型幻觉指大模型智能体生成的内容与用户输入不一致。上下文冲突型幻觉大模型智能体生成的内容与多轮交互中先前生成的信息不一致。知识冲突型幻觉生成的响应与知识库中的对应知识不一致。事实冲突型幻觉大模型智能体生成的内容与已验证的真实世界事实不一致。 大模型智能体的幻觉问题可归因于以下三方面数据与知识、训练与推理、多智能体交互。数据与知识用于内容生成的训练数据和知识本身的偏差或不完备性。如数据标注的不相关性、训练数据分布不均、数据预处理过滤不充分以及训练数据本身知识偏差等原因。训练与推理即使训练数据几乎无偏训练和推理过程中的缺陷仍可能导致幻觉。如编码器和解码器组件的缺陷、模型优先使用偏差参数知识而非用户输入生成内容、对齐过程中的问题可能导致错误响应谄媚性幻觉以及生成策略可能导致早期错误的延续幻觉雪球效应。多智能体交互多智能体环境中智能体间的交互可能引发新的幻觉威胁。如智能体间的冲突可能导致最终响应中出现幻觉以及智能体的幻觉可能通过垂直协同传播至整个网络。 现有研究已开发了一系列应对大模型智能体幻觉威胁的措施包括数据清理、强化学习、幻觉检测、真实知识的整合、指令微调、后处理技术、模型架构优化和元编程框架等方法。4.对抗性攻击对于传统AI模型对抗性攻击者通过加入微不可察的扰动巧妙操控输入使AI模型输出偏离预期结果。在大模型智能体领域对抗性攻击主要分为两类对抗性输入攻击和提示劫持攻击如下图所示对抗性输入攻击对抗性输入攻击类似于传统的生成对抗攻击攻击者通过操控输入指令来降低大模型智能体生成内容的准确性。根据大模型智能体的模型模态对抗性输入攻击可分为L大模型对抗性输入攻击和LVM对抗性输入攻击。提示劫持攻击提示劫持攻击涉及利用特定设计的输入指令绕过大模型智能体的安全限制从而生成有害内容。这类攻击主要包括两种形式越狱攻击和提示注入。 为保障大模型智能体免受对抗性攻击现有的应对措施包括对抗性训练、输入/输出过滤、鲁棒优化以及审计与红队测试。对抗性训练对抗性训练通过将对抗性示例加入训练数据中来增强大模型在输入空间的鲁棒性。输入/输出过滤过滤机制可以从对抗性输入中消除恶意标记或从输出中去除有害内容。鲁棒优化在预训练、对齐和微调过程中通过鲁棒训练算法加强大模型智能体的防御能力。审计与红队测试审计与红队测试通过系统地探测L大模型的潜在有害输出来发现和修正问题。5.投毒与后门攻击 投毒与后门攻击通常通过在模型训练过程中向训练数据集中注入恶意数据来篡改模型参数从而降低模型性能或植入特定后门。 投毒攻击是指通过引入有毒信息如恶意训练数据操纵模型行为从而导致模型泛化能力下降或对特定输入生成预定错误。对于大模型智能体投毒攻击包括传统形式如数据投毒和模型投毒以及专为大模型智能体设计的新技术如RAG投毒和智能体投毒。数据投毒数据投毒是最常见的投毒攻击形式。由于大模型智能体从互联网和用户模型交互中收集了大量未经验证的数据数据投毒的风险显著增加。模型投毒在分布式模型预训练/推理范式如大模型智能体的协同联邦学习中攻击者可能伪装成良性智能体并在每轮通信中上传有毒的模型更新从而降低全局大模型的性能。RAG投毒攻击者可以对知识库进行投毒导致大模型智能体生成意外的响应。智能体投毒智能体投毒指通过在多智能体交互中利用复杂的投毒指令链削弱最终输出的质量和合理性。 后门攻击是一种特殊形式的目标投毒攻击与一般投毒攻击不同后门攻击旨在通过特定的触发器使模型生成攻击者期望的输出同时保持模型在主要任务上的性能。后门攻击的特点在于需要对输入进行操纵以嵌入特定触发器。通常后门攻击会通过在训练数据集中注入包含独特触发器的样本来实现。根据环节的不同可分为大模型训练过程的后门攻击和大模型推理过程的后门攻击。大模型训练过程后门攻击可能发生在预训练、对齐和微调等多个阶段。如在预训练阶段攻击者通过对文本到图像系统的编码器进行微小修改操纵大模型仅通过在提示中插入单个特殊字符触发器。在对齐阶段攻击者通过对强化学习与人类反馈RLHF训练数据进行数据投毒。在微调阶段攻击者将对抗性方法注入预定义的系统提示中使得L大模型智能体能够在规划阶段对输入提示中的后门触发器作出响应。大模型推理过程攻击者可以针对链式推理CoT提示。在推理步骤序列中插入一个后门推理步骤当输入中存在特定后门触发器时该方法可以改变生成的响应。 现有针对大模型智能体投毒与后门攻击的防御措施主要集中在识别和过滤投毒样本。此外通过移除输入样本中的触发器或引入差分隐私DP技术也可以有效缓解投毒与后门攻击的风险。6.其他安全威胁 大模型智能体还容易受到其他传统和新兴风险的攻击包括虚假与有害内容生成以及智能体劫持攻击。虚假与有害内容生成大模型智能体可能被犯罪分子恶意利用用于伪造内容或生成有害内容。例如大模型智能体可以以低成本和高适应性用于网络钓鱼诈骗或生成恶意代码。检测虚假与有害内容是应对该威胁的主要策略。智能体劫持攻击智能体劫持攻击主要针对提供在线服务的大模型智能体进行。攻击者通过对智能体的训练数据进行投毒并注入额外的寄生任务来实施劫持。防御智能体劫持攻击的技术主要包括对训练数据的清理以及移除寄生训练样本。四、大模型智能体网络的隐私威胁和防护策略1.数据记忆威胁 大模型通常具有大量参数范围从十亿到数千亿。这些参数赋予大模型卓越的理解和决策能力但也使其容易保留训练样本的细节。这些训练数据通常包含与互联网用户相关的各种个人身份信息PII和个人偏好信息PPI可能被攻击者利用从而导致隐私威胁。数据提取攻击攻击者通过精心设计的恶意查询从大模型智能体的训练数据中提取私密信息。这类攻击通常在黑箱模型下进行攻击者仅能通过精心设计的提示与部署的大模型智能体交互并获取响应内容。攻击的主要目标是诱使大模型智能体生成尽可能多的私密信息。成员推断攻击指通过分析AI模型的输出推断某个数据样本是否参与了训练。在大模型智能体领域MIA可根据大模型的训练阶段分为两种类型预训练MIA和微调MIA。预训练MIA的目标是通过分析大模型智能体生成的输出确定特定数据样本是否参与了预训练。微调MIA利用微调大模型和参考模型之间的似然比测试统计量确定特定用户是否参与了微调阶段。属性推断攻击旨在推断训练数据中某些数据样本的特定属性或特征。例如此类攻击可以用于推断某文本到图像智能体训练数据中是否包含特定艺术家风格的图像从而可能导致这些图像提供者的隐私泄露。应对措施现有缓解大模型智能体记忆化风险的对策主要集中在预训练和微调阶段的数据预处理。差分隐私DP技术和知识转移机制也是减少大模型在这些阶段记忆训练数据能力的可行方法。此外在部署大模型智能体之前检测并验证隐私泄露风险也是一种常见策略。2.大模型窃取与提示词窃取 在大模型智能体网络中大模型盗取包括模型参数、超参数和特定训练过程和提示词盗取是两种与知识产权相关的隐私威胁如下图所示。