终于有人讲清楚了！21张图解LLM与Agent理论基础（非常详细），从入门到精通，收藏这一篇就够了！-尧图企业网站定制

图解AI大模型通识21张图强化LLM与Agent 理论基础前言**大模型技术日新月异新概念层出不穷。**初学者就像走进了一个巨大的技术超市今天被 Transformer 的注意力机制吸引明天又被 Prompt 的魔法咒语迷住后天 LangChain 又来拉链式地串联一切。结果就是——购物车里装满了各种商品但回到家后一下子不知道怎么搭配使用。大模型学习过程容易出现知识碎片化、缺乏系统性难以形成深度理解和持久记忆。更要命的是大模型发展的速度大于整理文章的速度本文旨在通过可视化图解的形式整理相关概念辅助构建从 AI 基础到 Agent 应用的知识体系帮助读者系统掌握大模型技术的核心逻辑和演进脉络。一、人工智能技术基础从符号主义到深度学习1.1 人工智能技术架构在学习 AI 的过程中如果能对整个技术版图有一个大致轮廓知道每个知识点大概处于哪个层级和位置对学习效果非常有帮助。人工智能是一个庞大的知识领域远不是几张图或少数术语所能完全概括。大多数人脑中其实已经「预训练」了不少 AI 知识本文希望通过一个框架性的整理对你的「大脑模型」进行一次小小的「微调」。图 1人工智能领域架构图1.2 人工智能的分层领域**核心关系**人工智能AI → 机器学习ML → 深度学习DL。发展历程符号主义时代1950s-1980s基于规则的专家系统依赖人类显式编写规则。机器学习时代1990s-2000s从数据中自动学习规律开始弱化「手工规则」。深度学习时代2010s-2020s大规模神经网络在语音、视觉、NLP 等领域全面开花。大模型时代2020s 至今超大规模预训练模型、生成式模型爆发迈向通用智能。图 2深度学习与大模型的关系1.3 深度学习的核心神经网络家族**神经网络Neural Network**的基础是简单的感知机模型由输入层、隐藏层、输出层组成主要用于通用的模式识别任务。在深度学习的发展中出现了多种典型架构模型特点优势应用 / 局限CNN卷积神经网络局部连接、参数共享对局部空间特征敏感参数量可控广泛用于图像分类、目标检测等视觉任务RNN / LSTM循环神经网络序列建模、具备记忆机制能够处理时间序列、文本序列难以并行计算长距离依赖问题明显TransformerSelf-Attention 机制、完全并行化解决 RNN 并行性与长距离依赖问题为大模型奠基已成为 NLP、多模态等领域的大一统架构Transformer 与 CNN、RNN 处于同一层级都是神经网络的基础架构模式。Transformer 的革命性在于摆脱序列依赖支持完全并行化训练更好地建模长距离依赖为大模型的扩展提供了可行的工程路径。1.4 机器学习的范式监督 / 无监督等学习方式深度学习是机器学习的子领域而「监督学习 / 无监督学习 / 强化学习」等是从学习范式的角度对机器学习进行的分类。学习方式数据标注主要特点典型应用监督学习完全标注学习输入到输出的映射关系分类、回归如垃圾邮件识别、房价预测无监督学习无标注从数据中发现模式和结构聚类、降维如用户分群、特征压缩强化学习奖励 / 惩罚反馈在环境中通过试错学习最优策略游戏 AI、机器人控制等半监督学习部分标注结合少量标注与大量未标注数据文本分类、图像识别等标注成本高的任务自监督学习自构造标签从数据本身构造预测任务来学习表示预训练模型、BERT 等基础模型训练核心区别监督 / 无监督的关键在于是否使用带标签的数据强化学习则通过试错奖励信号来学习决策策略。1.5 为什么需要大模型从传统模型到大模型本质是从「专家系统」走向「通用智能」的过程传统模型类似「专门训练的专家」针对单一任务精调泛化能力有限。大模型类似「知识渊博的通才」在统一模型中承载多任务、多领域能力。图 3传统模型 vs 大模型对比图二、大模型技术从 Transformer 到模型应用2.1 大模型领域知识框架大模型领域概念众多包括架构、训练范式、推理方式、应用形态等。可以从以下几个层次进行理解底层基础算力、数据、模型架构如 Transformer。训练与对齐预训练、微调、指令微调、对齐RLHF 等。能力扩展工具调用、RAG、长上下文、代码能力、多模态。应用形态聊天助手、代码助手、搜索增强、Agent、Multi-Agent 等。图 4大模型领域架构图2.2 大模型发展历程大模型的发展可以简单概括为从「预训练语言模型」逐步演进到「通用多模态 Agent 平台」早期基于统计与 n-gram 的语言模型。中期基于 RNN / LSTM 的语言建模。转折点Transformer 架构提出后开始大规模预训练。大模型阶段GPT 系列、BERT 系列、各国与各厂商自研模型蓬勃发展。图 5大模型发展时间轴图图 62025 年主流大模型2.3 Transformer 架构并行化的革命前面提到 RNN / LSTM 的主要问题难以并行序列依赖严格无法充分利用现代硬件并行能力。长距离依赖弱对很久之前的信息容易「遗忘」。Transformer 的核心解决方案Self-Attention 机制。图 7Transformer 核心架构图1Self-Attention自注意力概述让序列中的每个元素都能与其他所有元素「对话」通过计算相似度分配注意力权重从而捕捉序列内部的依赖与语义关系。比喻就像你在读一段话时会自动把每个词与整段话中其他词联系起来理解它在上下文中的真正含义。2多头注意力Multi-Head Attention概述将输入向量拆分成多个「头」每个头独立学习一套注意力权重从不同「视角」关注信息。比喻好比让多个专家从不同角度分析同一段文字再综合他们的结论。3位置编码Positional Encoding问题Self-Attention 本身对「顺序」不敏感。解决通过显式加入位置编码让模型知道每个 token 所在的位置。4编码器-解码器架构Encoder-Decoder概述编码器负责理解和压缩输入信息解码器在此基础上逐步生成输出序列。比喻编码器像「理解者」解码器像「表达者」常用于机器翻译、文本摘要等任务。Transformer 的革命性意义彻底解决 RNN 在并行化上的瓶颈为大规模预训练提供高效架构成为现代大模型的事实标准。2.4 大模型的训练三阶段预训练、微调、对齐分类预训练Pre-training微调Fine-tuning对齐Alignment目标学习语言的基础表示和知识适应特定任务或领域让模型行为符合人类价值观与期望数据大规模无标注文本数据有标注的任务相关数据人类反馈数据、偏好数据等方法自监督学习掩码语言模型、下一词预测等监督学习或指令微调Instruction TuningRLHF、人类偏好建模、Constitutional AI、DPO 等结果获得基础语言理解与生成能力在特定任务上性能大幅提升模型更安全、有用、诚实比喻给模型「灌输知识」在专业方向上「精进」培养「情商」与「沟通能力」2.5 大模型的分类与应用大模型可以从多个维度进行分类例如按模态文本模型、图像模型、语音模型、多模态模型等。按用途通用对话模型、编程模型、搜索增强模型、Agent 型模型等。按部署形态云端大模型、本地轻量模型、端侧模型等。图 8大模型分类与应用2.6 Prompt Engineering与 AI 对话的艺术Prompt是人与 LLM 之间的桥梁清晰的 Prompt 是指令模型的灵魂。好的 Prompt目标清晰、约束明确、步骤拆解合理、提供适当上下文。差的 Prompt指令模糊、缺乏边界条件、缺少示例、缺少角色设定。图 9Prompt 介绍图2.7 RAG检索增强生成RAGRetrieval-Augmented Generation是一种将外部知识检索与大模型生成结合的技术路线在调用大模型前从向量数据库或搜索引擎中检索相关文档将检索到的内容与用户问题一起输入模型模型在「读完资料」的基础上进行回答提升准确性与时效性。图 10RAG 介绍图三、智能体Agent技术让 AI 具备行动能力3.1 智能体Agent的定义许多人对 AI Agent 的概念比较模糊一个重要原因是Agent 在不同语境下有多种定义。可以从三个视角理解1学术视角AI Agent 具备以下能力的智能实体感知能力Perception决策能力Decision Making行动能力Action目标驱动Goal Oriented它不是一个简单的模型而是一个能够在环境中自主运行的智能体。2现代大模型时代的视角在大模型时代AI Agent 通常包含大模型LLM / 多模态模型核心的推理、理解与生成能力。记忆Memory存储长期知识、上下文与交互历史。工具使用Tool Use / Function Calling调用 API、数据库、搜索引擎、代码执行器等外部能力。规划Planning将复杂任务拆解为可执行步骤进行反思与迭代。行动Action根据计划调用工具、操作系统或应用直至完成目标。3产品 / 工程视角从产品和工程实践看AI Agent 是一个可以持续运行、可重复执行任务、能自主完成工作的软件智能体例如自动写代码、运行代码、修复错误的 AI Dev Agent自动处理客户咨询、工单流转的 AI 客服 Agent自动分析业务数据并生成结论的 AI 分析 Agent 等。总结定义广义AI Agent 是一种能够在环境中自主感知、思考、规划并执行行动以达成特定目标的智能系统。与大模型关系Agent 不一定必须包含大模型但当前主流 Agent 基本都以 LLM 或多模态模型为核心外接工具调用、记忆与规划机制形成类似人类执行任务的闭环能力。**更易落地的当下定义**AI Agent 是基于大模型的自主智能系统具备感知环境、保持记忆、进行规划、调用工具并执行行动以实现明确目标的能力。3.2 智能体和大模型从「大脑」到「完整的身体」大语言模型LLM相当于一个「强大的大脑」具备丰富知识和推理能力但本身没有「手脚」无法直接感知世界或执行操作。智能体Agent在拥有「大脑」LLM的基础上再加上「手脚」Tool和「记忆」Memory可以主动感知、规划、行动和反思。3.3 智能体的四大核心组件最常见的一张图会把智能体拆解成四大核心组件图 11智能体核心组件原图图 12智能体核心组件翻译图模块功能能力比喻大脑模块Brain / LLM推理、规划、决策逻辑推理、因果分析、任务分解Agent 的「大脑」工具模块Tool Module执行具体操作Function Calling、API 调用、代码执行等Agent 的「手脚」记忆模块Memory Module存储短期与长期信息短期记忆对话历史、上下文窗口与长期记忆向量数据库、知识图谱Agent 的「记忆」规划模块Planning Module任务分解、执行路径规划制定、调整与优化任务执行计划Agent 的「计划能力」3.4 智能体的工作流程感知 - 决策 - 行动 - 反思本文侧重的是基于大模型的智能体LLM Agent其典型流程包括图 13智能体执行流程图图 14智能体循环Agent Loop智能体循环的核心步骤感知Perception通过传感器如 API 监听、用户输入接口接收来自环境的输入信息这些信息即为观察Observation。思考Thought由大语言模型驱动的内部推理过程可细分为规划Planning结合当前观察与记忆更新对任务与环境的理解制定或调整行动计划将复杂目标拆解为子任务。工具选择Tool Selection从可用工具库中选择最合适的工具并确定调用参数。行动Action通过执行器Actuators执行具体行动通常表现为调用某个工具如代码解释器、搜索 API 等对环境施加影响。观察与反思根据行动结果更新记忆与计划进入下一轮循环。从应用角度看Agent Loop 通常对应「不断根据用户需求和环境反馈迭代执行任务直至达成目标」。图 15应用角度看智能体循环3.5 MCP 协议**MCPModel Context Protocol**是一种开放标准协议用于连接 AI 应用与外部数据源和工具提供统一接口让 AI 模型安全访问文件系统、数据库、API 等资源支持本地和远程服务器提供工具调用与资源访问能力简化 AI 应用与外部系统的集成开发。MCP 由 Anthropic 等公司推动旨在标准化 AI 应用的上下文管理和外部交互。图 16MCP 协议示意图3.6 智能体设计的参考流程设计一个 AI Agent 时通常会经历以下步骤明确目标与场景设计 Agent 的能力边界、工具集合与记忆策略规划交互流程与 Agent Loop迭代调优与监控评估。图 17智能体设计参考流程四、多智能体Multi-Agent技术AI 协作的新范式4.1 多智能体简介为什么需要多智能体1单智能体的局限性能力单一很难同时具备多种专业技能任务复杂某些任务需要多步骤、多领域协同效率低下串行执行难以充分利用并行资源扩展困难难以应对大规模分布式场景。2多智能体的优势专业化分工每个智能体专注自己的领域并行处理多个智能体同时工作加速整体任务复杂任务分解将大任务拆解为多个子任务分别处理系统可扩展性可以按需动态增加或替换智能体。多智能体Multi-Agent模式是智能体系统从「单打独斗」走向「团队协作」的核心演进方向通过多个专业化智能体通信机制协调策略实现从「全能型助手」到「专家团队」的转变。4.2 多智能体的协作模式常见的多智能体协作模式包括主从模式一个主 Agent 调度多个子 Agent平行协作多个 Agent 平级协作通过协调机制统一结果黑板模式所有 Agent 通过共享黑板交换信息组织 / 角色模式以「部门 - 角色」的方式分配任务。图 18多智能体常见协作模式4.3 A2A 协议A2AApplication to Application协议是一种企业级集成协议用于实现不同应用系统之间的直接通信和数据交换。在 AI 与多智能体场景下A2A 协议可用于定义不同 AI 智能体之间的消息格式与交互规则支持任务分配机制和协作流程实现智能体之间的知识共享、能力互补与分布式问题求解。图 19A2A 协议在多智能体领域的应用4.4 多智能体的核心机制多智能体系统的核心机制包括任务分解将复杂问题拆分为多个子任务并根据各智能体的专业能力合理分配。智能体协调通过任务调度、优先级管理和负载均衡等策略避免资源冲突和重复劳动。通信协议建立标准化的信息交换机制支持同步与异步通信保证数据与状态传递的准确性和及时性。决策融合对多个智能体的决策结果进行整合通过投票、加权平均或专家系统等方式形成最终决策。图 20多智能体核心机制图4.5 主流多智能体框架多智能体框架是构建复杂 AI 系统的重要基础常见框架包括示例面向科研的多智能体仿真平台与大模型结合的多 Agent 协作框架支持工具编排与工作流的 Agent 平台等。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

高效稳定的六轴机械手程序：信捷XD5和威纶触摸屏编写，成熟可靠且具有借鉴价值高，附带详尽注释

生成OFDM信号时，先得把数据映射到子载波上。128个子载波里实际用120个（掐头去尾防频谱泄露），用16QAM调制的话代码大概长这样

半主动悬架搞起来比想象中有意思。最近在玩天棚阻尼控制的1/4车模型，这玩意儿对车身垂向加速度的控制效果确实有点东西。咱们直接上干货，先说说模型怎么搭的

三步升级小爱音箱：打造专属AI语音助手的终极指南

Redis for Windows终极指南：2024最新安装配置完整教程

5分钟快速上手：免费开源像素字体完整指南与实战应用

Windows视频播放终极解决方案：如何用LAV Filters告别格式兼容烦恼

OBS多平台同步推流终极解决方案：obs-multi-rtmp完全技术指南

OpenCore Legacy Patcher终极教程：如何让老旧Mac重获新生，运行最新macOS

【AI Daily】AI日报 | 2026-05-24

Go语言MongoDB文档数据库操作指南

【前端无障碍】无障碍测试：确保你的应用对所有人友好

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势