副标题从 7 层能力框架理解 AI Agent 到底能做什么——以及不能做什么日期2026年6月29日一个让人困惑的问题同一个模型比如 DeepSeek在两种场景下表现截然不同场景 A在网页对话框里用你: 帮我查一下为什么我的程序崩溃了 DeepSeek: 可能是内存溢出、空指针异常、或者驱动问题... 推理很合理但它不能碰你的电脑场景 B在 Claude CodeAgent里用你: 帮我查一下为什么我的程序崩溃了 Agent: ① 执行 nvidia-smi → 看到驱动版本 535 ② 查看 Ollama 日志 → NVIDIA driver too old ③ 查 Ollama 文档 → v0.30.11 要求 ≥ 550 ④ 给出 3 种升级方案 ⑤ 执行选中的方案 ⑥ 验证 segfault 已修复 ✅模型是同一个但结果天差地别。多出来的能力不是来自模型而是来自Agent 框架。这篇文章带你拆解Agent 到底比裸模型多了什么每层能力长什么样以及——它做不到什么。一、Agent 不是更聪明的模型最常见的误解“Agent 就是让 AI 自己调用自己套娃而已。”不对。Agent 是一个三层的架构┌──────────────────────────────────────┐ │ Agent 架构 │ │ │ │ ① 模型 (Model) — 大脑 │ │ └ 负责推理、规划、判断 │ │ │ │ ② 工具 (Tools) — 手脚 │ │ └ 读文件、写代码、执行命令、 │ │ 调 API、搜网络、操作数据库 │ │ │ │ ③ 协议 (Protocol) — 神经系统 │ │ └ 模型 → 工具的标准接口 │ │ MCP: JSON-RPC 2.0 │ └──────────────────────────────────────┘没有工具的模型 一个被困在笼子里的天才。它什么都知道但什么都碰不到。Agent 模型 工具 协议。缺任何一个都不成立。二、Agent 的 7 层能力金字塔基于我们三个月里用 Claude Code 本地 Qwen3-8B 云端 DeepSeek 的实际项目经验我总结了一个Agent 能力金字塔┌──────────┐ │ ⑦ 连 │ 连接外部世界 ┌┴──────────┴┐ │ ⑥ 规 │ 任务规划与拆解 ┌┴────────────┴┐ │ ⑤ 循 │ 试错循环 ┌┴──────────────┴┐ │ ④ 修 │ 修改系统 ┌┴────────────────┴┐ │ ③ 诊 │ 诊断分析 ┌┴──────────────────┴┐ │ ② 试 │ 动手验证 ┌┴────────────────────┴┐ │ ① 读 │ 读取状态 └──────────────────────┘下面逐层解释每层都用一个我们项目里的真实案例来说明。第①层读 (Read) — 读取系统状态Agent 能做什么读文件、查系统状态、看日志、检查版本号。普通 LLM 不能做什么它不知道你的电脑里装了什么、日志写了什么、配置文件设了什么。真实案例Qwen3 本地部署时 segfault。 Agent 做了: cat /var/log/ollama.log → NVIDIA driver too old nvidia-smi → 驱动版本 535 ls /proc/driver/nvidia/ → 确认 GPU 信息 python3 --version → Python 3.8 人只需要说一句模型崩溃了Agent 自己把 4 份信息读齐了。关键区别裸模型比如你在网页上问 GPT只能根据训练数据猜你的系统状态。Agent 可以去读——0% 猜测100% 事实。第②层试 (Execute) — 动手验证假设Agent 能做什么运行命令、执行代码、调 API、测试网络。真实案例问题Python 请求 Ollama 超时。 Agent 的诊断过程 ① curl localhost:11434 → 通 ✅ 排除 Ollama 问题 ② curl GitHub → 通 ✅ 排除网络问题 ③ python3 -c requests.post() → 超时 ❌ 定位到 Python ④ python3 --version → 3.8找到根因 结论Python 3.8 的 http.client 实现有已知 timeout 问题 解决用 pyenv 升级到 3.11人在这个过程中只需要说一句话帮我看看为什么 Python 请求超时了。Agent 自动执行了 4 个测试步骤每个步骤都在验证一个假设。这就是动手的力量。裸模型只能推理Agent 能实验。第③层诊 (Diagnose) — 多步诊断链这是最具实用价值的一层。它把 ① 读 ② 试 组合为诊断闭环③ 诊 ① 读 ② 试 因果关系推理真实案例Segfault 完整诊断链步骤1: 读 (Read) Agent 看到: ollama serve 启动后 segfault 读日志: NVIDIA driver too old 步骤2: 查 (Research) Agent 查 Ollama 文档: v0.30.11 要求 CUDA 12 → 驱动 ≥ 550 步骤3: 试 (Execute) nvidia-smi: 当前驱动 535 → 确实低于 550 步骤4: 关联 (Diagnose) 因果链: segfault → Ollama 无法调用 GPU → CUDA 12 需要新驱动 → 驱动 535 550 → 升级到 570 步骤5: 方案 (Plan) 给出 3 种方案A: apt 升级 / B: 手动安装 / C: 降级 Ollama 推荐 A但提示如果 A 不行走 B裸模型会怎么做你问它为什么 segfault它能说出可能跟驱动有关——但它不知道你当前是 535 还是 570。这就是诊的能力差距。第④层修 (Modify) — 修改系统Agent 能做什么改配置文件、安装软件包、修改代码、升级版本。真实案例清单全都来自本项目操作命令风险等级升级 NVIDIA 驱动apt install nvidia-driver-570⚠️ 需要 sudo安装 pyenv Python 3.11git clone pyenv pyenv install 3.11✅ 安全修改 Flask 配置sed -i s/127.0.0.1/0.0.0.0/ app.py✅ 安全修改 Modelfile 参数num_predict -1✅ 安全安装 Python 依赖pip install requests flask✅ 安全启动/停止服务pkill ollama ollama serve ✅ 可控关键区别裸模型只能告诉你怎么修你自己动手。Agent 能直接修你只需要确认授权。第⑤层循 (Iterate) — 试错循环软件开发的常态第一次通常不对。Agent 的迭代能力表现在① 执行命令 → ② 观察结果 → ③ 判断对错 → ④ 修正 → 回到① 具体例子 apt install nvidia-driver-570 → 需要先卸载 535 apt purge nvidia-driver-535 → 卸载成功 apt install nvidia-driver-570 → 安装成功 reboot → 重启 nvidia-smi → 确认 570 ✅ ollama serve → segfault 消失 ✅一次循环不够就再来一次。人只需要在关键决策点“卸载旧驱动”“重启”确认一下。这是 Agent 区别于普通脚本的地方脚本按固定流程走Agent 根据结果自适应调整流程。第⑥层规 (Plan) — 任务规划与拆解这是我们上一篇博客的核心主题——但上一篇是从人的角度写这一层是从Agent 自动做的角度。Agent 怎么自动拆解用户: 写一个 Flash Attention 的 PyTorch 实现 Agent 判断: 这个问题太复杂包含概念框架算法验证 一次性丢给模型 → 大概率出错我们在实验中已验证 Agent 自动拆解: 第①问: 核心概念解释限定200字 第②问: 分块循环框架不要softmax 第③问: online softmax 合并独立demo 第④问: 整合对比验证 验证: 检查第④问输出是否用了 rescaling → 没通过则标注警告注意这个过程有几个关键点Agent而不是人做了任务拆解的决策Agent 为每个子问题设计了精确的 prompt限定范围、格式、长度Agent验证了中间结果第④问的代码没有用 rescaling→标记警告Agent 把 4 个结果组装成最终输出这就是规层的能力。不是把问题转发出去而是先想这个问题该怎么吃。第⑦层连 (Connect) — 连接外部世界最高一层也是最隐蔽的一层。Agent 能连接什么┌──── MCP 工具 ──── 自定义功能 │ Agent ───┼──── 其他 LLM ──── Qwen3、本地模型 │ ├──── 外部 API ──── GitHub、搜索引擎 │ ├──── 文件系统 ──── 读/写/修改文件 │ └──── 执行环境 ──── Shell、代码解释器真实案例MCP 协议让 Claude Code 调用本地 Qwen3# MCP Server (qwen3_mcp.py) - 不到 100 行ifmethodtools/list:return{tools:[{name:ask_qwen3,...}]}ifmethodtools/callandnameask_qwen3:# 转发到本地 Ollamaresprequests.post(http://localhost:11434/api/chat,json{...})returnresp.json()这个 MCP 服务器只有 100 行代码但它做的事情意义重大它让一个云端 Agent (Claude) 能调用本地模型 (Qwen3)而且通过标准化协议任何支持 MCP 的客户端都能复用。MCP 协议就是 Agent 的USB-C 接口—— 任何设备只要插上就能通信不用为每种外设定制线缆。三、这 7 层不是玄学是从项目里长出来的上面 7 层的每一层都对应着我们在 Qwen3 本地部署项目中经历的实打实的问题能力层真实问题如果没有 Agent① 读日志显示 segfault、Python 3.8你要手动 cat、手动 nvidia-smi② 试curl 通但 Python 不通你要自己一步步试③ 诊驱动 535 550 → segfault你要自己关联因果关系④ 修改 Modelfile、装 Python 3.11你要自己敲命令⑤ 循apt install 失败 → purge → 重装你要自己记步骤⑥ 规Flash Attention 拆 4 步你要自己想拆分方案⑦ 连Claude Code 调本地 Qwen3你要自己写中转代码没有 Agent这些事都能做——但每一件都是你自己动手。有了 Agent你只需要说一句帮我搞定它在后台完成了上面 7 层的工作。四、Agent 的边界它做不到什么诚实地说清楚。1. Agent 不能超越模型的推理能力如果底层的模型比如 8B 量化模型本身理解不了某些概念Agent 拆得再细也没用。Agent 放大了模型的能力但不能创造能力。2. Agent 的工具受限于接口只能读文件那就不能改。只能执行命令那就不能调 GUI。Agent 的能力上限 可用工具的总和。3. 复杂规划需要好的底层模型任务拆解第⑥层本身需要模型有较强的规划能力。B 级模型的拆解方案可能不如 A 级模型拆得好——但它拆了总比不拆强。4. 迭代会消耗更多时间和 token一次性提问: 1 次 LLM 调用 → 可能出错 ❌ Agent 拆解: 5 次 LLM 调用 → 大概率正确 ✅ ↑ 成本换质量需要在具体场景里权衡五、理解这 7 层有什么用对开发者来说这 7 层框架最大的价值是你知道该让 Agent 帮你做什么事。如果你想让 Agent…主要用到的层成功率排查一个系统错误①②③⭐⭐⭐⭐⭐修一个 bug①②③④⑤⭐⭐⭐⭐写一个复杂功能⑥⑦⭐⭐⭐做知识问答无直接问模型即可⭐⭐⭐多步自动化流程①②③④⑤⑥⑦⭐⭐⭐⭐经验法则Agent 最适合需要动手的、多步骤的、需要验证的任务。最不适合一次性知识问答——那个直接问模型就够了。六、总结回到开头的问题为什么同一个模型在 Agent 里和网页对话框里表现截然不同网页对话框里的模型 只有大脑 → 能想、能说但不能做 Agent 里的模型 大脑 手脚 神经 → 能想、能说、还能读、试、诊、修、循、规、连Agent 不是更聪明的模型——Agent 是长了手脚的模型。这 7 层能力——读、试、诊、修、循、规、连——每一层都是 Agent 比裸模型多出来的实用价值。理解它们你就知道了什么时候该用 Agent什么时候直接问模型就够了。附本文所有案例均来自我们完成的 Qwen3-8B 本地部署项目。系列前两篇见[从零到一用 AI Agent 辅助在 6GB 显卡上本地部署大模型实战] — 部署全流程[只有 B 级模型怎么干出 A 级的活] — 任务拆解方法论
Agent 不是更聪明的模型,而是长了手脚的模型
副标题从 7 层能力框架理解 AI Agent 到底能做什么——以及不能做什么日期2026年6月29日一个让人困惑的问题同一个模型比如 DeepSeek在两种场景下表现截然不同场景 A在网页对话框里用你: 帮我查一下为什么我的程序崩溃了 DeepSeek: 可能是内存溢出、空指针异常、或者驱动问题... 推理很合理但它不能碰你的电脑场景 B在 Claude CodeAgent里用你: 帮我查一下为什么我的程序崩溃了 Agent: ① 执行 nvidia-smi → 看到驱动版本 535 ② 查看 Ollama 日志 → NVIDIA driver too old ③ 查 Ollama 文档 → v0.30.11 要求 ≥ 550 ④ 给出 3 种升级方案 ⑤ 执行选中的方案 ⑥ 验证 segfault 已修复 ✅模型是同一个但结果天差地别。多出来的能力不是来自模型而是来自Agent 框架。这篇文章带你拆解Agent 到底比裸模型多了什么每层能力长什么样以及——它做不到什么。一、Agent 不是更聪明的模型最常见的误解“Agent 就是让 AI 自己调用自己套娃而已。”不对。Agent 是一个三层的架构┌──────────────────────────────────────┐ │ Agent 架构 │ │ │ │ ① 模型 (Model) — 大脑 │ │ └ 负责推理、规划、判断 │ │ │ │ ② 工具 (Tools) — 手脚 │ │ └ 读文件、写代码、执行命令、 │ │ 调 API、搜网络、操作数据库 │ │ │ │ ③ 协议 (Protocol) — 神经系统 │ │ └ 模型 → 工具的标准接口 │ │ MCP: JSON-RPC 2.0 │ └──────────────────────────────────────┘没有工具的模型 一个被困在笼子里的天才。它什么都知道但什么都碰不到。Agent 模型 工具 协议。缺任何一个都不成立。二、Agent 的 7 层能力金字塔基于我们三个月里用 Claude Code 本地 Qwen3-8B 云端 DeepSeek 的实际项目经验我总结了一个Agent 能力金字塔┌──────────┐ │ ⑦ 连 │ 连接外部世界 ┌┴──────────┴┐ │ ⑥ 规 │ 任务规划与拆解 ┌┴────────────┴┐ │ ⑤ 循 │ 试错循环 ┌┴──────────────┴┐ │ ④ 修 │ 修改系统 ┌┴────────────────┴┐ │ ③ 诊 │ 诊断分析 ┌┴──────────────────┴┐ │ ② 试 │ 动手验证 ┌┴────────────────────┴┐ │ ① 读 │ 读取状态 └──────────────────────┘下面逐层解释每层都用一个我们项目里的真实案例来说明。第①层读 (Read) — 读取系统状态Agent 能做什么读文件、查系统状态、看日志、检查版本号。普通 LLM 不能做什么它不知道你的电脑里装了什么、日志写了什么、配置文件设了什么。真实案例Qwen3 本地部署时 segfault。 Agent 做了: cat /var/log/ollama.log → NVIDIA driver too old nvidia-smi → 驱动版本 535 ls /proc/driver/nvidia/ → 确认 GPU 信息 python3 --version → Python 3.8 人只需要说一句模型崩溃了Agent 自己把 4 份信息读齐了。关键区别裸模型比如你在网页上问 GPT只能根据训练数据猜你的系统状态。Agent 可以去读——0% 猜测100% 事实。第②层试 (Execute) — 动手验证假设Agent 能做什么运行命令、执行代码、调 API、测试网络。真实案例问题Python 请求 Ollama 超时。 Agent 的诊断过程 ① curl localhost:11434 → 通 ✅ 排除 Ollama 问题 ② curl GitHub → 通 ✅ 排除网络问题 ③ python3 -c requests.post() → 超时 ❌ 定位到 Python ④ python3 --version → 3.8找到根因 结论Python 3.8 的 http.client 实现有已知 timeout 问题 解决用 pyenv 升级到 3.11人在这个过程中只需要说一句话帮我看看为什么 Python 请求超时了。Agent 自动执行了 4 个测试步骤每个步骤都在验证一个假设。这就是动手的力量。裸模型只能推理Agent 能实验。第③层诊 (Diagnose) — 多步诊断链这是最具实用价值的一层。它把 ① 读 ② 试 组合为诊断闭环③ 诊 ① 读 ② 试 因果关系推理真实案例Segfault 完整诊断链步骤1: 读 (Read) Agent 看到: ollama serve 启动后 segfault 读日志: NVIDIA driver too old 步骤2: 查 (Research) Agent 查 Ollama 文档: v0.30.11 要求 CUDA 12 → 驱动 ≥ 550 步骤3: 试 (Execute) nvidia-smi: 当前驱动 535 → 确实低于 550 步骤4: 关联 (Diagnose) 因果链: segfault → Ollama 无法调用 GPU → CUDA 12 需要新驱动 → 驱动 535 550 → 升级到 570 步骤5: 方案 (Plan) 给出 3 种方案A: apt 升级 / B: 手动安装 / C: 降级 Ollama 推荐 A但提示如果 A 不行走 B裸模型会怎么做你问它为什么 segfault它能说出可能跟驱动有关——但它不知道你当前是 535 还是 570。这就是诊的能力差距。第④层修 (Modify) — 修改系统Agent 能做什么改配置文件、安装软件包、修改代码、升级版本。真实案例清单全都来自本项目操作命令风险等级升级 NVIDIA 驱动apt install nvidia-driver-570⚠️ 需要 sudo安装 pyenv Python 3.11git clone pyenv pyenv install 3.11✅ 安全修改 Flask 配置sed -i s/127.0.0.1/0.0.0.0/ app.py✅ 安全修改 Modelfile 参数num_predict -1✅ 安全安装 Python 依赖pip install requests flask✅ 安全启动/停止服务pkill ollama ollama serve ✅ 可控关键区别裸模型只能告诉你怎么修你自己动手。Agent 能直接修你只需要确认授权。第⑤层循 (Iterate) — 试错循环软件开发的常态第一次通常不对。Agent 的迭代能力表现在① 执行命令 → ② 观察结果 → ③ 判断对错 → ④ 修正 → 回到① 具体例子 apt install nvidia-driver-570 → 需要先卸载 535 apt purge nvidia-driver-535 → 卸载成功 apt install nvidia-driver-570 → 安装成功 reboot → 重启 nvidia-smi → 确认 570 ✅ ollama serve → segfault 消失 ✅一次循环不够就再来一次。人只需要在关键决策点“卸载旧驱动”“重启”确认一下。这是 Agent 区别于普通脚本的地方脚本按固定流程走Agent 根据结果自适应调整流程。第⑥层规 (Plan) — 任务规划与拆解这是我们上一篇博客的核心主题——但上一篇是从人的角度写这一层是从Agent 自动做的角度。Agent 怎么自动拆解用户: 写一个 Flash Attention 的 PyTorch 实现 Agent 判断: 这个问题太复杂包含概念框架算法验证 一次性丢给模型 → 大概率出错我们在实验中已验证 Agent 自动拆解: 第①问: 核心概念解释限定200字 第②问: 分块循环框架不要softmax 第③问: online softmax 合并独立demo 第④问: 整合对比验证 验证: 检查第④问输出是否用了 rescaling → 没通过则标注警告注意这个过程有几个关键点Agent而不是人做了任务拆解的决策Agent 为每个子问题设计了精确的 prompt限定范围、格式、长度Agent验证了中间结果第④问的代码没有用 rescaling→标记警告Agent 把 4 个结果组装成最终输出这就是规层的能力。不是把问题转发出去而是先想这个问题该怎么吃。第⑦层连 (Connect) — 连接外部世界最高一层也是最隐蔽的一层。Agent 能连接什么┌──── MCP 工具 ──── 自定义功能 │ Agent ───┼──── 其他 LLM ──── Qwen3、本地模型 │ ├──── 外部 API ──── GitHub、搜索引擎 │ ├──── 文件系统 ──── 读/写/修改文件 │ └──── 执行环境 ──── Shell、代码解释器真实案例MCP 协议让 Claude Code 调用本地 Qwen3# MCP Server (qwen3_mcp.py) - 不到 100 行ifmethodtools/list:return{tools:[{name:ask_qwen3,...}]}ifmethodtools/callandnameask_qwen3:# 转发到本地 Ollamaresprequests.post(http://localhost:11434/api/chat,json{...})returnresp.json()这个 MCP 服务器只有 100 行代码但它做的事情意义重大它让一个云端 Agent (Claude) 能调用本地模型 (Qwen3)而且通过标准化协议任何支持 MCP 的客户端都能复用。MCP 协议就是 Agent 的USB-C 接口—— 任何设备只要插上就能通信不用为每种外设定制线缆。三、这 7 层不是玄学是从项目里长出来的上面 7 层的每一层都对应着我们在 Qwen3 本地部署项目中经历的实打实的问题能力层真实问题如果没有 Agent① 读日志显示 segfault、Python 3.8你要手动 cat、手动 nvidia-smi② 试curl 通但 Python 不通你要自己一步步试③ 诊驱动 535 550 → segfault你要自己关联因果关系④ 修改 Modelfile、装 Python 3.11你要自己敲命令⑤ 循apt install 失败 → purge → 重装你要自己记步骤⑥ 规Flash Attention 拆 4 步你要自己想拆分方案⑦ 连Claude Code 调本地 Qwen3你要自己写中转代码没有 Agent这些事都能做——但每一件都是你自己动手。有了 Agent你只需要说一句帮我搞定它在后台完成了上面 7 层的工作。四、Agent 的边界它做不到什么诚实地说清楚。1. Agent 不能超越模型的推理能力如果底层的模型比如 8B 量化模型本身理解不了某些概念Agent 拆得再细也没用。Agent 放大了模型的能力但不能创造能力。2. Agent 的工具受限于接口只能读文件那就不能改。只能执行命令那就不能调 GUI。Agent 的能力上限 可用工具的总和。3. 复杂规划需要好的底层模型任务拆解第⑥层本身需要模型有较强的规划能力。B 级模型的拆解方案可能不如 A 级模型拆得好——但它拆了总比不拆强。4. 迭代会消耗更多时间和 token一次性提问: 1 次 LLM 调用 → 可能出错 ❌ Agent 拆解: 5 次 LLM 调用 → 大概率正确 ✅ ↑ 成本换质量需要在具体场景里权衡五、理解这 7 层有什么用对开发者来说这 7 层框架最大的价值是你知道该让 Agent 帮你做什么事。如果你想让 Agent…主要用到的层成功率排查一个系统错误①②③⭐⭐⭐⭐⭐修一个 bug①②③④⑤⭐⭐⭐⭐写一个复杂功能⑥⑦⭐⭐⭐做知识问答无直接问模型即可⭐⭐⭐多步自动化流程①②③④⑤⑥⑦⭐⭐⭐⭐经验法则Agent 最适合需要动手的、多步骤的、需要验证的任务。最不适合一次性知识问答——那个直接问模型就够了。六、总结回到开头的问题为什么同一个模型在 Agent 里和网页对话框里表现截然不同网页对话框里的模型 只有大脑 → 能想、能说但不能做 Agent 里的模型 大脑 手脚 神经 → 能想、能说、还能读、试、诊、修、循、规、连Agent 不是更聪明的模型——Agent 是长了手脚的模型。这 7 层能力——读、试、诊、修、循、规、连——每一层都是 Agent 比裸模型多出来的实用价值。理解它们你就知道了什么时候该用 Agent什么时候直接问模型就够了。附本文所有案例均来自我们完成的 Qwen3-8B 本地部署项目。系列前两篇见[从零到一用 AI Agent 辅助在 6GB 显卡上本地部署大模型实战] — 部署全流程[只有 B 级模型怎么干出 A 级的活] — 任务拆解方法论