Marvis 1+5 智能体协作架构深度解析:六大 Agent 各司何职?底层又如何“对话“?

Marvis 1+5 智能体协作架构深度解析:六大 Agent 各司何职?底层又如何“对话“? Marvis 15 智能体协作架构深度解析六大 Agent 各司何职底层又如何对话前言2026 年 5 月 20 日腾讯正式上线了操作系统级 AI 助手马维斯Marvis。它不走传统 AI 助手的对话框路线而是直接嵌入 Windows 系统底层充当用户与操作系统之间的 AI 中间层。用户用自然语言下达指令Marvis 就能操控文件、修改系统设置、操作应用程序、检索网络信息——真正做到用嘴指挥电脑干活。这套能力背后是一套精密的15 智能体协作架构。它不是单打独斗的一个模型而是一支分工明确的AI 团队。本文将逐一拆解这六大 Agent 的职责边界并深入探讨它们底层是如何通讯协作的。一、15 架构全景图Marvis 的智能体体系由1 个主 Agent调度中枢 5 个专项 Agent构成出厂预置、开箱即用角色Agent一句话定位大脑主 AgentPM Agent理解意图、拆解任务、调度协作AI 团队的项目经理手 1File Agent本地文件的全生命周期管家手 2Computer AgentWindows 系统运维与底层操控专家手 3App Agent应用程序的操作专家桌面软件 安卓应用手 4Browser Agent网页深度交互与数据抓取专员手 5Search Agent全网信息检索与摘要整理专员用户说出帮我找出上季度所有发票按日期整理成 Excel再发邮件给财务——主 Agent 接收后拆解为三个子任务分派给 File Agent、App Agent、Browser Agent 并行或串行执行最后汇总结果呈递给用户。整个过程用户只需要说一句话。下面逐一看每个 Agent 的具体职责。二、六大 Agent 职责详解2.1 主 AgentPM Agent—— 调度中枢主 Agent 是整个 Marvis 系统的大脑它不直接操作文件、不改系统设置、不碰网页。它的核心职责只有三个意图理解将用户的自然语言指令解析为结构化的任务目标。用户说电脑有点卡主 Agent 理解其真实意图是排查性能瓶颈并优化。任务拆解将复杂目标拆分为可由专项 Agent 执行的原子任务。例如整理桌面文件并按类型归类会被拆为1扫描桌面文件列表、2识别文件类型、3创建分类文件夹、4移动文件。调度与汇总根据子任务类型选择最合适的专项 Agent 执行并负责汇总它们的返回结果最终呈现给用户。主 Agent 的决策遵循严格的能力层级路由Sub Agent 能闭环的任务绝不拆解成底层工具调用只有在专项 Agent 能力覆盖不到时才降级处理。2.2 File Agent文件管家—— 本地文件全生命周期管理File Agent 是 Marvis 中能力最厚重的一个专项 Agent因为它需要处理本地文件系统中极其多样化的场景。其职责覆盖搜索与定位支持多维度深度检索文件名、文档内容、图片文字OCR、人像特征、场景主题、时间节日、地理信息。例如“找出去年秋天在西湖拍的那张照片”——File Agent 会结合季节时间范围、地理位置信息、图像场景识别综合定位。内容理解与问答对 PDF、Word、Excel、PPT、图片等文件进行深度阅读与分析。支持自然语言问答“这份合同的违约责任条款是什么”文件物理操作复制、移动、删除、重命名、批量归类整理。例如“把下载文件夹里所有 PDF 按年份归档到文档目录”。文件生成与格式转换生成文档、表格、图表、PPTPDF 转 Word、图片转 PNG、Excel 转 CSV 等各类格式互转。文件传输支持电脑端文件发送到移动端实现跨设备传输。2.3 Computer Agent系统运维专员—— Windows 底层操控Computer Agent 是 Marvis 区别于市面上其他 AI 助手的核心差异化能力。它不依赖模拟点击而是通过Windows API 直调完成系统级操作系统信息查询一键查询 CPU、内存、硬盘、电池健康、网络状态、硬件配置。判断某款游戏或软件能否在当前电脑上流畅运行。系统设置修改调整分辨率、关闭 Windows 锁屏广告、修改电源计划、配置网络代理。一句帮我把任务栏图标靠左排列直接生效。系统优化与清理磁盘清理、启动项管理、冗余文件清理。性能瓶颈分析与调优建议。故障排查与修复网络故障、WiFi/蓝牙异常、音频/显示问题、驱动异常、应用崩溃等常见问题的诊断与修复。窗口与桌面管理窗口分屏/平铺/堆叠、虚拟桌面切换、多显示器布局、桌面图标整理。输入与进程控制键盘快捷键模拟、进程查看与结束、服务启停、启动项管理、定时任务调度。2.4 App Agent应用操作专家—— 操控一切应用程序App Agent 负责让 Marvis 具备像人一样使用软件的能力覆盖三大类应用桌面软件EXE打开、关闭、安装、卸载 Windows 桌面应用。操控软件内部功能打开同花顺查股价、用网易云播放音乐、用微信发消息。安卓应用APK在电脑端 Android 模拟器环境中运行手机 App。支持小红书浏览、剪映剪辑、多邻国学习、美团外卖下单、大众点评查餐厅等。微信小程序支持小程序内的购物、支付、打卡、查询等操作。其底层技术栈是GUI 视觉识别 模拟操作通过截图分析界面元素再模拟点击、滑动、输入来完成交互。2.5 Browser Agent网页交互专员—— 网页深度交互Browser Agent 专注于需要多步交互的网页场景与简单的网页内容抓取有本质区别适用场景需要登录认证的网站操作。多步表单填写与提交。多页跳转的数据提取。网页按钮点击、下拉选择等交互操作。技术实现浏览器接管 DOM 解析。自动处理弹窗关闭、Cookie 提示等常见障碍。遇到登录墙或验证码时及时提示用户介入。与 Search Agent 的区别Search Agent 负责搜索并总结。Browser Agent 负责在网页上执行操作如自动填表、下单、数据抓取。2.6 Search Agent全网搜索专员—— 高质量信息检索Search Agent 是 Marvis 联网获取外部信息的专属通道检索特点底层层执行多轮联网检索由 LLM 综合总结。响应速度约 10 秒但结果质量远高于普通搜索引擎的简单列表。适用场景深度调研行业分析、竞品对比、论文检索。资料综述多源信息汇总与结构化整理。引用溯源关键信息附带来源链接。边界约束严格禁止处理本地文件或系统级请求。简单事实查询天气、汇率、股价不走 Search Agent由主 Agent 直接快速响应。三、底层通讯协作机制六大 Agent 各司其职只是表象真正让这支AI 团队高效运转的是它们之间的通讯协作机制。下面从五个维度拆解。3.1 中心化调度星型拓扑Marvis 的协作架构不是网状对等的而是以主 Agent 为中心的星型拓扑┌──────────────┐ │ 主 Agent │ │ (调度中枢) │ └──┬──┬──┬──┬──┘ │ │ │ │ ┌────────┘ │ │ └────────┐ ▼ ▼ ▼ ▼ File Agent Computer App Agent Browser/Search Agent Agent专项 Agent 之间不直接通讯所有任务分发、结果汇总、上下文传递都经主 Agent 中转。这个设计有三个好处降低耦合专项 Agent 无需感知彼此的存在可以独立迭代升级。统一调度主 Agent 拥有全局视野可以实现最优任务编排并行 vs 串行、优先级排序。安全可控所有敏感操作必须经过主 Agent 的安全校验层避免专项 Agent 越权执行。3.2 任务派发协议结构化任务描述主 Agent 向专项 Agent 派发任务时不是简单地转发用户原话而是通过一套结构化任务描述协议overall_goal 用户的原始完整需求让专项Agent理解全局上下文 /overall_goal current_task 本次委托的具体任务自包含、可独立执行 /current_task同时附带上memory_ids相关的历史对话片段提供任务背景。inherit_agent_id如需延续之前同一 Agent 的会话记忆则传入历史 Agent ID实现断点续传。这套协议确保了每个专项 Agent 拿到的是充分上下文 明确目标不需要反复追问用户也不会因信息缺失而执行错误。3.3 能力层级路由逐级降级机制主 Agent 在选择由谁执行任务时遵循严格的能力层级路由Sub Agents → Skills → Tools → 生成代码执行Sub Agent 优先如果某个专项 Agent 能闭环完成任务绝不将其拆散为底层工具调用。逐级降级只有当上层能力确实无法覆盖时才降级使用更底层的手段。禁止越级例如File Agent 能处理的文件搜索任务绝不能绕过它直接调用 shell 命令。这种设计确保了任务执行始终在最懂行的 Agent 手中避免因降级过早导致能力衰减。3.4 并行与串行编排依赖感知调度主 Agent 在拆解出多个子任务后会自动判断它们之间的依赖关系无依赖子任务并行派发。例如帮我搜一下最近的 AI 新闻同时把桌面的文件整理一下——Search Agent 和 File Agent 同时开工。有依赖子任务串行执行。例如找到上季度发票 → 按日期整理成 Excel——必须先等 File Agent 返回发票列表再派发下一步。并行派发有上限单轮最多 5 个并行任务防止系统资源过载。3.5 端云双模式自动路由Marvis 的通讯协作还有一个独特的维度——端云协同。它不是让用户手动选择用云端还是本地而是根据任务类型自动路由维度效率模式默认隐私模式推理引擎混元 DeepSeek V4云端Qwen 端侧模型数据处理复杂意图 → 云端简单操作 → 本地全部推理在本地完成适用场景日常办公、内容生成、信息检索财务、法务、HR 等高敏感场景文件 0 上传、断网可用、敏感操作强制用户确认——这套双模式机制在保障隐私安全的前提下最大化利用了云端大模型的能力。3.6 安全校验层贯穿全链路的红绿灯所有 Agent 的协作都在一套安全校验系统的管控之下。这套系统对操作进行三级风险定级风险等级典型操作处理策略高风险格式化磁盘、清空回收站、修改注册表强制用户授权中风险覆盖文件、修改系统配置、结束进程二次确认低风险只读查询、创建文件、列目录直接执行删除文件、修改系统配置、支付等高敏感环节即使专项 Agent 已经准备好执行安全层也会拦截并要求用户确认。这套机制贯穿整个任务链路——从主 Agent 拆解任务到专项 Agent 执行每一步都在安全校验的红绿灯管控之下。四、一个完整协作案例让我们跟踪一个真实指令的执行全过程直观感受这套协作机制用户“帮我把下载文件夹里的所有发票找出来提取金额和日期做成表格存到桌面。”Step 1主 Agent 意图理解与拆解主 Agent 解析出三个子任务任务 A扫描下载文件夹识别发票文件 →File Agent任务 B提取每张发票的金额和日期 →File Agent任务 C生成 Excel 表格保存到桌面 →File Agent三个子任务全部归属 File Agent 能力范围且 A→B→C 存在依赖串行派发。Step 2File Agent 执行任务 AFile Agent 扫描C:\Users\Administrator\Downloads通过文件名匹配、OCR 识别、内容分类定位到 5 张发票 PDF。返回文件列表给主 Agent。Step 3主 Agent 串行派发任务 B主 Agent 将任务 A 的结果发票文件路径列表作为上下文派发任务 B 给同一个 File Agent通过inherit_agent_id继承记忆。Step 4File Agent 执行任务 BFile Agent 读取 5 张发票 PDFOCR 提取金额和日期字段返回结构化数据。Step 5主 Agent 串行派发任务 C主 Agent 将结构化的发票数据传递给 File Agent要求生成 Excel。Step 6File Agent 执行任务 CFile Agent 创建 Excel 表格写入数据保存到桌面发票汇总.xlsx返回文件路径。Step 7主 Agent 汇总呈现安全校验通过生成文件属于低风险操作直接执行主 Agent 向用户输出最终结果表格已生成可点击查看。整个过程耗时数秒用户在 Step 1 之后只需等待结果无需任何中间操作。五、总结Marvis 的 15 智能体协作架构本质上是一套将大模型的思考能力与操作系统的执行能力深度绑定的中间层设计方案。它的核心设计哲学有三点分工明确各司其职主 Agent 只管调度不干活五个专项 Agent 各管一摊、互不越界。这种星型拓扑让系统具备了真正的可扩展性——未来新增 Agent 类型时主 Agent 只需多认识一种工种无需改动现有 Agent。结构化的通讯协议任务派发不是简单的传话而是携带完整上下文、历史记忆、依赖关系的结构化描述。这让专项 Agent 能够自包含地完成子任务大幅减少来回确认的开销。安全贯穿全链路从意图理解到最终执行每一步都在风险定级和用户授权的管控之下。端云双模式更进一步让用户在享受云端大模型能力的同时也能在敏感场景下将数据完全锁在本地。如果说传统 AI 助手是一个聪明的大脑关在对话框里那 Marvis 就是一个聪明的大脑连上了手和脚——它能听懂你说什么更重要的是它能替你做到。本文基于 Marvis 公开技术文档与产品体验撰写所有架构描述均来自官方披露信息。