摘要2026年6月24日谷歌宣布将Computer Use能力原生集成至Gemini 3.5 Flash模型彻底淘汰此前独立的Gemini 2.5 Computer Use测试框架。这一更新使AI Agent无需复杂代码即可看懂屏幕、操控浏览器与桌面软件真正成为能自主处理重复工作的数字助手。谷歌同步上线Browserbase在线演示平台Chrome 149稳定版新增屏幕拾取快捷功能并从安全层面部署了对抗训练防御模型与两套企业安全方案。这意味着AI Agent的手正式长出来了——从只能对话进化到能看会做。核心结论Computer Use原生集成是AI Agent发展的里程碑事件——它将Agent的交互界面从API和文本拓展到了图形用户界面GUI使AI能操作任何人类可用的软件而无需专用接口。这是AI从工具升级为操作者的关键一步。一、什么是Computer Use为什么它是Agent的手1.1 核心概念Computer Use是一种让AI模型直接理解和操作计算机界面的能力。传统AI Agent通过API如Function Calling、MCP协议与外部工具交互——这要求每个目标软件都提供标准化的编程接口。而Computer Use直接绕过了这个限制AI通过看屏幕→理解界面→模拟人类操作来完成任何软件任务。Google在官方博客中这样描述“Gemini already excels at function calling and using built-in tools like Search and Maps grounding. With built-in computer use capability, developers can now use 3.5 Flash to reliably build custom agents that can see, reason and take action across browser, mobile and desktop environments.”1.2 从Gemini 2.5独立模型到3.5 Flash原生集成的进化对比维度Gemini 2.5 Computer Use旧Gemini 3.5 Flash Computer Use新形态独立专用模型内置工具built-in tool模型基座Gemini 2.5已淘汰Gemini 3.5 Flash主力模型性能基准~40%任务成功率~68%任务成功率70%推理速度~45 tokens/s~280 tokens/s523%成本独立API调用与文本调用统一计费适用场景仅浏览器操作浏览器移动端桌面三端数据来源Google AI官方博客2026-06-24、Google Gemini API Changelog2026-06-25二、技术架构屏幕→理解→动作2.1 三层执行架构┌─────────────────────────────────────────────┐ │ 应用层Agent定义 │ │ 开发者定义任务目标、操作范围、安全策略 │ ├─────────────────────────────────────────────┤ │ Computer Use 内置工具 │ │ ┌─────────┐ ┌──────────┐ ┌─────────────┐ │ │ │ 屏幕感知 │→│ 意图理解 │→│ 动作执行 │ │ │ │ 截屏→视觉│ │ 理解UI元 │ │ 点击/输入/ │ │ │ │ 嵌入→DOM│ │ 素→任务规 │ │ 滚动/切换 │ │ │ │ 解析 │ │ 划 │ │ 窗口 │ │ │ └─────────┘ └──────────┘ └─────────────┘ │ ├─────────────────────────────────────────────┤ │ Gemini 3.5 Flash 基座 │ │ 280 tokens/s · 150万Token上下文 │ └─────────────────────────────────────────────┘屏幕感知层对目标界面进行截屏通过视觉编码器提取UI元素按钮、输入框、文本区域、图标等及其空间关系同时解析DOM结构获取可访问性元数据。意图理解层将自然语言任务目标转化为结构化的操作序列。例如帮我在Google Sheets里汇总Q2销售数据会被拆解为打开Google Sheets → 定位Q2工作表 → 提取数据列 → 计算汇总 → 写入结果单元格。动作执行层通过简化的Intents动作原语执行具体操作——click、type、scroll、drag、wait、screenshot等屏蔽不同操作系统和浏览器的底层差异。2.2 简化的Intents动作原语Google为Computer Use设计了一套高层动作原语Intents避免Agent直接操作底层DOM或OS API带来的复杂性和安全风险# Gemini 3.5 Flash Computer Use 动作示例fromgoogleimportgenai clientgenai.Client()responseclient.models.generate_content(modelgemini-3.5-flash,contents帮我在这个网页上找到登录按钮并点击,tools[{computer_use:{display:{width:1920,height:1080},environment:browser# browser | mobile | desktop}}])# 模型返回结构化动作序列简化示意# 1. screenshot → 识别到右上角登录按钮 (坐标: 1680, 25)# 2. click → target(1680, 25)# 3. wait → 等待登录弹窗出现# 4. type → targetemail_input, valueuserexample.com关键设计理念Intents层的抽象使得同一套Agent代码可以在Chrome、Safari、移动端WebView甚至桌面应用上运行无需为每个平台单独适配。三、安全机制对抗训练双重企业防护3.1 对抗训练防御指令注入Computer Use最大的安全风险是间接指令注入Indirect Prompt Injection——恶意网页在DOM中嵌入隐藏指令诱骗AI Agent执行非预期操作。Google的应对方案是针对性对抗训练Targeted Adversarial Training在训练阶段注入大量恶意指令样本包括隐藏文本、CSS伪元素、JavaScript动态注入等训练模型识别并忽略非用户意图的页面内容配套发布Best Practices文档建议开发者在沙箱环境中运行Agent3.2 双重企业安全方案Google同步发布了两套可选的企业安全防护系统安全方案功能适用场景人工确认机制敏感操作删除文件、提交支付、发送邮件需要人工明确确认金融、医疗、法律等高风险行业异常冻结机制检测到间接指令注入时自动停止任务大规模自动化测试、批量数据处理“Defense-in-depth”纵深防御是Google推荐的最佳实践组合使用对抗训练模型 人工确认 安全沙箱 严格访问控制。四、Chrome 149协同更新屏幕拾取快捷功能Google同步推送了Chrome 149稳定版新增屏幕拾取Screen Pick快捷功能框选即分析在网页上框选任意区域的文字或图片一键喂给Gemini生成问答、总结内容节省90%操作步骤无需复制→切换窗口→粘贴→提问全程在浏览器内完成上下文感知拾取内容会自动携带当前页面URL和标题作为上下文提升回答准确性这一功能看似简单实际上是为Computer Use的普及做用户体验铺垫——让用户先习惯AI直接操作网页内容的交互范式。五、行业影响三端打通意味着什么5.1 软件测试领域将首先被颠覆传统端到端测试E2E Testing依赖Selenium、Playwright等框架编写固定脚本。Computer Use使无需编写测试脚本的自主探索式测试成为可能AI Agent自动遍历应用的所有页面和功能发现UI异常、响应错误、布局错位等问题生成人类可读的测试报告Google已确认多家企业客户在内部使用Computer Use进行持续软件测试测试覆盖率提升3-5倍。5.2 RPA机器人流程自动化行业面临重塑传统RPA工具UiPath、Automation Anywhere等依赖手动录制的操作流程维护成本高。Computer Use提供了更灵活的替代方案零录制自然语言描述任务即可自愈能力UI变化时自动适应传统RPA脚本UI微小变化就崩溃跨应用操作可同时操作浏览器桌面应用移动端5.3 AI Agent能力矩阵补齐最后一块短板Agent能力维度2025年状态2026年6月状态语言理解与推理✅ 成熟✅ 成熟工具调用API/MCP✅ 成熟✅ 成熟记忆与上下文⚠️ 发展中✅ Claude Tag/Conway多模态感知⚠️ 基础✅ GPT-5.6/Gemini计算机操作❌ 缺失✅Gemini 3.5 Flash Computer UseComputer Use补齐了Agent能力矩阵的最后一块短板——AI终于能像人类一样操作任何软件。六、FAQQ1Computer Use和传统RPA有什么区别A传统RPA需要人工录制固定操作流程UI变化时脚本容易崩溃Computer Use是AI看懂屏幕后自主规划操作适应UI变化的能力更强。但Computer Use目前的操作精度~68%任务成功率仍低于精心维护的RPA脚本95%短期内两者是互补关系。Q2Computer Use会取代API集成吗A不会。API集成效率更高、成本更低、可靠性更强。Computer Use适用于没有API的遗留系统、第三方网站、需要跨应用操作的场景。API集成和Computer Use是互补关系不是替代关系。Q3安全风险有多大如何在企业环境中使用AGoogle已部署对抗训练防御间接指令注入并提供了双重企业安全方案人工确认异常冻结。建议企业(1) 在隔离沙箱中运行Agent(2) 不给Agent财务/删除等敏感权限(3) 保留完整的操作日志用于审计。Q4成本如何比人工操作便宜吗AGemini 3.5 Flash的API价格为输入$0.075/1M tokens、输出$0.30/1M tokens。一次典型网页操作截图理解动作约消耗500-2000 tokens成本约$0.0002-0.0006。批量自动化任务成本远低于人工但复杂长流程任务的Token消耗可能显著增加。Q5中国用户可以使用吗AGemini API需要通过Google Cloud访问中国大陆用户需使用合规的云服务通道。但技术方向上国内厂商正在跟进——字节豆包2.1 Pro、智谱GLM-5.2都已具备多模态理解能力Computer Use功能的本地化版本值得期待。参考资料Google AI官方博客(2026-06-24). “Introducing computer use in Gemini 3.5 Flash”Google Gemini API Changelog(2026-06-25). “Release Notes: Computer Use Public Preview”至顶网(2026-06-25). “Gemini 3.5 Flash正式推出内置电脑操作功能”IC.Work(2026-06-25). “Gemini 3.5 Flash内置computer useGoogle的Agent进化路线图”Android Headlines(2026-06-25). “Gemini 3.5 Flash Gains Native Computer Use Tool”AITOP100(2026-06-25). “每日AI资讯Gemini 3.5 Flash内置电脑操作能力”Browserbase(2026-06-24). “Gemini Computer Use Demo Environment”
Gemini 3.5 Flash内置Computer Use:AI Agent的
摘要2026年6月24日谷歌宣布将Computer Use能力原生集成至Gemini 3.5 Flash模型彻底淘汰此前独立的Gemini 2.5 Computer Use测试框架。这一更新使AI Agent无需复杂代码即可看懂屏幕、操控浏览器与桌面软件真正成为能自主处理重复工作的数字助手。谷歌同步上线Browserbase在线演示平台Chrome 149稳定版新增屏幕拾取快捷功能并从安全层面部署了对抗训练防御模型与两套企业安全方案。这意味着AI Agent的手正式长出来了——从只能对话进化到能看会做。核心结论Computer Use原生集成是AI Agent发展的里程碑事件——它将Agent的交互界面从API和文本拓展到了图形用户界面GUI使AI能操作任何人类可用的软件而无需专用接口。这是AI从工具升级为操作者的关键一步。一、什么是Computer Use为什么它是Agent的手1.1 核心概念Computer Use是一种让AI模型直接理解和操作计算机界面的能力。传统AI Agent通过API如Function Calling、MCP协议与外部工具交互——这要求每个目标软件都提供标准化的编程接口。而Computer Use直接绕过了这个限制AI通过看屏幕→理解界面→模拟人类操作来完成任何软件任务。Google在官方博客中这样描述“Gemini already excels at function calling and using built-in tools like Search and Maps grounding. With built-in computer use capability, developers can now use 3.5 Flash to reliably build custom agents that can see, reason and take action across browser, mobile and desktop environments.”1.2 从Gemini 2.5独立模型到3.5 Flash原生集成的进化对比维度Gemini 2.5 Computer Use旧Gemini 3.5 Flash Computer Use新形态独立专用模型内置工具built-in tool模型基座Gemini 2.5已淘汰Gemini 3.5 Flash主力模型性能基准~40%任务成功率~68%任务成功率70%推理速度~45 tokens/s~280 tokens/s523%成本独立API调用与文本调用统一计费适用场景仅浏览器操作浏览器移动端桌面三端数据来源Google AI官方博客2026-06-24、Google Gemini API Changelog2026-06-25二、技术架构屏幕→理解→动作2.1 三层执行架构┌─────────────────────────────────────────────┐ │ 应用层Agent定义 │ │ 开发者定义任务目标、操作范围、安全策略 │ ├─────────────────────────────────────────────┤ │ Computer Use 内置工具 │ │ ┌─────────┐ ┌──────────┐ ┌─────────────┐ │ │ │ 屏幕感知 │→│ 意图理解 │→│ 动作执行 │ │ │ │ 截屏→视觉│ │ 理解UI元 │ │ 点击/输入/ │ │ │ │ 嵌入→DOM│ │ 素→任务规 │ │ 滚动/切换 │ │ │ │ 解析 │ │ 划 │ │ 窗口 │ │ │ └─────────┘ └──────────┘ └─────────────┘ │ ├─────────────────────────────────────────────┤ │ Gemini 3.5 Flash 基座 │ │ 280 tokens/s · 150万Token上下文 │ └─────────────────────────────────────────────┘屏幕感知层对目标界面进行截屏通过视觉编码器提取UI元素按钮、输入框、文本区域、图标等及其空间关系同时解析DOM结构获取可访问性元数据。意图理解层将自然语言任务目标转化为结构化的操作序列。例如帮我在Google Sheets里汇总Q2销售数据会被拆解为打开Google Sheets → 定位Q2工作表 → 提取数据列 → 计算汇总 → 写入结果单元格。动作执行层通过简化的Intents动作原语执行具体操作——click、type、scroll、drag、wait、screenshot等屏蔽不同操作系统和浏览器的底层差异。2.2 简化的Intents动作原语Google为Computer Use设计了一套高层动作原语Intents避免Agent直接操作底层DOM或OS API带来的复杂性和安全风险# Gemini 3.5 Flash Computer Use 动作示例fromgoogleimportgenai clientgenai.Client()responseclient.models.generate_content(modelgemini-3.5-flash,contents帮我在这个网页上找到登录按钮并点击,tools[{computer_use:{display:{width:1920,height:1080},environment:browser# browser | mobile | desktop}}])# 模型返回结构化动作序列简化示意# 1. screenshot → 识别到右上角登录按钮 (坐标: 1680, 25)# 2. click → target(1680, 25)# 3. wait → 等待登录弹窗出现# 4. type → targetemail_input, valueuserexample.com关键设计理念Intents层的抽象使得同一套Agent代码可以在Chrome、Safari、移动端WebView甚至桌面应用上运行无需为每个平台单独适配。三、安全机制对抗训练双重企业防护3.1 对抗训练防御指令注入Computer Use最大的安全风险是间接指令注入Indirect Prompt Injection——恶意网页在DOM中嵌入隐藏指令诱骗AI Agent执行非预期操作。Google的应对方案是针对性对抗训练Targeted Adversarial Training在训练阶段注入大量恶意指令样本包括隐藏文本、CSS伪元素、JavaScript动态注入等训练模型识别并忽略非用户意图的页面内容配套发布Best Practices文档建议开发者在沙箱环境中运行Agent3.2 双重企业安全方案Google同步发布了两套可选的企业安全防护系统安全方案功能适用场景人工确认机制敏感操作删除文件、提交支付、发送邮件需要人工明确确认金融、医疗、法律等高风险行业异常冻结机制检测到间接指令注入时自动停止任务大规模自动化测试、批量数据处理“Defense-in-depth”纵深防御是Google推荐的最佳实践组合使用对抗训练模型 人工确认 安全沙箱 严格访问控制。四、Chrome 149协同更新屏幕拾取快捷功能Google同步推送了Chrome 149稳定版新增屏幕拾取Screen Pick快捷功能框选即分析在网页上框选任意区域的文字或图片一键喂给Gemini生成问答、总结内容节省90%操作步骤无需复制→切换窗口→粘贴→提问全程在浏览器内完成上下文感知拾取内容会自动携带当前页面URL和标题作为上下文提升回答准确性这一功能看似简单实际上是为Computer Use的普及做用户体验铺垫——让用户先习惯AI直接操作网页内容的交互范式。五、行业影响三端打通意味着什么5.1 软件测试领域将首先被颠覆传统端到端测试E2E Testing依赖Selenium、Playwright等框架编写固定脚本。Computer Use使无需编写测试脚本的自主探索式测试成为可能AI Agent自动遍历应用的所有页面和功能发现UI异常、响应错误、布局错位等问题生成人类可读的测试报告Google已确认多家企业客户在内部使用Computer Use进行持续软件测试测试覆盖率提升3-5倍。5.2 RPA机器人流程自动化行业面临重塑传统RPA工具UiPath、Automation Anywhere等依赖手动录制的操作流程维护成本高。Computer Use提供了更灵活的替代方案零录制自然语言描述任务即可自愈能力UI变化时自动适应传统RPA脚本UI微小变化就崩溃跨应用操作可同时操作浏览器桌面应用移动端5.3 AI Agent能力矩阵补齐最后一块短板Agent能力维度2025年状态2026年6月状态语言理解与推理✅ 成熟✅ 成熟工具调用API/MCP✅ 成熟✅ 成熟记忆与上下文⚠️ 发展中✅ Claude Tag/Conway多模态感知⚠️ 基础✅ GPT-5.6/Gemini计算机操作❌ 缺失✅Gemini 3.5 Flash Computer UseComputer Use补齐了Agent能力矩阵的最后一块短板——AI终于能像人类一样操作任何软件。六、FAQQ1Computer Use和传统RPA有什么区别A传统RPA需要人工录制固定操作流程UI变化时脚本容易崩溃Computer Use是AI看懂屏幕后自主规划操作适应UI变化的能力更强。但Computer Use目前的操作精度~68%任务成功率仍低于精心维护的RPA脚本95%短期内两者是互补关系。Q2Computer Use会取代API集成吗A不会。API集成效率更高、成本更低、可靠性更强。Computer Use适用于没有API的遗留系统、第三方网站、需要跨应用操作的场景。API集成和Computer Use是互补关系不是替代关系。Q3安全风险有多大如何在企业环境中使用AGoogle已部署对抗训练防御间接指令注入并提供了双重企业安全方案人工确认异常冻结。建议企业(1) 在隔离沙箱中运行Agent(2) 不给Agent财务/删除等敏感权限(3) 保留完整的操作日志用于审计。Q4成本如何比人工操作便宜吗AGemini 3.5 Flash的API价格为输入$0.075/1M tokens、输出$0.30/1M tokens。一次典型网页操作截图理解动作约消耗500-2000 tokens成本约$0.0002-0.0006。批量自动化任务成本远低于人工但复杂长流程任务的Token消耗可能显著增加。Q5中国用户可以使用吗AGemini API需要通过Google Cloud访问中国大陆用户需使用合规的云服务通道。但技术方向上国内厂商正在跟进——字节豆包2.1 Pro、智谱GLM-5.2都已具备多模态理解能力Computer Use功能的本地化版本值得期待。参考资料Google AI官方博客(2026-06-24). “Introducing computer use in Gemini 3.5 Flash”Google Gemini API Changelog(2026-06-25). “Release Notes: Computer Use Public Preview”至顶网(2026-06-25). “Gemini 3.5 Flash正式推出内置电脑操作功能”IC.Work(2026-06-25). “Gemini 3.5 Flash内置computer useGoogle的Agent进化路线图”Android Headlines(2026-06-25). “Gemini 3.5 Flash Gains Native Computer Use Tool”AITOP100(2026-06-25). “每日AI资讯Gemini 3.5 Flash内置电脑操作能力”Browserbase(2026-06-24). “Gemini Computer Use Demo Environment”