最近这半年我对 AI 工具的使用感受有一个很明显的变化以前我们更多是在对话框里让 AI 帮忙写文案、总结材料、生成代码现在越来越多的期待开始转向——能不能让 AI 直接帮我把事情做完比如打开一个网站搜索商品筛选条件排序结果或者登录一个内部系统提交申请、填写表单、走审批流程。这些事情看起来不难但一旦每天重复很多次就会变成典型的“脏活累活”。也是在这样的背景下GUI Agent 开始变得越来越值得关注。它不像一些通用 Agent 那样动不动就“创作”“规划”“多轮推理”看起来很性感GUI Agent 的目标反而很朴素像人一样看屏幕、理解界面、点击按钮、填写内容、完成任务。它更像一个数字世界里的“新员工”不一定话多但能接手大量重复操作。图360集团《这也叫AI》科技播客最近看了 360 关于 GUI Agent 的博客和播客内容后我最大的感受是这个方向并不是在重新包装一个概念而是在解决一个非常现实的问题——当一个系统没有 API、没有 MCP、没有专门为 AI 开放接口时AI 还能不能完成操作答案可能就是 GUI Agent。一、为什么 GUI Agent 值得关注过去谈 Agent我们经常会想到 API、MCP、插件、脚本、Skill 这些“工具调用”方式。它们很高效但前提是系统愿意为 AI 做适配。可在真实企业环境里很多系统并没有这么理想。ERP、OA、审批、报销、资产管理系统往往已经运行多年界面复杂、流程固定、接口封闭。要让这些系统立刻为 AI 改造接口成本高也不现实。GUI Agent 的价值就在这里它不要求系统主动适配 AI而是让 AI 像人一样看界面、理解按钮、填写表单、完成操作。这也是它和 Manus、OpenClaw 这类 Agent 的关键区别。后者更像“外挂武器”能力强但依赖接口和工具GUI Agent 更像“大脑 眼睛 手”通过视觉识别和界面操作直接在已有软件里完成任务。所以GUI Agent 未必是最高效的路径却可能是最有“保底价值”的路径有 API 就走 API没 API 就靠视觉和操作兜底。二、GUI Agent 的“性感”和“不性感”GUI Agent 不是那种一眼看上去最炫的 AI 技术。它不会写诗作画也不是为了制造惊艳效果。它干的更多是“脏活累活”填报表、点按钮、查订单、提申请、改状态、走流程。但这些琐碎动作恰恰是很多人每天真实消耗时间的地方。在工作里真正拖慢效率的往往不是“不会想”而是“做不完”打开系统、复制内容、选择下拉框、上传附件、点击确认、等待跳转……一个流程可能只要几分钟但一天重复几十次就会变成很明显的负担。360 在播客中提到过一个很典型的案例GUI Agent 曾在内部 ERP 系统里自动完成一个 IT 资产申请流程整个流程高达 27 步。这个案例说明复杂、长链条的企业内部流程确实有被 AI 自动化接管的可能。更有意思的是在一次测试中Agent 自动提交了 600 多个资产申请直接把审批后台堆满了。后来团队又能一键自动驳回这些申请。这个场景虽然有点“戏剧性”但也说明当 GUI Agent 能稳定执行流程后它带来的不是局部提效而是流程级自动化。三、理想很丰满落地很骨感GUI Agent 的难点不只是“会不会点按钮”更重要的是“懂不懂业务”。通用模型可能知道什么是报销、审批、资产申请但它不可能天然理解某家公司内部的制度、字段含义、审批规则和例外情况。比如同样叫“费用类型”不同公司分类不同同样叫“资产申请”不同部门审批链路也可能不同。这些都不是通用模型靠常识就能解决的。这就是 GUI Agent 在 B 端落地时常见的“水土不服”。如果每家公司、每个系统、每条流程都重新训练模型成本太高数据也敏感。360 给出的解法是不重新训练大模型而是通过“样例知识注入”给 AI 找一个“老员工”带路。简单来说就是先由人把一个任务流程演示一遍比如报销、资产申请、订单查询、审批处理。系统把这次演示记录成标准样例存进知识库。下次 AI 执行类似任务时就通过上下文工程召回相关样例参考“老员工示范”来操作。这个方法很工程化也很现实。它不依赖大规模微调成本可控流程数据可以本地化保存更适合企业隐私要求同时适配速度也更快。换句话说GUI Agent 真正要解决的不是让 AI “更聪明”这么抽象的问题而是让它在真实业务里更懂规矩、更少走弯路、更稳定地把事做完。四、GUI Agent 会取代所有 App 吗关于 Agent还有一个常见问题未来 App 会不会消失我觉得答案没那么绝对。从功能角度看很多工具型 App 的入口价值确实可能被削弱。比如点外卖、打车、订票、查物流、买商品用户未来未必需要亲自打开 App 一步步操作。只要告诉 Agent 目标它就可以替你完成中间流程。在这种场景下GUI Agent 的确可能越过一部分 App 的前台交互把用户从繁琐操作中解放出来。但内容和娱乐类 App 不会这么简单地被替代。刷短视频、看直播、玩游戏、找虚拟陪伴、参与社区互动这些需求本身就包含大量体验、情绪和社交属性。Agent 可以帮你操作但不一定能替你体验。所以与其说 GUI Agent 会让 App 消失不如说它会重塑 App 的流量入口和功能分发方式。未来用户可能不再关心底层到底是 GUI Agent、Coding Agent、API Agent还是其他什么 Agent。用户只关心一件事我说完需求之后事情有没有被完成。从这个角度看GUI Agent 的定位更像是数字世界里的“保底执行者”。有高效接口时它可以配合接口完成任务没有接口时它就像软件机器人一样通过屏幕和鼠标键盘完成最后一公里。它不一定最性感但非常重要。五、360 GUI Agent 的产品化信号除了技术路线360 这次释放出的产品化信息也很值得关注。根据播客内容360 GUI Agent 将以浏览器插件形态落地。这个形态很适合办公场景因为大量企业系统本身就运行在浏览器里。隐私方面它只在当前工作窗口内录屏和操作而不是全局读取屏幕这对企业用户来说会更容易接受。开放节奏上360 计划先 B 后 C先在集团内部打磨再逐步开放外部体验。后台模型也支持自定义用户可以选择自己购买的 API 或模型服务。目前计划是6 月底在 360 集团内部开放预计 7、8 月份在 research.360.cn官网对外开放。对于关注 Agent、RPA、企业自动化和 AI 应用落地的开发者来说这个时间点值得留意。六、实践体验让 Agent 在淘宝搜索并排序这次我们也自己上手试了一下 GUI Agent。我们选了一个很日常的任务打开淘宝搜索“空调”然后把结果按照价格从低到高排序。这个任务本身不复杂甚至可以说有点普通但正因为它普通反而更接近我们每天真实会遇到的操作场景。实际用下来我的第一感受是GUI Agent 做的不是“回答问题”而是真的在替我们操作界面。它会先打开淘宝页面找到搜索框输入“空调”再进入搜索结果页。等页面加载完成后它继续去识别页面上的排序区域找到和“价格”相关的选项并完成从低到高的排序。整个过程不是通过某个后端接口直接拿结果而是在网页界面里一步一步完成操作。这点其实挺关键的。因为很多时候我们不是缺一个答案而是缺一个能帮我们把流程走完的助手。像淘宝搜索、排序、筛选这种操作人当然能做但每次都要自己点、自己看、自己切换条件。单次可能只花几十秒但如果换成工作里的报表筛选、订单查询、信息录入、审批提交这类重复动作累积起来就很消耗时间和注意力。这次操作让我比较有感触的是GUI Agent 的价值不是把一个简单任务做得多么“惊艳”而是它开始具备了接手重复流程的可能性。比如在个人场景里它可以帮我们完成搜索、筛选、初步对比把一些前置步骤先处理掉而放到办公场景里它对应的可能就是查询合同、提交报销、导出报表、录入客户信息、处理后台订单这些更高频、更固定的流程。所以我们这次实践下来最明显的感受是GUI Agent 离真实工作流并不远。以前我们用 AI更多是在让它“想”和“说”比如写一段内容、总结一份资料、回答一个问题。但 GUI Agent 更进一步它开始尝试帮我们“做”。哪怕现在只是完成一个网页搜索和排序它背后代表的也是一种变化AI 正在从对话框里走出来进入我们每天真实使用的软件界面。结语AI 的下一步是进入界面GUI Agent 的意义不只是让 AI 会点按钮。它代表的是一种更自然的自动化路径不要求所有系统都为 AI 重做一遍接口而是让 AI 学会适应已有的数字世界。在短期内它会面对很多挑战比如识别准确率、执行稳定性、流程泛化、权限安全、企业知识注入等。但从长期看它很可能成为 Agent 生态中不可或缺的一环。因为现实世界不会为了 AI 一夜之间完成系统改造。大量遗留系统、封闭后台、复杂流程依然会存在。而 GUI Agent 的价值就是在这些“不完美”的环境里依然尽可能把事情做成。它可能不是最会表达的 AI却可能是最愿意干活的 AI。而对开发者和企业来说这恰恰是最值得期待的地方。拆AI共识大模型正在“吞掉”App聊透GUI-Agent、流量入口与人机共识50分钟深度对谈https://www.bilibili.com/video/BV1nKEw6QEHj
GUI Agent:AI不只会“聊天”,也开始学会“动手”了
最近这半年我对 AI 工具的使用感受有一个很明显的变化以前我们更多是在对话框里让 AI 帮忙写文案、总结材料、生成代码现在越来越多的期待开始转向——能不能让 AI 直接帮我把事情做完比如打开一个网站搜索商品筛选条件排序结果或者登录一个内部系统提交申请、填写表单、走审批流程。这些事情看起来不难但一旦每天重复很多次就会变成典型的“脏活累活”。也是在这样的背景下GUI Agent 开始变得越来越值得关注。它不像一些通用 Agent 那样动不动就“创作”“规划”“多轮推理”看起来很性感GUI Agent 的目标反而很朴素像人一样看屏幕、理解界面、点击按钮、填写内容、完成任务。它更像一个数字世界里的“新员工”不一定话多但能接手大量重复操作。图360集团《这也叫AI》科技播客最近看了 360 关于 GUI Agent 的博客和播客内容后我最大的感受是这个方向并不是在重新包装一个概念而是在解决一个非常现实的问题——当一个系统没有 API、没有 MCP、没有专门为 AI 开放接口时AI 还能不能完成操作答案可能就是 GUI Agent。一、为什么 GUI Agent 值得关注过去谈 Agent我们经常会想到 API、MCP、插件、脚本、Skill 这些“工具调用”方式。它们很高效但前提是系统愿意为 AI 做适配。可在真实企业环境里很多系统并没有这么理想。ERP、OA、审批、报销、资产管理系统往往已经运行多年界面复杂、流程固定、接口封闭。要让这些系统立刻为 AI 改造接口成本高也不现实。GUI Agent 的价值就在这里它不要求系统主动适配 AI而是让 AI 像人一样看界面、理解按钮、填写表单、完成操作。这也是它和 Manus、OpenClaw 这类 Agent 的关键区别。后者更像“外挂武器”能力强但依赖接口和工具GUI Agent 更像“大脑 眼睛 手”通过视觉识别和界面操作直接在已有软件里完成任务。所以GUI Agent 未必是最高效的路径却可能是最有“保底价值”的路径有 API 就走 API没 API 就靠视觉和操作兜底。二、GUI Agent 的“性感”和“不性感”GUI Agent 不是那种一眼看上去最炫的 AI 技术。它不会写诗作画也不是为了制造惊艳效果。它干的更多是“脏活累活”填报表、点按钮、查订单、提申请、改状态、走流程。但这些琐碎动作恰恰是很多人每天真实消耗时间的地方。在工作里真正拖慢效率的往往不是“不会想”而是“做不完”打开系统、复制内容、选择下拉框、上传附件、点击确认、等待跳转……一个流程可能只要几分钟但一天重复几十次就会变成很明显的负担。360 在播客中提到过一个很典型的案例GUI Agent 曾在内部 ERP 系统里自动完成一个 IT 资产申请流程整个流程高达 27 步。这个案例说明复杂、长链条的企业内部流程确实有被 AI 自动化接管的可能。更有意思的是在一次测试中Agent 自动提交了 600 多个资产申请直接把审批后台堆满了。后来团队又能一键自动驳回这些申请。这个场景虽然有点“戏剧性”但也说明当 GUI Agent 能稳定执行流程后它带来的不是局部提效而是流程级自动化。三、理想很丰满落地很骨感GUI Agent 的难点不只是“会不会点按钮”更重要的是“懂不懂业务”。通用模型可能知道什么是报销、审批、资产申请但它不可能天然理解某家公司内部的制度、字段含义、审批规则和例外情况。比如同样叫“费用类型”不同公司分类不同同样叫“资产申请”不同部门审批链路也可能不同。这些都不是通用模型靠常识就能解决的。这就是 GUI Agent 在 B 端落地时常见的“水土不服”。如果每家公司、每个系统、每条流程都重新训练模型成本太高数据也敏感。360 给出的解法是不重新训练大模型而是通过“样例知识注入”给 AI 找一个“老员工”带路。简单来说就是先由人把一个任务流程演示一遍比如报销、资产申请、订单查询、审批处理。系统把这次演示记录成标准样例存进知识库。下次 AI 执行类似任务时就通过上下文工程召回相关样例参考“老员工示范”来操作。这个方法很工程化也很现实。它不依赖大规模微调成本可控流程数据可以本地化保存更适合企业隐私要求同时适配速度也更快。换句话说GUI Agent 真正要解决的不是让 AI “更聪明”这么抽象的问题而是让它在真实业务里更懂规矩、更少走弯路、更稳定地把事做完。四、GUI Agent 会取代所有 App 吗关于 Agent还有一个常见问题未来 App 会不会消失我觉得答案没那么绝对。从功能角度看很多工具型 App 的入口价值确实可能被削弱。比如点外卖、打车、订票、查物流、买商品用户未来未必需要亲自打开 App 一步步操作。只要告诉 Agent 目标它就可以替你完成中间流程。在这种场景下GUI Agent 的确可能越过一部分 App 的前台交互把用户从繁琐操作中解放出来。但内容和娱乐类 App 不会这么简单地被替代。刷短视频、看直播、玩游戏、找虚拟陪伴、参与社区互动这些需求本身就包含大量体验、情绪和社交属性。Agent 可以帮你操作但不一定能替你体验。所以与其说 GUI Agent 会让 App 消失不如说它会重塑 App 的流量入口和功能分发方式。未来用户可能不再关心底层到底是 GUI Agent、Coding Agent、API Agent还是其他什么 Agent。用户只关心一件事我说完需求之后事情有没有被完成。从这个角度看GUI Agent 的定位更像是数字世界里的“保底执行者”。有高效接口时它可以配合接口完成任务没有接口时它就像软件机器人一样通过屏幕和鼠标键盘完成最后一公里。它不一定最性感但非常重要。五、360 GUI Agent 的产品化信号除了技术路线360 这次释放出的产品化信息也很值得关注。根据播客内容360 GUI Agent 将以浏览器插件形态落地。这个形态很适合办公场景因为大量企业系统本身就运行在浏览器里。隐私方面它只在当前工作窗口内录屏和操作而不是全局读取屏幕这对企业用户来说会更容易接受。开放节奏上360 计划先 B 后 C先在集团内部打磨再逐步开放外部体验。后台模型也支持自定义用户可以选择自己购买的 API 或模型服务。目前计划是6 月底在 360 集团内部开放预计 7、8 月份在 research.360.cn官网对外开放。对于关注 Agent、RPA、企业自动化和 AI 应用落地的开发者来说这个时间点值得留意。六、实践体验让 Agent 在淘宝搜索并排序这次我们也自己上手试了一下 GUI Agent。我们选了一个很日常的任务打开淘宝搜索“空调”然后把结果按照价格从低到高排序。这个任务本身不复杂甚至可以说有点普通但正因为它普通反而更接近我们每天真实会遇到的操作场景。实际用下来我的第一感受是GUI Agent 做的不是“回答问题”而是真的在替我们操作界面。它会先打开淘宝页面找到搜索框输入“空调”再进入搜索结果页。等页面加载完成后它继续去识别页面上的排序区域找到和“价格”相关的选项并完成从低到高的排序。整个过程不是通过某个后端接口直接拿结果而是在网页界面里一步一步完成操作。这点其实挺关键的。因为很多时候我们不是缺一个答案而是缺一个能帮我们把流程走完的助手。像淘宝搜索、排序、筛选这种操作人当然能做但每次都要自己点、自己看、自己切换条件。单次可能只花几十秒但如果换成工作里的报表筛选、订单查询、信息录入、审批提交这类重复动作累积起来就很消耗时间和注意力。这次操作让我比较有感触的是GUI Agent 的价值不是把一个简单任务做得多么“惊艳”而是它开始具备了接手重复流程的可能性。比如在个人场景里它可以帮我们完成搜索、筛选、初步对比把一些前置步骤先处理掉而放到办公场景里它对应的可能就是查询合同、提交报销、导出报表、录入客户信息、处理后台订单这些更高频、更固定的流程。所以我们这次实践下来最明显的感受是GUI Agent 离真实工作流并不远。以前我们用 AI更多是在让它“想”和“说”比如写一段内容、总结一份资料、回答一个问题。但 GUI Agent 更进一步它开始尝试帮我们“做”。哪怕现在只是完成一个网页搜索和排序它背后代表的也是一种变化AI 正在从对话框里走出来进入我们每天真实使用的软件界面。结语AI 的下一步是进入界面GUI Agent 的意义不只是让 AI 会点按钮。它代表的是一种更自然的自动化路径不要求所有系统都为 AI 重做一遍接口而是让 AI 学会适应已有的数字世界。在短期内它会面对很多挑战比如识别准确率、执行稳定性、流程泛化、权限安全、企业知识注入等。但从长期看它很可能成为 Agent 生态中不可或缺的一环。因为现实世界不会为了 AI 一夜之间完成系统改造。大量遗留系统、封闭后台、复杂流程依然会存在。而 GUI Agent 的价值就是在这些“不完美”的环境里依然尽可能把事情做成。它可能不是最会表达的 AI却可能是最愿意干活的 AI。而对开发者和企业来说这恰恰是最值得期待的地方。拆AI共识大模型正在“吞掉”App聊透GUI-Agent、流量入口与人机共识50分钟深度对谈https://www.bilibili.com/video/BV1nKEw6QEHj