别再手动搓老系统了:微软 Copilot Studio 的 Computer Use 到底有多能打

别再手动搓老系统了:微软 Copilot Studio 的 Computer Use 到底有多能打 接到一个任务对接一套二十年前的老系统。没有 API。没有 SDK。只有一个人力窗口——登录进去填表单点按钮等结果。你同事管这叫手动搓数据。这种活公司里总是需要一个倒霉蛋来干的。然后我看到了微软 Copilot Studio 刚放出来的新东西。不不是那种帮你写个回复邮件的 AI。是能让 AI 直接替你去操作任何软件的——Computer Use agent。今年 5 月 13 号GA 了。什么意思翻译成人话给你的 AI 一双眼睛、一双手它能像人一样看屏幕、点按钮、填表单而且看见的玩意儿变了它也能自适应。不像传统的 RPA一个按钮往右挪了 3 个像素脚本就炸了。我捣鼓了一整个周末把整个过程搓出来了。到底是个什么玩意儿先说清楚概念。微软 Copilot Studio 里有个新工具叫Computer Use全称是 Computer-Using Agent简称 CUA。它的工作原理很简单——把 AI 模型接上一个虚拟的鼠标和键盘让它能操作 Windows 上的任何软件。不是走 API 调用的路线。是模拟真人操作看到屏幕上有什么 → 判断下一步点哪里 → 点下去 → 看到新页面 → 再判断 → 循环。用微软自己的话说If a person can use an app or website, computer use can too.底层跑了两种模型可选OpenAI 的 CUA 模型或者 Anthropic 的 Claude Sonnet 4.5。都是经过专门训练的视觉-推理模型不是那种看着截图猜猜看的水平。跟 RPA 有什么区别这个问题我一开始也困惑。传统 RPAUiPath、Blue Prism 那些也是替人操作软件啊有啥区别区别大了。我列个表对比项传统 RPAComputer Use Agent识别方式CSS 选择器 / XPath / 坐标AI 视觉 语义理解界面变化前端改一个 class 名就崩自适应按钮挪了也能找到开发方式拖拽流程图 / 录屏回放写一句自然语言描述维护成本高每次更新要重新录制低AI 自己适配错误处理写死分支逻辑模型自带推理能力适用场景稳定的企业系统老系统、第三方门户、无 API 场景说白了RPA 是一个按剧本演戏的演员——剧本写的每一步都不能错舞台布景变了就演不下去。Computer Use 更像一个有脑子的人——你告诉它去把那个表格填了它看看表单长什么样自己琢磨怎么填。实操三步搓一个 Computer Use Agent理论说多了没意思直接上手。前置条件一个 Copilot Studio 环境有 Power Platform 订阅就行区域设成美国目前预览期有区域限制你那台 Windows 机器或者云桌面第一步建个 Agent进 Copilot Studio点Create→ 选Agent。给个名字比如老系统数据录入员。描述写清楚它要干嘛——后面模型会读这个描述来决定什么时候调用工具。第二步加 Computer Use 工具左边栏点Tools→Add tool→New tool→ 选Computer use。这里有一排配置Name给工具起个名字比如操作报销系统Description告诉它这是个什么系统、用来干嘛的Model选模型。我建议先用 OpenAI CUA标准版跑一步 5 个 Copilot Credits效果不好再切 ClaudeInstructions关键。在这里写清楚它要干什么格式可以参考1.打开https://your-legacy-system.com2.用账号admin登录3.进入报销单管理页面4.找到状态为待审批的记录5.逐条核准6.完成后退出系统7.不需要请求许可最后那句不需要请求许可挺重要的——不然模型每做一个步骤都会停下来问你可以吗。第三步配置访问权限选这个 agent 要操作的机器。支持两种方式物理机安装 Copilot Studio 的本地 Agent 服务Cloud PCWindows 365 云桌面适合规模化部署然后配凭据。支持内置加密存储或者 Azure Key Vault。这里有个坑密码字段只支持原生 Windows 应用WinForms、WPF、UWP不支持 Electron 应用比如 VS Code、Slack 的桌面版、Java 应用、游戏。跑起来看看配完点Test会弹出一个远程桌面窗口agent 开始表演——你会看到光标自己在动自己打开浏览器自己填表单。第一次看到这画面说实话有点脊背发凉。但效果是真的行。我拿一个内部报销系统测了三条业务流程全部一次通过。中间有一步界面上多了一个弹窗提示agent 自己关了弹窗继续往下走——传统 RPA 写到这一步脚本可能得重录。企业级要关注的事个人捣鼓是一回事上生产是另一回事。微软这一波 GA 不只是开放功能还把企业治理也补齐了Human-in-the-loop遇到低置信度的操作可以设审批人等人点确认再继续运行回放agent 每一步看过什么、点过什么、为什么这么选全部录下来可以回放审查审计日志日志直接推到 Microsoft Purview 和 Dataverse合规审计一条线走完应用白名单可以限制 agent 只能操作某些网站或应用其他的一律不给碰DLP 策略继承 Power Platform 的数据防泄漏策略这对金融、医疗、政务这些合规重灾区来说是刚需。没有这些IT 部门不可能放 AI 去碰生产系统。一条产业链正在形成微软不是唯一在做这件事的。Anthropic 的 Claude 很早就有 Computer Use 能力了去年就发布了OpenAI 的 CUA 模型也在跟进。但 Microsoft Copilot Studio 的差异化在于它把这件事做成了低代码平台的一部分。你不是在写 Python 脚本调 API 让 AI 操作电脑。你是在 Copilot Studio 里拖一拖、写几句自然语言描述一个能操作真实软件的 agent 就造好了。还能跟已有的 Power Automate 流程、Dynamics 365、Teams 无缝打通。Work IQ 的 REST API 和 CLI 也开放了MCP 协议支持也加了——这意味着 agent 不光能操作桌面软件还能调用外部工具链agent 之间还能互相通信Agent-to-Agent 通信也 GA 了。说白了微软在搓一个东西让 agent 变成企业 IT 的通用遥控器——不管底下是什么老古董系统只要有个屏幕agent 就能操作。值不值那个 Credits最后聊一下成本。Computer Use 每次执行按步骤计费一个步骤可能包含多次点击/输入。标准模型 5 Credits/步Premiuim 模型Claude Opus 4.615 Credits/步。拿我刚才测试的报销流程来说打开系统1步→ 登录1步→ 进报销页面1步→ 找待审批记录2步→ 逐条核准每条2步→ 退出1步。一条报销单大概 10 步左右50 Credits。一个 Copilot Credit 多少钱取决于你的 Copilot Studio 许可证。标准版大概 $0.01-0.02/Credit。算下来一条流程不到 $1。对比一个专职员工每天干 8 小时这活——一个月上万的人工成本——这个价格简直像白送。而且机器不需要午休、不请病假、不会在群里吐槽又是这破系统。当然也有该冷静的地方模型偶尔会看走眼比如界面上的某个按钮跟预期位置不一样Human-in-the-loop 是必要的兜底。我测了三轮有一次 agent 在一个双选框页面上卡了 40 秒——它在犹豫选左边还是选右边。但话说回来40 秒。换我去可能也要看 10 秒。这就是 Computer Use 最让我服气的地方——它不是快它是像人。一个判断传统 RPA 厂商未来两年的日子恐怕不太好过。当一个低代码平台能让你用自然语言描述就能搓出一个会操作软件的 agent而且自带视觉自适应能力——那种写脚本、录流程、处理异常分支的 RPA 开发模式就显得有点笨重了。我不是说 RPA 会死——有些高确定性、高频重复的场景RPA 的稳定性还是要高一个量级的。但打个补丁对付一下老系统这种场景Agent 赢麻了。说实话我一开始也只是抱着看看微软又画了什么饼的心态去试的。结果捣鼓完一个周末状态变成了嗯真香。这玩意儿应该也会遇到新问题——就像我常说的每个新方案都是旧方案换了层皮。但至少这一次皮换得不太敷衍。散会。