Agent-S3 开源 GUI Agent 框架详解-尧图企业网站定制

Agent-S3 开源 GUI Agent 框架详解研究对象Agent-S3Simular AI 开发的 GUI 自动化 Agent 框架核心论文arXiv:2510.02250 — “Scaling Agents for Computer Use”一、项目概况项目信息项目名称Agent S当前版本Agent S3开发团队Simular Research / Simular AI论文发表2025 年 10 月 2 日v12026 年 2 月 3 日v2开源仓库https://github.com/simular-ai/Agent-S11.8k Stars, 1.4k Forks, 353 CommitsPyPI 包名gui-agents论文链接https://arxiv.org/abs/2510.02250官方博客https://www.simular.ai/articles/agent-s3许可协议Apache 2.0支持平台Linux、macOSDarwin、WindowsDiscord 社区https://discord.gg/E2XfsK9fPV核心定位Agent S3 是一个开源的 GUI Agent 框架目标是让 AI 像人类一样操作电脑。它通过 Agent-Computer Interface (ACI) 使 Agent 能够自主理解和操控桌面/网页 GUI 界面完成各种日常数字化任务。二、演进历程S1 → S2 → S3Agent S12024 年 10 月发布论文arXiv:2410.08164ICLR 2025 收录获 Best Paper Award架构Graph Search Agent图搜索多模态感知OSWorld 成绩20.6%核心贡献提出 Agent-Computer InterfaceACI概念开创开源 GUI Agent 方向Agent S22025 年 3 月/4 月发布论文arXiv:2504.00906COLM 2025 收录架构Compositional Generalist-Specialist组合式通用专用框架Manager规划 Worker执行 Grounding定位 Memory记忆OSWorld 成绩48.8%后提升至 SOTA核心贡献Compositional Grounding and Planning超越 OpenAI CUA/Operator 和 Anthropic Claude 3.7 Sonnet Computer-UseAgent S2.52025 年 8 月发布更简单、更好、更快OSWorld-Verified 新 SOTAAgent S32025 年 10 月发布— 本次调研重点论文arXiv:2510.02250 — “The Unreasonable Effectiveness of Scaling Agents for Computer Use”架构简化框架原生 CodeAgent Behavior Best-of-N (bBoN)OSWorld 成绩单 rollout 66%bBoN 72.6%首次超越人类基线 72.36%核心贡献首次提出 GUI Agent 的横向扩展wide-scaling框架三、Agent-S3 核心架构3.1 整体架构Agent S3 采用简化且模块化的架构设计┌─────────────────────────────────────────────────┐ │ Agent S3 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Main Agent │───▶│ Grounding Agent │ │ │ │ (GPT-5/Claude)│ │ (UI-TARS-1.5-7B) │ │ │ └──────┬───────┘ └──────────┬───────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────────────┐ │ │ │ Reflection │ │ CodeAgent │ │ │ │ Agent │ │ (Python/Bash) │ │ │ └──────────────┘ └──────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ Behavior Best-of-N (bBoN) Pipeline │ │ │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ │ │Behavior │───▶│ Comparative │ │ │ │ │ │Narrator │ │ Judge │ │ │ │ │ └──────────────┘ └──────────────┘ │ │ │ └──────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘3.2 主要组件Main Agent主 Agent使用大语言模型推荐 GPT-5 或 Claude进行推理和决策负责任务理解、步骤规划、决策制定支持多模型后端OpenAI、Anthropic、Gemini、OpenRouter、Azure OpenAI、vLLM 等维护轨迹trajectory最多保留 8 步图像历史Grounding Agent定位 Agent / OSWorldACI负责将 Agent 的意图动作翻译为可执行的 PyAutoGUI 代码推荐模型ByteDance 的 UI-TARS-1.5-7B部署在 HuggingFace Inference Endpoints基于视觉和文本双重定位Visual and Text Grounding不依赖无障碍树accessibility tree或硬编码元素 ID输出坐标分辨率1920x1080UI-TARS-1.5-7B或 1000x1000UI-TARS-72BReflection Agent反思 Agent在 Agent 执行过程中实时介入检查每一步操作是否正确纠正偏差可启用/禁用--enable_reflection与 bBoN 不同Reflection 是执行时的bBoN 是执行后的CodeAgent代码 AgentS3 新增功能支持在本地执行 Python 和 Bash 代码适用于数据处理、文件操作、系统自动化等场景可通过call_code_agent动作触发安全警告在本地机器上执行任意代码仅限可信环境使用Bash 脚本有 30 秒超时限制3.3 Behavior Best-of-N (bBoN) — 核心创新这是 Agent S3 最具创新性的特性解决了 GUI Agent 的高方差瓶颈。问题定义GUI Agent 在长程任务中表现不稳定high variance同样的 Agent 有时成功有时完全失败微小的错误误点、延迟响应、弹窗会随时间累积放大传统的单 rollout 方法即使使用更强模型也不够一致bBoN 解决方案核心思路运行 N 个独立 rollout从中选择最好的结果。流程两阶段后处理管道阶段1Behavior Narrator行为叙事器 ├── 分析每次 rollout 的 before/after 截图 ├── 分析执行的 PyAutoGUI 代码 ├── 生成事实描述fact captions—— 每步操作的实际改变 └── 串联形成行为叙事behavior narrative 简洁、可解释、可比较阶段2Comparative Judge对比评判器 ├── 接收多个 rollout 的行为叙事 ├── 使用 VLM视觉语言模型进行对比评估 ├── 基于事实描述进行多选择判断 └── 选出最优的 rollout关键设计细节事实描述Fact Captions将 noisy 的逐步骤记录转化为关于每步发生了什么的简洁陈述独立于 Agent 意图ground truth关注直接影响任务成功的信息对比评判Comparative Judging不使用独立打分而是跨 rollout 对比引用各 rollout 中的事实进行推理多选择格式multi-choice更可靠、更可扩展评判器对齐在评判器可提升表现的 44% OSWorld 任务中评判器正确选择率为 78.4%人工复核发现实际正确率为 92.8%暗示 OSWorld 真实性能可能接近 76.3%四、性能与基准测试4.1 OSWorld 基准模型/方法成绩说明Agent S3 bBoN72.6%首次超越人类基线人类基线72.36%—Agent S3单 rollout66%已超之前 SOTAGTA1 w/ GPT-563.4%之前 SOTAClaude Sonnet 4.561.4%—Agent S248.8%—Agent S120.6%—4.2 跨平台泛化零样本基准Agent S3 单 rollout bBoNWindowsAgentArena50.2%56.6%3 rolloutsAndroidWorld68.1%71.6%4.3 演进趋势图OSWorld 成绩演进 72.6% │ ████████████████████ Agent S3 bBoN (超越人类!) │ 72.4% │ ════════════════════ 人类基线 │ 66.0% │ ████████ Agent S3 (单rollout) │ 63.4% │ ███████ GTA1 GPT-5 │ 61.4% │ ██████ Claude Sonnet 4.5 │ 48.8% │ ████ Agent S2 │ 20.6% │ █ Agent S1 └─────────────────────────────五、安装与部署5.1 环境要求单显示器专为单显示器设计系统支持Linux、macOS、Windows依赖PyTesseract需额外安装 tesseract OCR5.2 安装方式# 方式一pip 安装推荐pipinstallgui-agents# 方式二源码安装开发gitclone https://github.com/simular-ai/Agent-S.gitcdAgent-S pipinstall-e.# 额外依赖brewinstalltesseract# macOS5.3 API 配置# 环境变量exportOPENAI_API_KEYyour_keyexportANTHROPIC_API_KEYyour_keyexportHF_TOKENyour_key5.4 推荐配置agent_s\--provideropenai\--modelgpt-5-2025-08-07\--ground_providerhuggingface\--ground_urlhttp://localhost:8080\--ground_modelui-tars-1.5-7b\--grounding_width1920\--grounding_height10805.5 CLI 主要参数参数说明默认值--provider主模型提供商openai--model主模型名称gpt-5-2025-08-07--ground_provider定位模型提供商必填--ground_url定位模型 URL必填--ground_model定位模型名称必填--grounding_width/height坐标输出分辨率必填--max_trajectory_length最大图像轨迹长度8--enable_reflection启用反思 AgentTrue--enable_local_env启用本地代码执行False--model_temperature模型温度—5.6 Simular Cloud不想本地部署可以使用 Simular Cloud免费公共计算机排队制付费专用私有计算机$50/月起支持实时人工干预浏览器远程访问六、支持的模型主模型推理/决策OpenAIGPT-5, GPT-4o 等AnthropicClaude 系列Google GeminiAzure OpenAIOpenRoutervLLM本地部署定位模型GUI 元素识别UI-TARS-1.5-7BByteDance/Seed推荐UI-TARS-72BByteDance/Seed支持通过 HuggingFace Inference Endpoints、TGI、vLLM 等部署七、SDK 与 API7.1 Python SDKfromgui_agents.s3.agents.agent_simportAgentS3fromgui_agents.s3.agents.groundingimportOSWorldACIfromgui_agents.s3.utils.local_envimportLocalEnv# 1. 配置引擎参数engine_params{engine_type:openai,model:gpt-5-2025-08-07,}engine_params_for_grounding{engine_type:huggingface,model:ui-tars-1.5-7b,base_url:http://localhost:8080,grounding_width:1920,grounding_height:1080,}# 2. 初始化local_envLocalEnv()# 可选grounding_agentOSWorldACI(envlocal_env,platformlinux,# darwin, windowsengine_params_for_generationengine_params,engine_params_for_groundingengine_params_for_grounding,width1920,height1080)agentAgentS3(engine_params,grounding_agent,platformlinux,max_trajectory_length8,enable_reflectionTrue)# 3. 执行任务importpyautogui screenshotpyautogui.screenshot()obs{screenshot:screenshot}info,actionagent.predict(instructionClose VS Code,observationobs)exec(action[0])7.2 动作空间Agent S3 通过 PyAutoGUI 执行以下类型操作鼠标点击click、double_click、right_click鼠标移动moveTo、drag键盘输入typewrite、hotkey、press截图代码执行CodeAgent八、与竞品对比8.1 主要竞品维度Agent S3SimularOpenAI OperatorAnthropic Claude CU类型开源框架闭源产品闭源产品OSWorld72.6%超越人类~61.4%~61.4%平台Linux/Mac/Windows云端虚拟浏览器桌面自定义模型支持OpenAI/Anthropic/vLLM等仅 OpenAI仅 Anthropic本地部署完全支持不支持不支持bBoN支持不支持不支持代码执行支持可选有限有限价格免费开源订阅制订阅制研究贡献学术论文开源商业产品商业产品8.2 Agent S3 的核心优势开源透明完整开源可审计、可定制超越人类性能72.6% vs 72.36%人类可扩展性bBoN 提供可量化的性能提升路径多模型支持不绑定单一 LLM 供应商跨平台支持三大操作系统学术研究顶会论文ICLR、COLM有理论支撑8.3 Agent S3 的局限需要 GPU 部署定位模型UI-TARS 需要单独部署单显示器限制不支持多显示器环境安全性CodeAgent 可执行任意本地代码API 成本频繁调用 GPT-5/Claude 定位模型token 消耗大速度GUI 操作本质较慢bBoN 需要 N 倍时间无状态保持每次运行相对独立依赖外部持久化九、应用场景9.1 软件测试自动化UI 测试自动化跨浏览器/跨平台回归测试异常界面处理9.2 RPA机器人流程自动化表单填写数据录入/导出跨系统数据同步9.3 研究与评估GUI Agent 基准测试Agent 行为分析模型能力评估9.4 个人助手日常桌面任务自动化文件管理与处理应用操作代劳9.5 企业应用工单处理数据迁移报告生成十、团队与公司背景Simular AI信息详情公司全称SimularThe Autonomous Computer Company创始人前 Google DeepMind 研究员产品线Agent S开源框架、Sai商业产品、Simular Cloud云服务旗舰产品Sai— 始终在线的 AI 同事运行在私有云桌面论文作者Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang十一、技术亮点总结Behavior Best-of-N (bBoN)首个针对 GUI Agent 的横向扩展框架通过多 rollout 行为叙事对比评判实现性能跃升首次超越人类在 OSWorld 基准上达到 72.6%超过人类基线 72.36%简化架构相比 S2 的复杂层级结构S3 更简单、更快、更灵活原生 CodeAgent支持在 GUI 操作之外执行 Python/Bash 代码强泛化能力零样本迁移到 WindowsAgentArena50.2%→56.6%和 AndroidWorld68.1%→71.6%评判器高对齐与人类偏好一致性达 92.8%十二、论文引用misc{Agent-S3, title{Scaling Agents for Computer Use}, author{Gonzalo Gonzalez-Pumariega and Vincent Tu and Chih-Lun Lee and Jiachen Yang and Ang Li and Xin Eric Wang}, year{2025}, eprint{2510.02250}, archivePrefix{arXiv}, primaryClass{cs.AI}, url{https://arxiv.org/abs/2510.02250}, }十三、相关链接资源链接GitHub 仓库https://github.com/simular-ai/Agent-S论文arXivhttps://arxiv.org/abs/2510.02250官方博客https://www.simular.ai/articles/agent-s3官方视频https://www.youtube.com/watch?vVHr0a3UBsh4公司产品https://www.simular.ai/Sai 产品https://www.sai.work/Simular Cloudhttps://cloud.simular.ai/PyPI 包https://pypi.org/project/gui-agents/Discord 社区https://discord.gg/E2XfsK9fPVDeepWiki 文档https://deepwiki.com/simular-ai/Agent-SOSWorld 基准https://os-world.github.io/UI-TARS 模型https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B十四、结论与展望Agent-S3 代表了 GUI Agent 领域的重大突破。其核心贡献在于证明了 GUI Agent 的扩展定律与 LLM 类似GUI Agent 也能通过正确的扩展方式bBoN获得显著性能提升跨越人类门槛72.6% vs 72.36%虽然差距不大但具有标志性意义开源推动进步完整的开源实现加速了该领域的研究和应用未来方向bBoN 的 N 越大性能可能继续提升理论上限尚不明确更高效的评判器设计降低 bBoN 的额外成本多 Agent 协作多 Agent 在同一个桌面环境协同工作更安全的代码执行沙箱多显示器支持更低的 API 成本通过更小的专用模型替代部分大模型调用

相关新闻

5分钟掌握MouseClick：免费高效的鼠标自动化终极解决方案

Keyboard Chatter Blocker：三步解决机械键盘连击问题，让你的键盘重获新生

AzurLaneAutoScript终极指南：24小时不间断解放双手的碧蓝航线智能管家

FlexPWM重载机制深度解析：双缓冲、同步更新与实时控制实战

抖音弹幕监听器技术实现指南：5分钟掌握WebSocket代理抓包架构

视频轨迹编辑技术：从相机控制到专业级视频生成

3分钟掌握MemcardRex：PS1游戏存档管理的终极解决方案

PowerPC e200z1 OnCE调试模块实战：从状态机到CPUSCR操作全解析

OBS Spout2插件实战秘籍：轻松实现高分辨率视频共享的终极神器

如何快速实现音频转文字：AsrTools智能语音识别工具的完整解决方案

鸿蒙 PC应用集成 hwloc：3 大 NAPI 编译坑详解

UniversalUnityDemosaics：3分钟快速配置Unity游戏视觉修复的终极指南

CTU-13数据集深度使用指南：如何用它训练你的第一个僵尸网络检测模型？

别再手动数圆了！用OpenCV+Python 5行代码自动识别图片中的圆形并标记中心点

遗传算法进阶：算子机制、种群健康度与自适应参数调优

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定