低阶模型干不了重活?让 Agent 自己调用 Gemini Pro 的 Extended Thinking

低阶模型干不了重活?让 Agent 自己调用 Gemini Pro 的 Extended Thinking 神器推荐Gemini Web Automation —— 让任何 AI Agent 随时调用 Gemini 3.1 Pro 的深度思考能力如果你在用 Claude Code 这类 AI Agent大概率会遇到这个问题你的 Agent 背后是 DeepSeek V4 Flash / 豆包 / GLM / Qwen / Kimi速度快成本低日常编码辅助够用。但一旦让它写一个完整的技术方案、做架构设计、深度头脑风暴输出明显不够深。不是这些模型不好是它们的天花板就在那。今天介绍的 **Gemini Web Automation** 就是来弥补这个差距的。它能解决什么痛点**日常模型深度不够** — 遇到复杂任务方案设计、技术选型、架构规划低成本模型给不了那种真正的 deep thinking**Agent 缺少外挂能力** — 你的 Agent 遇到硬骨头除了硬撑没有更好的选择**多模态缺失** — 很多模型没有视觉能力看图、分析截图需要另外找工具核心特性**本质上是个 Python 运行时** — 通过浏览器自动化 Gemini发送 Prompt、上传图片、切换模型、获取回复全部结构化 JSON 返回专为 AI Agent 集成设计**Gemini 3.1 Pro Extended Thinking** — 遇到复杂任务时自动调用 Gemini 的最强模式深度推理、多步规划、高质量输出**多模态辅助** — 默认用 Gemini 3.5 Flash 为没有视觉能力的模型提供看图能力**会话持久化** — 登录一次后续重复使用浏览器 Profile不用反复认证快速上手安装与初始化非常简单git clone https://github.com/lainXXX/gemini-web-automation-skill.git cd gemini-web-automation-skill cp .env.example .env python scripts/bootstrap.pybootstrap.py会启动 Chrome 并打开 Gemini 登录页手动登录后就可以开始使用了。基础使用示例# 发送消息 python scripts/chat.py 帮我写一个微服务架构方案 # 附带图片让 Gemini 分析 python scripts/chat.py 这张架构图有什么问题 -a diagram.png优缺点客观分析**优点**工作流清晰日常用便宜模型硬骨头交给 Gemini互补不冲突无 API 费用通过浏览器网页版使用不需要 Gemini API Key有 Google 账号即可集成简单结构化 JSON 返回任何一个 Agent 都能对接零配置运维Chrome 自动管理登录会话持久化**局限性**依赖浏览器需要 Chrome/Chromium 环境纯 API 调用比浏览器自动化更轻量响应速度受限于网页版extended thinking 模式下首响应可能需要 15-60 秒需要 Google 账号和网络环境国内用户需要配置代理拓展阅读GitHub 地址[https://github.com/lainXXX/gemini-web-automation-skill](https://github.com/lainXXX/gemini-web-automation-skill)