低阶模型干不了重活？让 Agent 自己调用 Gemini Pro 的 Extended Thinking-尧图企业网站定制

神器推荐Gemini Web Automation —— 让任何 AI Agent 随时调用 Gemini 3.1 Pro 的深度思考能力如果你在用 Claude Code 这类 AI Agent大概率会遇到这个问题你的 Agent 背后是 DeepSeek V4 Flash / 豆包 / GLM / Qwen / Kimi速度快成本低日常编码辅助够用。但一旦让它写一个完整的技术方案、做架构设计、深度头脑风暴输出明显不够深。不是这些模型不好是它们的天花板就在那。今天介绍的 **Gemini Web Automation** 就是来弥补这个差距的。它能解决什么痛点**日常模型深度不够** — 遇到复杂任务方案设计、技术选型、架构规划低成本模型给不了那种真正的 deep thinking**Agent 缺少外挂能力** — 你的 Agent 遇到硬骨头除了硬撑没有更好的选择**多模态缺失** — 很多模型没有视觉能力看图、分析截图需要另外找工具核心特性**本质上是个 Python 运行时** — 通过浏览器自动化 Gemini发送 Prompt、上传图片、切换模型、获取回复全部结构化 JSON 返回专为 AI Agent 集成设计**Gemini 3.1 Pro Extended Thinking** — 遇到复杂任务时自动调用 Gemini 的最强模式深度推理、多步规划、高质量输出**多模态辅助** — 默认用 Gemini 3.5 Flash 为没有视觉能力的模型提供看图能力**会话持久化** — 登录一次后续重复使用浏览器 Profile不用反复认证快速上手安装与初始化非常简单git clone https://github.com/lainXXX/gemini-web-automation-skill.git cd gemini-web-automation-skill cp .env.example .env python scripts/bootstrap.pybootstrap.py会启动 Chrome 并打开 Gemini 登录页手动登录后就可以开始使用了。基础使用示例# 发送消息 python scripts/chat.py 帮我写一个微服务架构方案 # 附带图片让 Gemini 分析 python scripts/chat.py 这张架构图有什么问题 -a diagram.png优缺点客观分析**优点**工作流清晰日常用便宜模型硬骨头交给 Gemini互补不冲突无 API 费用通过浏览器网页版使用不需要 Gemini API Key有 Google 账号即可集成简单结构化 JSON 返回任何一个 Agent 都能对接零配置运维Chrome 自动管理登录会话持久化**局限性**依赖浏览器需要 Chrome/Chromium 环境纯 API 调用比浏览器自动化更轻量响应速度受限于网页版extended thinking 模式下首响应可能需要 15-60 秒需要 Google 账号和网络环境国内用户需要配置代理拓展阅读GitHub 地址[https://github.com/lainXXX/gemini-web-automation-skill](https://github.com/lainXXX/gemini-web-automation-skill)

相关新闻

【AIGC行业前沿】2026年7月AIGC行业前沿模型发布动态（7月01日-7月05日）

GitHub Trending AI项目深度解析：14个明星项目助你重塑开发工作流

AI驱动测试自动化：从需求到脚本的端到端实践

Linux 主机防火墙如何同时开启 80 和 443？

低价充电头实测指南：协议兼容性、纹波抑制与功率分配三大核心解析

.NET如何实现向量语义分析

青少年 Python 入门 | 每天打开看一看——「暑假倒计时日历」+ 每日一句

C# 4.0 新特性-dynamic

道路安全锥交通锥检测数据集7091张VOC+YOLO格式

STM32与LENA-R8构建全球定位与通信嵌入式系统

免费二维码修复工具终极指南：三步拯救损坏二维码

acme.sh私钥加密存储：基于OpenSSL的自动化证书安全管理方案

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

工业4-20mA电流环信号传输与XTR116应用设计

TPAFE0808与PIC18F87K22的多通道信号采集方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原