前言:为什么你需要关注 YAML 脚本与 AI 断言?2025年12月,字节跳动 Web Infra 团队正式发布了 Midscene v1.0。根据官方发布公告,Midscene 自 2024 年开源以来,已经在 GitHub 斩获 11k star、Trending 榜第二名等成绩,并在互联网、金融、政企、汽车等大量应用场景下完成落地。v1.0 的发布宣告着一个重要的技术转向:Midscene 全面拥抱纯视觉驱动方案,UI 操作与元素定位不再依赖 DOM 信息,只基于截图完成。根据 Midscene v1.0 官方发布说明,从 v1.0 开始,Midscene 全面转向视觉理解方案,提供更稳定可靠的 UI 自动化能力。这意味着自动化框架不再依赖 UI 渲染的技术栈,无论是 Android、iOS、桌面应用,还是浏览器中的 Canvas 元素,只要能获取截图,Midscene 即可完成交互操作。更重要的是,在去除 DOM 提取之后,视觉方案的 token 使用量可以减少80%,成本更低,且本地运行速度也变得更快。与此同时,Midscene 团队发现,在大多数情况下开发者编写自动化脚本只是为了执行一些简单流程,比如检查某些内容是否出现,或者验证某个关键用户路径是否可用。此时维护一个大型测试项目会显得毫无必要。于是,Midscene 提供了一种基于.yaml文件的自动化测试方法,帮助开发者专注于编写流程,而不是测试框架。截至 2026 年 5 月,Midscene.js 最新稳定版本已迭代至
Midscene.js 实战(二):通过 YAML 脚本实现 AI 驱动的自动化断言
前言:为什么你需要关注 YAML 脚本与 AI 断言?2025年12月,字节跳动 Web Infra 团队正式发布了 Midscene v1.0。根据官方发布公告,Midscene 自 2024 年开源以来,已经在 GitHub 斩获 11k star、Trending 榜第二名等成绩,并在互联网、金融、政企、汽车等大量应用场景下完成落地。v1.0 的发布宣告着一个重要的技术转向:Midscene 全面拥抱纯视觉驱动方案,UI 操作与元素定位不再依赖 DOM 信息,只基于截图完成。根据 Midscene v1.0 官方发布说明,从 v1.0 开始,Midscene 全面转向视觉理解方案,提供更稳定可靠的 UI 自动化能力。这意味着自动化框架不再依赖 UI 渲染的技术栈,无论是 Android、iOS、桌面应用,还是浏览器中的 Canvas 元素,只要能获取截图,Midscene 即可完成交互操作。更重要的是,在去除 DOM 提取之后,视觉方案的 token 使用量可以减少80%,成本更低,且本地运行速度也变得更快。与此同时,Midscene 团队发现,在大多数情况下开发者编写自动化脚本只是为了执行一些简单流程,比如检查某些内容是否出现,或者验证某个关键用户路径是否可用。此时维护一个大型测试项目会显得毫无必要。于是,Midscene 提供了一种基于.yaml文件的自动化测试方法,帮助开发者专注于编写流程,而不是测试框架。截至 2026 年 5 月,Midscene.js 最新稳定版本已迭代至