影刀RPA新手教程图像识别点击完全指南——找不到XPath时用图像定位你有没有遇到过这种情况要自动点击一个按钮但是这个按钮没有id、没有class或者用元素捕获抓不到XPath和CSS选择器都试过了还是定位不到。这时候怎么办用图像识别点击。影刀可以像人一样看屏幕找到你指定的图片位置然后点击它。本文用大白话教你从零学会图像识别点击案例是在桌面应用里找到一个按钮图标识别后点击它。一、安装影刀去官网下载安装包右键以管理员身份运行安装。安装完后打开影刀登录账号。流程设计器界面左边指令区中间画布右边属性配置区。如果还没安装先看完前面文章的安装步骤。二、为什么需要图像识别点击不是所有软件都能用XPath或CSS定位元素。以下场景XPath/CSS完全无效桌面应用软件比如用C、C#写的Windows程序游戏界面虚拟机里的软件某些用Canvas绘制的网页元素按钮是图片而不是文字的界面这时候图像识别就是唯一的选择。它的原理是你提供一张小图片比如一个按钮的截图影刀在屏幕上搜索这张图片的位置找到后点击坐标中心。案例背景有一个老旧的桌面ERP系统界面上的审核通过按钮是一张图片没有文字元素捕获抓不到。我们要用图像识别找到这个按钮并点击它。三、图像识别的基本原理图像识别点击分三步准备模板图片把你要点击的按钮截个小图只截按钮本身不要截周围的内容屏幕搜索影刀在屏幕上搜索这张图片的位置点击坐标找到后计算图片的中心坐标模拟鼠标点击这个坐标图像识别的准确率取决于模板图片的质量、屏幕上目标图片的清晰度、相似度阈值设置。相似度阈值影刀找到一个图片后会计算它跟模板的相似程度0到1之间1是完全相同。你可以在指令属性里设置阈值比如设0.8意思是相似度大于80%才认为是找到了。阈值设太高会找不到设太低会误点。四、图像识别指令详解影刀里跟图像识别相关的指令在硬件自动化→图像分类下查找图像功能在屏幕上查找指定图片的位置参数模板图片路径、查找范围全屏或指定区域、相似度阈值、超时时间输出找到返回坐标(x,y)找不到返回空用法先准备模板图片用截图工具截下来保存到本地然后在指令里选择这张图片点击图像功能查找图片并点击参数比查找图像多一个点击位置图片中心、左上角、自定义偏移用法最常用一步完成查找点击等待图像出现功能等屏幕上出现某张图片再继续场景有些按钮是动态出现的比如加载完成后才显示用这个指令等待出现了再点等待图像消失功能等屏幕上某张图片消失再继续场景等加载动画消失、等弹出框关闭拼多多店群自动化报活动上架案例里的关键步骤先手动操作一次用截图工具截取审核通过按钮的图片保存为approve_button.png在影刀流程里拖入点击图像指令选择模板图片approve_button.png设置相似度阈值为0.85给一点容差因为按钮可能有轻微色差设置超时时间为10秒10秒内找不到就报错运行流程影刀会自动在屏幕上找这个按钮找到后点击五、图像识别的高级技巧多分辨率适配如果你的流程要在不同分辨率的电脑上运行模板图片可能匹配不上因为缩放导致图片大小不一样。解决方法用查找图像指令的多尺度匹配功能如果影刀支持或者准备多套模板图片一套1080P的一套4K的根据屏幕分辨率选择对应的模板相似度阈值的调优刚开始用图像识别建议把阈值设低一点比如0.7看看能不能找到。如果经常误点点到了相似但不正确的位置再把阈值调高0.9。点击位置的偏移有些按钮点击有效区域不是图片中心而是某个特定位置。用自定义偏移设置点击坐标相对于图片左上角的偏移量。截图保存技巧截取模板图片时尽量只截目标按钮本身不要包含周围背景。背景越多越容易匹配失败因为背景可能变化。我当时踩过的坑截取了一个按钮的图片但按钮旁边有动态数字比如消息(3)数字会变导致匹配失败。解决方法截图时只截纯图标部分不要截文字部分。六、图像识别 vs 元素定位选型指南场景优先用原因网页元素XPath/CSS速度快准确率高桌面应用图像识别元素捕获可能失败游戏界面图像识别没有DOM结构按钮是图片图像识别元素捕获抓不到图片内部需要高精度XPath/CSS坐标点击可能偏移界面经常变化XPath/CSS只要元素属性不变就能定位一般建议能用药元素定位就不要用图像识别因为元素定位更准确、速度更快。图像识别是保底方案当你试了所有元素定位方法都失败时再用图像识别。七、变量和数据类型在图像识别里的应用图像识别的结果往往要用到变量里坐标变量查找图像指令找到图片后会返回坐标(x,y)存到两个数字变量里。你可以用这两个变量做后续操作比如移动到坐标位置、计算偏移量。相似度变量你可以把相似度阈值存到变量里而不是写死在指令里。这样如果后面要调整阈值只要改一个地方。图片路径变量如果你有多套模板图片不同分辨率可以把图片路径存到变量里根据屏幕分辨率动态选择。案例里的变量定义变量名button_x 变量类型数字 变量值0后面会被查找图像指令修改为实际坐标 变量名button_y 变量类型数字 变量值0 变量名similarity_threshold 变量类型数字 变量值0.85 变量名template_image_path 变量类型字符串 变量值C:\Templates\approve_button.png八、流程控制让图像识别更可靠图像识别最容易出的问题是找不到图片所以流程控制特别重要。Try-Catch异常处理把点击图像指令包在Try里如果找不到图片超时Catch里做处理截图保存、发通知、尝试用备用图片重新查找。While条件循环等待有些按钮是动态出现的刚打开界面时还没有。用While循环只要没找到图片就继续等用等待图像出现指令最多等30秒超过就报错。If条件判断找到图片后可以先判断坐标是否在合理范围内比如x应该在0到1920之间如果是负数说明找错了再点击。For次数循环如果一个界面上有多个相似的按钮比如一排相同的图标可以用查找所有图像功能如果影刀支持或者用循环偏移量逐个查找。九、网页自动化里的图像识别虽然网页自动化优先用XPath/CSS但有些场景图像识别更好用Canvas绘制的图形有些网页用Canvas画图比如流程图、游戏里面的元素没有DOM节点XPath抓不到只能用图像识别。验证码识别有些简单验证码是图片可以用图像识别定位验证码位置然后配合OCR识别验证码内容。动态加载的内容有些网页内容是用JavaScript动态渲染的元素捕获有时抓不到但图片是可见的可以用图像识别点击。跨iframe的元素网页里有iframe时元素捕获可能跨不过去但图像识别是在屏幕层面查找不受iframe限制。十、数据处理图像识别结果的后续处理图像识别点击往往只是第一步后面还要处理数据点击后等待页面响应点击按钮后往往要等页面刷新或弹窗出现。用等待图像出现等待新界面上的特征图片比如弹窗的关闭按钮图标。点击后读取数据有些按钮点击后会显示数据比如点击详情按钮后显示详细信息这时候可以用元素定位或OCR读取显示的数据。点击后截图保存点击按钮后截图保存操作结果用作后续核对或审计。案例扩展点击审核通过按钮后等待弹出的确认对话框出现用等待图像出现等待对话框的确定按钮图片然后点击确定再截图保存审核后的界面。十一、进阶技能OCR图像识别组合使用图像识别只能找到图片位置并点击但如果你要知道图片上的文字内容就需要OCR。OCR识别图标上的文字有些按钮图标上有文字比如确定两个字在按钮图片上你可以用OCR识别出文字内容确认这是你要点击的按钮再用图像识别点击。OCR读取点击后的结果点击按钮后屏幕上会显示一段文字比如审核成功用OCR识别这段文字确认操作是否成功。百度AI/OCR配置影刀支持百度AI、腾讯AI、阿里云AI三种OCR。需要在对应平台申请API Key然后在影刀里配置。配置方法指令区→AI服务→选择对应平台→填入API Key和Secret Key。十二、平台实战电商场景里的图像识别图像识别在电商场景里有很多用处淘宝/天猫有些按钮是图片比如立即购买按钮用图像识别点击。拼多多商品列表里的收藏按钮是一个星星图标用图像识别找到所有星星图标逐个点击。抖音视频下方的点赞、评论、分享按钮都是图标用图像识别定位并点击。TEMU店群矩阵自动化运营核价报活动小红书发布笔记时的添加话题按钮是一个#图标用图像识别点击。十三、系统联动图像识别结果的通知图像识别点击的结果也需要通知飞书消息每次点击成功后发飞书消息通知。如果点击失败找不到图片也发消息通知并附带截图。邮件报警连续多次找不到目标图片可能是界面改版了发邮件通知人工检查。飞书多维表格记录每次点击操作记录一条日志时间、目标图片、成功/失败、失败原因。十四、工程化与规范图像识别自动化的工程化重点在于模板管理和容错处理模板图片管理把所有模板图片放在一个文件夹里按功能命名比如approve_button.png、close_dialog.png。在影刀流程里引用时用相对路径而不是绝对路径。模板图片更新机制如果目标软件的界面改版了按钮样式变了要及时更新模板图片。建议定期检查比如每周一次发现匹配失败率上升就更新模板。多备用模板对于一个目标按钮可以准备2-3张不同角度/不同状态的模板图片比如正常状态、悬停状态、按下状态查找时依次尝试提高成功率。调试技巧在点击图像之前先用截图指令保存当前屏幕看看目标图片是否在屏幕上用查找图像指令的高亮显示功能如果有确认找的位置对不对把相似度阈值调低比如0.6看看能不能找到如果找到了说明阈值设太高了常见报错速查表报错原因解决方法找不到图片模板图片不匹配重新截图检查相似度阈值点击位置偏移图片找到了但坐标不准调整点击位置偏移量误点击相似度阈值太低提高阈值不同分辨率下失败模板图片分辨率不匹配准备多套模板或启用多尺度匹配点击后没反应目标按钮实际上是禁用的先用图像识别判断按钮是否高亮十五、完整案例桌面ERP系统的自动审核需求有一个桌面ERP系统每天有100条待审核记录要自动点击每条记录的审核通过按钮。流程步骤用启动应用程序指令打开ERP系统用等待图像出现指令等待系统主界面加载完成找一个特征图片比如系统logo用键盘输入→组合键CtrlHome跳到第一条记录For次数循环循环100次用点击图像指令点击当前记录的审核通过按钮模板图片approve_button.png用等待图像出现指令等待确认对话框出现模板图片confirm_dialog.png用点击图像指令点击确定按钮模板图片ok_button.png用等待图像消失指令等待对话框关闭用键盘输入→按下按键Down移动到下一条记录循环结束后截图保存最终结果发飞书消息通知注意每一步图像识别之后加等待指令等待1秒让系统反应过来。如果某一步找不到图片用Try-Catch捕获截图保存然后继续下一条。十六、总结图像识别点击是影刀里的重要保底方案当所有元素定位方法都失败时它就是你的救命稻草。虽然速度比元素定位慢准确率也受图片质量影响但它能处理元素定位处理不了的场景桌面应用、游戏、Canvas绘图。核心要点模板图片要截得准只截目标不要截背景相似度阈值要调得合适太高找不到太低会误点重要操作要加Try-Catch和通知。更多影刀RPA教程和案例访问 home.linyan.cloud#影刀RPA #RPA教程 #图像识别 #桌面自动化 #RPA入门 #影刀教程 #自动化点击 #图像定位作者林焱
影刀RPA新手教程:图像识别点击完全指南——找不到XPath时用图像定位
影刀RPA新手教程图像识别点击完全指南——找不到XPath时用图像定位你有没有遇到过这种情况要自动点击一个按钮但是这个按钮没有id、没有class或者用元素捕获抓不到XPath和CSS选择器都试过了还是定位不到。这时候怎么办用图像识别点击。影刀可以像人一样看屏幕找到你指定的图片位置然后点击它。本文用大白话教你从零学会图像识别点击案例是在桌面应用里找到一个按钮图标识别后点击它。一、安装影刀去官网下载安装包右键以管理员身份运行安装。安装完后打开影刀登录账号。流程设计器界面左边指令区中间画布右边属性配置区。如果还没安装先看完前面文章的安装步骤。二、为什么需要图像识别点击不是所有软件都能用XPath或CSS定位元素。以下场景XPath/CSS完全无效桌面应用软件比如用C、C#写的Windows程序游戏界面虚拟机里的软件某些用Canvas绘制的网页元素按钮是图片而不是文字的界面这时候图像识别就是唯一的选择。它的原理是你提供一张小图片比如一个按钮的截图影刀在屏幕上搜索这张图片的位置找到后点击坐标中心。案例背景有一个老旧的桌面ERP系统界面上的审核通过按钮是一张图片没有文字元素捕获抓不到。我们要用图像识别找到这个按钮并点击它。三、图像识别的基本原理图像识别点击分三步准备模板图片把你要点击的按钮截个小图只截按钮本身不要截周围的内容屏幕搜索影刀在屏幕上搜索这张图片的位置点击坐标找到后计算图片的中心坐标模拟鼠标点击这个坐标图像识别的准确率取决于模板图片的质量、屏幕上目标图片的清晰度、相似度阈值设置。相似度阈值影刀找到一个图片后会计算它跟模板的相似程度0到1之间1是完全相同。你可以在指令属性里设置阈值比如设0.8意思是相似度大于80%才认为是找到了。阈值设太高会找不到设太低会误点。四、图像识别指令详解影刀里跟图像识别相关的指令在硬件自动化→图像分类下查找图像功能在屏幕上查找指定图片的位置参数模板图片路径、查找范围全屏或指定区域、相似度阈值、超时时间输出找到返回坐标(x,y)找不到返回空用法先准备模板图片用截图工具截下来保存到本地然后在指令里选择这张图片点击图像功能查找图片并点击参数比查找图像多一个点击位置图片中心、左上角、自定义偏移用法最常用一步完成查找点击等待图像出现功能等屏幕上出现某张图片再继续场景有些按钮是动态出现的比如加载完成后才显示用这个指令等待出现了再点等待图像消失功能等屏幕上某张图片消失再继续场景等加载动画消失、等弹出框关闭拼多多店群自动化报活动上架案例里的关键步骤先手动操作一次用截图工具截取审核通过按钮的图片保存为approve_button.png在影刀流程里拖入点击图像指令选择模板图片approve_button.png设置相似度阈值为0.85给一点容差因为按钮可能有轻微色差设置超时时间为10秒10秒内找不到就报错运行流程影刀会自动在屏幕上找这个按钮找到后点击五、图像识别的高级技巧多分辨率适配如果你的流程要在不同分辨率的电脑上运行模板图片可能匹配不上因为缩放导致图片大小不一样。解决方法用查找图像指令的多尺度匹配功能如果影刀支持或者准备多套模板图片一套1080P的一套4K的根据屏幕分辨率选择对应的模板相似度阈值的调优刚开始用图像识别建议把阈值设低一点比如0.7看看能不能找到。如果经常误点点到了相似但不正确的位置再把阈值调高0.9。点击位置的偏移有些按钮点击有效区域不是图片中心而是某个特定位置。用自定义偏移设置点击坐标相对于图片左上角的偏移量。截图保存技巧截取模板图片时尽量只截目标按钮本身不要包含周围背景。背景越多越容易匹配失败因为背景可能变化。我当时踩过的坑截取了一个按钮的图片但按钮旁边有动态数字比如消息(3)数字会变导致匹配失败。解决方法截图时只截纯图标部分不要截文字部分。六、图像识别 vs 元素定位选型指南场景优先用原因网页元素XPath/CSS速度快准确率高桌面应用图像识别元素捕获可能失败游戏界面图像识别没有DOM结构按钮是图片图像识别元素捕获抓不到图片内部需要高精度XPath/CSS坐标点击可能偏移界面经常变化XPath/CSS只要元素属性不变就能定位一般建议能用药元素定位就不要用图像识别因为元素定位更准确、速度更快。图像识别是保底方案当你试了所有元素定位方法都失败时再用图像识别。七、变量和数据类型在图像识别里的应用图像识别的结果往往要用到变量里坐标变量查找图像指令找到图片后会返回坐标(x,y)存到两个数字变量里。你可以用这两个变量做后续操作比如移动到坐标位置、计算偏移量。相似度变量你可以把相似度阈值存到变量里而不是写死在指令里。这样如果后面要调整阈值只要改一个地方。图片路径变量如果你有多套模板图片不同分辨率可以把图片路径存到变量里根据屏幕分辨率动态选择。案例里的变量定义变量名button_x 变量类型数字 变量值0后面会被查找图像指令修改为实际坐标 变量名button_y 变量类型数字 变量值0 变量名similarity_threshold 变量类型数字 变量值0.85 变量名template_image_path 变量类型字符串 变量值C:\Templates\approve_button.png八、流程控制让图像识别更可靠图像识别最容易出的问题是找不到图片所以流程控制特别重要。Try-Catch异常处理把点击图像指令包在Try里如果找不到图片超时Catch里做处理截图保存、发通知、尝试用备用图片重新查找。While条件循环等待有些按钮是动态出现的刚打开界面时还没有。用While循环只要没找到图片就继续等用等待图像出现指令最多等30秒超过就报错。If条件判断找到图片后可以先判断坐标是否在合理范围内比如x应该在0到1920之间如果是负数说明找错了再点击。For次数循环如果一个界面上有多个相似的按钮比如一排相同的图标可以用查找所有图像功能如果影刀支持或者用循环偏移量逐个查找。九、网页自动化里的图像识别虽然网页自动化优先用XPath/CSS但有些场景图像识别更好用Canvas绘制的图形有些网页用Canvas画图比如流程图、游戏里面的元素没有DOM节点XPath抓不到只能用图像识别。验证码识别有些简单验证码是图片可以用图像识别定位验证码位置然后配合OCR识别验证码内容。动态加载的内容有些网页内容是用JavaScript动态渲染的元素捕获有时抓不到但图片是可见的可以用图像识别点击。跨iframe的元素网页里有iframe时元素捕获可能跨不过去但图像识别是在屏幕层面查找不受iframe限制。十、数据处理图像识别结果的后续处理图像识别点击往往只是第一步后面还要处理数据点击后等待页面响应点击按钮后往往要等页面刷新或弹窗出现。用等待图像出现等待新界面上的特征图片比如弹窗的关闭按钮图标。点击后读取数据有些按钮点击后会显示数据比如点击详情按钮后显示详细信息这时候可以用元素定位或OCR读取显示的数据。点击后截图保存点击按钮后截图保存操作结果用作后续核对或审计。案例扩展点击审核通过按钮后等待弹出的确认对话框出现用等待图像出现等待对话框的确定按钮图片然后点击确定再截图保存审核后的界面。十一、进阶技能OCR图像识别组合使用图像识别只能找到图片位置并点击但如果你要知道图片上的文字内容就需要OCR。OCR识别图标上的文字有些按钮图标上有文字比如确定两个字在按钮图片上你可以用OCR识别出文字内容确认这是你要点击的按钮再用图像识别点击。OCR读取点击后的结果点击按钮后屏幕上会显示一段文字比如审核成功用OCR识别这段文字确认操作是否成功。百度AI/OCR配置影刀支持百度AI、腾讯AI、阿里云AI三种OCR。需要在对应平台申请API Key然后在影刀里配置。配置方法指令区→AI服务→选择对应平台→填入API Key和Secret Key。十二、平台实战电商场景里的图像识别图像识别在电商场景里有很多用处淘宝/天猫有些按钮是图片比如立即购买按钮用图像识别点击。拼多多商品列表里的收藏按钮是一个星星图标用图像识别找到所有星星图标逐个点击。抖音视频下方的点赞、评论、分享按钮都是图标用图像识别定位并点击。TEMU店群矩阵自动化运营核价报活动小红书发布笔记时的添加话题按钮是一个#图标用图像识别点击。十三、系统联动图像识别结果的通知图像识别点击的结果也需要通知飞书消息每次点击成功后发飞书消息通知。如果点击失败找不到图片也发消息通知并附带截图。邮件报警连续多次找不到目标图片可能是界面改版了发邮件通知人工检查。飞书多维表格记录每次点击操作记录一条日志时间、目标图片、成功/失败、失败原因。十四、工程化与规范图像识别自动化的工程化重点在于模板管理和容错处理模板图片管理把所有模板图片放在一个文件夹里按功能命名比如approve_button.png、close_dialog.png。在影刀流程里引用时用相对路径而不是绝对路径。模板图片更新机制如果目标软件的界面改版了按钮样式变了要及时更新模板图片。建议定期检查比如每周一次发现匹配失败率上升就更新模板。多备用模板对于一个目标按钮可以准备2-3张不同角度/不同状态的模板图片比如正常状态、悬停状态、按下状态查找时依次尝试提高成功率。调试技巧在点击图像之前先用截图指令保存当前屏幕看看目标图片是否在屏幕上用查找图像指令的高亮显示功能如果有确认找的位置对不对把相似度阈值调低比如0.6看看能不能找到如果找到了说明阈值设太高了常见报错速查表报错原因解决方法找不到图片模板图片不匹配重新截图检查相似度阈值点击位置偏移图片找到了但坐标不准调整点击位置偏移量误点击相似度阈值太低提高阈值不同分辨率下失败模板图片分辨率不匹配准备多套模板或启用多尺度匹配点击后没反应目标按钮实际上是禁用的先用图像识别判断按钮是否高亮十五、完整案例桌面ERP系统的自动审核需求有一个桌面ERP系统每天有100条待审核记录要自动点击每条记录的审核通过按钮。流程步骤用启动应用程序指令打开ERP系统用等待图像出现指令等待系统主界面加载完成找一个特征图片比如系统logo用键盘输入→组合键CtrlHome跳到第一条记录For次数循环循环100次用点击图像指令点击当前记录的审核通过按钮模板图片approve_button.png用等待图像出现指令等待确认对话框出现模板图片confirm_dialog.png用点击图像指令点击确定按钮模板图片ok_button.png用等待图像消失指令等待对话框关闭用键盘输入→按下按键Down移动到下一条记录循环结束后截图保存最终结果发飞书消息通知注意每一步图像识别之后加等待指令等待1秒让系统反应过来。如果某一步找不到图片用Try-Catch捕获截图保存然后继续下一条。十六、总结图像识别点击是影刀里的重要保底方案当所有元素定位方法都失败时它就是你的救命稻草。虽然速度比元素定位慢准确率也受图片质量影响但它能处理元素定位处理不了的场景桌面应用、游戏、Canvas绘图。核心要点模板图片要截得准只截目标不要截背景相似度阈值要调得合适太高找不到太低会误点重要操作要加Try-Catch和通知。更多影刀RPA教程和案例访问 home.linyan.cloud#影刀RPA #RPA教程 #图像识别 #桌面自动化 #RPA入门 #影刀教程 #自动化点击 #图像定位作者林焱