影刀RPA实操指南_京东商品数据批量采集搜索页到详情页的完整抓取-尧图企业网站定制

影刀RPA实操指南京东商品数据批量采集——搜索页到详情页的完整抓取拼多多之外京东是另一个常见的采集目标。但京东有自己的特点反爬比拼多多严、SKU数据在详情页、价格会根据登录状态变化。这篇专门讲如何用影刀RPA稳定采集京东商品数据。京东采集前的准备先理清你要采什么京东商品数据分两个层次数据层次数据字段获取难度搜索列表页商品名、价格登录前参考价、评价数、商品ID低| 商品详情页 | SKU详细价格、库存、规格参数、多图 | 中 |如果只需要商品名和价格列表页就够了。如果要规格参数和精确SKU价格得进详情页。要不要登录京东不登录也能看价格但拼多多店群自动化上架方案未登录的价格是参考价不是实际到手价登录后才能看到会员价/plus价格部分品类如手机未登录看到的是虚高价建议做竞品监控时统一用未登录状态采集保证数据口径一致。搜索列表页采集打开搜索页# 直接构建搜索URL比搜索框输入更稳定 URL格式https://search.jd.com/Search?keyword{关键词}page{页码} ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/eb63ec8b39fe4193afc1e7731ac2bb0e.png#pic_center) 例https://search.jd.com/Search?keyword羽绒服page1注意京东搜索页码是1开始但URL里的page参数是奇数1、3、5、7…不是1、2、3。翻页逻辑要用page page 2。定位商品列表京东搜索结果商品卡片的XPath# 商品列表容器 //ul[idJ_goodsList]/li[classgl-item] # 商品名称 .//div[contains(class,p-name)]//em # 价格未登录 .//div[contains(class,p-price)]//i # 评价数 .//div[contains(class,p-commit)]//a # 商品ID从data-sku属性取 // li[data-sku] → 属性值就是SKU_ID实际捕获时用影刀的捕获元素功能在京东搜索页上选一个商品卡片然后手动改XPath为上面更通用的写法。完整翻页采集流程# 京东搜索结果翻页特殊奇数页码keyword羽绒服max_pages20# 最多采集20页all_data[]forpage_numinrange(1,max_pages*2,2):# 生成奇数序列urlfhttps://search.jd.com/Search?keyword{keyword}page{page_num}# 影刀打开网页open_url(url)# 等待商品列表出现wait_element(//ul[idJ_goodsList],timeout30)# 等待价格加载异步的wait(2)# 采集当前页itemsget_similar_elements(//ul[idJ_goodsList]/li[classgl-item])ifnotitems:break# 没有更多商品foriteminitems:titleget_text(item,.//div[contains(class,p-name)]//em)priceget_text(item,.//div[contains(class,p-price)]//i)sku_idget_attr(item,data-sku)all_data.append({标题:title,价格:price,SKU_ID:sku_id})random_wait(2,5)# 翻页等待商品详情页采集从列表页拿到SKU_ID后进详情页采集更丰富的数据# 京东商品详情页URL格式 https://item.jd.com/{SKU_ID}.html详情页关键数据位置# 商品名称详情页 //div[classsku-name] # 价格会员价/普通价 //span[idjd-price] # 商品规格参数表 //div[iddetail]//table[classparameter-list] # 库存状态 //span[idstore-prompt] # 评价总数 //a[idcomment-count]动态价格说明京东的价格是通过API动态加载的不是直接在HTML里。需要等待1~2秒让价格渲染出来再捕获。规避封禁的核心策略TEMU店群如何管理运营京东的反爬比拼多多激进实测有效的三条策略一降低采集速度列表页每页36秒详情页每页510秒。比拼多多多等1倍。策略二使用合适的User-Agent设置成Chrome 120正式版的UA不要用Headless Chrome的UA会被秒识别。策略三随机访问路径不要直接搜索→列表→翻页这种机械规律。在列表翻页中间偶尔点一下商品详情页模仿真人浏览路径。# 每翻3页随机进1个商品详情页浏览一下ifpage_num%30:random_item_urlfhttps://item.jd.com/{random_sku_id}.htmlopen_url(random_item_url)scroll_page(800)# 往下滚一屏random_wait(3,8)# 模拟阅读数据存储建议京东采集的数据建议存SQLite而不是Excel每批次几千条很正常SQLite处理速度远快于Excel便于按SKU_ID去重方便多次采集对比历史数据价格趋势#影刀RPA #RPA自动化 #京东采集 #数据采集 #电商自动化作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。

相关新闻

Spark本地环境配置避坑指南：JDK、Hadoop版本与类加载机制详解

FPGA实战（09）：手把手教你用 Xilinx Clocking Wizard 实现多路时钟分频 —— 附规范化 Verilog 设计与完整仿真代码

固态电池量产倒计时：丰田2026年布局下的能源革命

MC9S08QE8深度解析：HCS08内核、低功耗与时钟系统设计实战

数据库的CEUD

DRG Save Editor：深岩银河玩家的终极存档自定义工具

常见内核panic错误排查

深入解析MC68377 DLCMD2：J1850 VPW总线通信的硬件协议引擎

基于PLC的水产养殖系统设计23(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

深入S32K3时钟树：从FIRC到PLL，如何用S32DS为你的应用选对时钟源？

i.MX 6SoloX异构处理器开发实战：A9与M4协同、安全启动与性能优化

i.MX 7ULP异构处理器：架构解析与低功耗物联网开发实战

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定