影刀RPA实操指南京东商品数据批量采集——搜索页到详情页的完整抓取拼多多之外京东是另一个常见的采集目标。但京东有自己的特点反爬比拼多多严、SKU数据在详情页、价格会根据登录状态变化。这篇专门讲如何用影刀RPA稳定采集京东商品数据。京东采集前的准备先理清你要采什么京东商品数据分两个层次数据层次数据字段获取难度搜索列表页商品名、价格登录前参考价、评价数、商品ID低| 商品详情页 | SKU详细价格、库存、规格参数、多图 | 中 |如果只需要商品名和价格列表页就够了。如果要规格参数和精确SKU价格得进详情页。要不要登录京东不登录也能看价格但拼多多店群自动化上架方案未登录的价格是参考价不是实际到手价登录后才能看到会员价/plus价格部分品类如手机未登录看到的是虚高价建议做竞品监控时统一用未登录状态采集保证数据口径一致。搜索列表页采集打开搜索页# 直接构建搜索URL比搜索框输入更稳定 URL格式https://search.jd.com/Search?keyword{关键词}page{页码}  例https://search.jd.com/Search?keyword羽绒服page1注意京东搜索页码是1开始但URL里的page参数是奇数1、3、5、7…不是1、2、3。翻页逻辑要用page page 2。定位商品列表京东搜索结果商品卡片的XPath# 商品列表容器 //ul[idJ_goodsList]/li[classgl-item] # 商品名称 .//div[contains(class,p-name)]//em # 价格未登录 .//div[contains(class,p-price)]//i # 评价数 .//div[contains(class,p-commit)]//a # 商品ID从data-sku属性取 // li[data-sku] → 属性值就是SKU_ID实际捕获时用影刀的捕获元素功能在京东搜索页上选一个商品卡片然后手动改XPath为上面更通用的写法。完整翻页采集流程# 京东搜索结果翻页特殊奇数页码keyword羽绒服max_pages20# 最多采集20页all_data[]forpage_numinrange(1,max_pages*2,2):# 生成奇数序列urlfhttps://search.jd.com/Search?keyword{keyword}page{page_num}# 影刀打开网页open_url(url)# 等待商品列表出现wait_element(//ul[idJ_goodsList],timeout30)# 等待价格加载异步的wait(2)# 采集当前页itemsget_similar_elements(//ul[idJ_goodsList]/li[classgl-item])ifnotitems:break# 没有更多商品foriteminitems:titleget_text(item,.//div[contains(class,p-name)]//em)priceget_text(item,.//div[contains(class,p-price)]//i)sku_idget_attr(item,data-sku)all_data.append({标题:title,价格:price,SKU_ID:sku_id})random_wait(2,5)# 翻页等待商品详情页采集从列表页拿到SKU_ID后进详情页采集更丰富的数据# 京东商品详情页URL格式 https://item.jd.com/{SKU_ID}.html详情页关键数据位置# 商品名称详情页 //div[classsku-name] # 价格会员价/普通价 //span[idjd-price] # 商品规格参数表 //div[iddetail]//table[classparameter-list] # 库存状态 //span[idstore-prompt] # 评价总数 //a[idcomment-count]动态价格说明京东的价格是通过API动态加载的不是直接在HTML里。需要等待1~2秒让价格渲染出来再捕获。规避封禁的核心策略TEMU店群如何管理运营京东的反爬比拼多多激进实测有效的三条策略一降低采集速度列表页每页36秒详情页每页510秒。比拼多多多等1倍。策略二使用合适的User-Agent设置成Chrome 120正式版的UA不要用Headless Chrome的UA会被秒识别。策略三随机访问路径不要直接搜索→列表→翻页这种机械规律。在列表翻页中间偶尔点一下商品详情页模仿真人浏览路径。# 每翻3页随机进1个商品详情页浏览一下ifpage_num%30:random_item_urlfhttps://item.jd.com/{random_sku_id}.htmlopen_url(random_item_url)scroll_page(800)# 往下滚一屏random_wait(3,8)# 模拟阅读数据存储建议京东采集的数据建议存SQLite而不是Excel每批次几千条很正常SQLite处理速度远快于Excel便于按SKU_ID去重方便多次采集对比历史数据价格趋势#影刀RPA #RPA自动化 #京东采集 #数据采集 #电商自动化作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。
影刀RPA实操指南_京东商品数据批量采集搜索页到详情页的完整抓取
影刀RPA实操指南京东商品数据批量采集——搜索页到详情页的完整抓取拼多多之外京东是另一个常见的采集目标。但京东有自己的特点反爬比拼多多严、SKU数据在详情页、价格会根据登录状态变化。这篇专门讲如何用影刀RPA稳定采集京东商品数据。京东采集前的准备先理清你要采什么京东商品数据分两个层次数据层次数据字段获取难度搜索列表页商品名、价格登录前参考价、评价数、商品ID低| 商品详情页 | SKU详细价格、库存、规格参数、多图 | 中 |如果只需要商品名和价格列表页就够了。如果要规格参数和精确SKU价格得进详情页。要不要登录京东不登录也能看价格但拼多多店群自动化上架方案未登录的价格是参考价不是实际到手价登录后才能看到会员价/plus价格部分品类如手机未登录看到的是虚高价建议做竞品监控时统一用未登录状态采集保证数据口径一致。搜索列表页采集打开搜索页# 直接构建搜索URL比搜索框输入更稳定 URL格式https://search.jd.com/Search?keyword{关键词}page{页码}  例https://search.jd.com/Search?keyword羽绒服page1注意京东搜索页码是1开始但URL里的page参数是奇数1、3、5、7…不是1、2、3。翻页逻辑要用page page 2。定位商品列表京东搜索结果商品卡片的XPath# 商品列表容器 //ul[idJ_goodsList]/li[classgl-item] # 商品名称 .//div[contains(class,p-name)]//em # 价格未登录 .//div[contains(class,p-price)]//i # 评价数 .//div[contains(class,p-commit)]//a # 商品ID从data-sku属性取 // li[data-sku] → 属性值就是SKU_ID实际捕获时用影刀的捕获元素功能在京东搜索页上选一个商品卡片然后手动改XPath为上面更通用的写法。完整翻页采集流程# 京东搜索结果翻页特殊奇数页码keyword羽绒服max_pages20# 最多采集20页all_data[]forpage_numinrange(1,max_pages*2,2):# 生成奇数序列urlfhttps://search.jd.com/Search?keyword{keyword}page{page_num}# 影刀打开网页open_url(url)# 等待商品列表出现wait_element(//ul[idJ_goodsList],timeout30)# 等待价格加载异步的wait(2)# 采集当前页itemsget_similar_elements(//ul[idJ_goodsList]/li[classgl-item])ifnotitems:break# 没有更多商品foriteminitems:titleget_text(item,.//div[contains(class,p-name)]//em)priceget_text(item,.//div[contains(class,p-price)]//i)sku_idget_attr(item,data-sku)all_data.append({标题:title,价格:price,SKU_ID:sku_id})random_wait(2,5)# 翻页等待商品详情页采集从列表页拿到SKU_ID后进详情页采集更丰富的数据# 京东商品详情页URL格式 https://item.jd.com/{SKU_ID}.html详情页关键数据位置# 商品名称详情页 //div[classsku-name] # 价格会员价/普通价 //span[idjd-price] # 商品规格参数表 //div[iddetail]//table[classparameter-list] # 库存状态 //span[idstore-prompt] # 评价总数 //a[idcomment-count]动态价格说明京东的价格是通过API动态加载的不是直接在HTML里。需要等待1~2秒让价格渲染出来再捕获。规避封禁的核心策略TEMU店群如何管理运营京东的反爬比拼多多激进实测有效的三条策略一降低采集速度列表页每页36秒详情页每页510秒。比拼多多多等1倍。策略二使用合适的User-Agent设置成Chrome 120正式版的UA不要用Headless Chrome的UA会被秒识别。策略三随机访问路径不要直接搜索→列表→翻页这种机械规律。在列表翻页中间偶尔点一下商品详情页模仿真人浏览路径。# 每翻3页随机进1个商品详情页浏览一下ifpage_num%30:random_item_urlfhttps://item.jd.com/{random_sku_id}.htmlopen_url(random_item_url)scroll_page(800)# 往下滚一屏random_wait(3,8)# 模拟阅读数据存储建议京东采集的数据建议存SQLite而不是Excel每批次几千条很正常SQLite处理速度远快于Excel便于按SKU_ID去重方便多次采集对比历史数据价格趋势#影刀RPA #RPA自动化 #京东采集 #数据采集 #电商自动化作者林焱本文为《影刀RPA学习手册》系列文章之一内容源于实操经验的整理与分享。