Python爬虫实战：手把手教你用Requests库搞定京东商品评论数据（附完整源码与翻页避坑指南）-尧图企业网站定制

Python爬虫实战京东商品评论数据采集全流程解析每次看到电商平台海量的商品评论你是否好奇这些数据背后隐藏着怎样的消费趋势作为数据分析师或市场研究人员获取真实的用户反馈是了解产品表现的关键。本文将带你用Python的Requests库从零开始构建一个可靠的京东商品评论采集工具。1. 环境准备与基础配置在开始编写爬虫之前我们需要确保开发环境配置正确。以下是必要的准备工作Python 3.6环境推荐使用Anaconda管理Python环境核心库安装pip install requests xlwt xlutils pandas开发工具选择VS Code或PyCharm等支持Python调试的IDE京东的评论数据通过API接口提供我们需要先分析其请求规律。通过浏览器开发者工具F12观察网络请求可以发现评论数据以JSON格式返回。提示京东对爬虫有一定反爬机制建议设置合理的请求间隔如2秒/次并配置真实User-Agent2. 京东评论API深度解析理解API参数是成功采集数据的关键。京东评论API的核心参数如下参数名说明示例值productId商品ID100012348704page页码从0开始0pageSize每页评论数10score评论类型0全部sortType排序方式5推荐排序典型API请求URL结构base_url https://club.jd.com/comment/productPageComments.action params { productId: 100012348704, score: 0, sortType: 5, page: 0, pageSize: 10, isShadowSku: 0, fold: 1 }常见问题排查返回空数据检查productId是否正确请求被拒绝添加合理的请求头User-Agent、Referer数据重复确保page参数正确递增3. 爬虫核心代码实现让我们构建一个完整的爬虫类包含请求、解析和存储功能import requests import json import time import pandas as pd from tqdm import tqdm class JDCommentCrawler: def __init__(self, product_id): self.product_id product_id self.headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Referer: fhttps://item.jd.com/{product_id}.html } self.base_url https://club.jd.com/comment/productPageComments.action def get_comments(self, page0, page_size10): params { productId: self.product_id, score: 0, sortType: 5, page: page, pageSize: page_size, isShadowSku: 0, fold: 1 } try: response requests.get( self.base_url, paramsparams, headersself.headers ) response.raise_for_status() return response.json() except Exception as e: print(f请求失败: {e}) return None def parse_comment(self, comment): return { 用户昵称: comment.get(nickname, ), 评论内容: comment.get(content, ), 评分: comment.get(score, 0), 时间: comment.get(creationTime, ), 点赞数: comment.get(usefulVoteCount, 0), 商品型号: comment.get(productColor, ), 图片数: len(comment.get(images, [])) } def crawl(self, max_pages100): all_comments [] for page in tqdm(range(max_pages)): data self.get_comments(pagepage) if data and comments in data: for comment in data[comments]: all_comments.append(self.parse_comment(comment)) time.sleep(1.5) # 遵守爬虫礼仪 return pd.DataFrame(all_comments)使用示例if __name__ __main__: crawler JDCommentCrawler(100012348704) # 完美日记口红 df crawler.crawl(max_pages10) # 爬取10页约100条评论 df.to_excel(jd_comments.xlsx, indexFalse)4. 数据存储与高级技巧获取数据后我们需要考虑如何高效存储和处理。Pandas提供了强大的数据处理能力数据清洗示例# 转换时间格式 df[时间] pd.to_datetime(df[时间]) # 分析评分分布 rating_dist df[评分].value_counts(normalizeTrue) # 提取评论关键词 from collections import Counter word_counts Counter( .join(df[评论内容]).split())存储优化方案对比存储方式优点缺点适用场景CSV简单通用不支持复杂结构小型数据集Excel可视化友好性能较差人工分析SQLite查询高效需要SQL知识中型项目MongoDB灵活扩展配置复杂大型系统分页采集优化技巧使用多线程加速注意请求频率from concurrent.futures import ThreadPoolExecutor def crawl_page(page): return crawler.get_comments(pagepage) with ThreadPoolExecutor(max_workers4) as executor: results list(executor.map(crawl_page, range(10)))实现断点续采功能添加自动重试机制5. 反爬应对与伦理考量京东等电商平台对爬虫有一定防护措施我们需要遵守合理爬取原则请求频率控制建议间隔1.5-3秒请求头伪装使用真实浏览器UAIP轮换必要时使用代理池遵守robots.txt尊重网站爬取规则注意大规模商业爬取可能违反网站使用条款建议用于个人学习和小规模研究实际项目中遇到的典型问题解决方案# 处理请求失败情况 def safe_request(url, max_retries3): for _ in range(max_retries): try: response requests.get(url, timeout10) return response except: time.sleep(5) return None6. 数据分析应用示例获取的评论数据可以用于多种分析场景情感分析基础实现from textblob import TextBlob def analyze_sentiment(text): analysis TextBlob(text) return analysis.sentiment.polarity df[情感得分] df[评论内容].apply(analyze_sentiment)热门关键词提取import jieba from wordcloud import WordCloud text .join(df[评论内容]) words .join(jieba.cut(text)) wordcloud WordCloud(font_pathsimhei.ttf).generate(words)产品问题定位# 找出低评分评论中的常见问题 low_rating df[df[评分] 2] problems low_rating[评论内容].str.extract(r(不足|缺点|问题|不好|不满意))[0]在完成数据采集后记得删除测试数据并妥善保存结果。我曾在一个美妆产品分析项目中通过评论数据发现了某款口红易脱色的普遍反馈这为产品改进提供了直接依据。

相关新闻

从零构建一个 RAG 系统：用 Python 实现“让 AI 读懂你的私有文档“

手把手教你本地运行Phi-3-Mini：128K超长对话，仅需7GB显存

【LiveCD】Debian live cd 持久化(persistence)终极指南：Rufus 3.8+ 一键配置

HAL库 串口空闲中断+DMA接收不定长数据 实战避坑与配置精讲

ChatGPT薪资模拟器上线倒计时：输入岗位/城市/年限，3秒生成对抗性议价脚本（限前200名免费）

3步攻克：MCP服务器性能瓶颈诊断与优化实战

Arnis：从现实世界到Minecraft的终极转换指南 - 构建1:1虚拟城市的完整方案

Grok 4.5如何实现政治中立？技术原理与应用场景解析

N_m3u8DL-RE：如何在Linux服务器上构建专业级流媒体下载环境

AI框架决定企业AI能走多远

CC3230x嵌入式开发实战：SD主机、定时器与低功耗模式深度解析

行星减速机为什么能提高扭矩？从功率守恒到输出扭矩校核

3款主流CAN分析仪软件对比：CANTest vs ZCANPro vs USB-CAN Tool 功能实测

PlantUML 实战：5分钟将 UML 2.5 序列图转换为可执行代码草图

Git远程操作深度对比：fetch vs pull 的4种工作流与冲突解决策略

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原

HAL库串口空闲中断+DMA接收不定长数据实战避坑与配置精讲