3-2作业-尧图企业网站定制

import json import os import requests from bs4 import BeautifulSoup # 数据采集基础知识豆瓣读书T250的数据的获取 def getHTML(n): # 获取每一张含有25本书的网页n为页码-1 url https://book.douban.com/top250 header { user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36} r requests.get(url, headersheader, params{start: n * 25}) return r.text # 用beautifulsoup4库解析网页用lxml解析器解析器也要安装 def getlistData(html): soup BeautifulSoup(html, lxml) books soup.select(tr) # print(books) booklist [] for book in books: bookdic {} tds book.select(td) # 接下来的内容真的比较麻烦~耐心点吧~ bookdic[书名] tds[1].div.a.text.strip().split(\n)[0] bookdic[基本信息] tds[1].p.text booklist.append(bookdic) return booklist allbooks [] for i in range(10): html getHTML(i) page getlistData(html) allbooks.append(page) def savejson(data,path,filename): jdatajson.dump(data,indent2,ensure_asciiFalse) if not os.path.exists(path): os.makedirs(path) with open(pathfilename,w,encodingutf-8)as f: f.write(jdata) savejson(allbooks,data/,douban250.json) # 安装request beautifulsoup4 lxml

相关新闻

从裸机到RTOS无缝集成：存算一体芯片C指令集封装的4层抽象架构（HAL→AL→DSL→AutoGen），3天落地AI推理加速

告别手动！用Python脚本一键批量转换Labelme标注的JSON文件（附完整代码）

ControlNet-v1-1 FP16终极指南：从零到精通的完整解决方案

边缘AI模型优化：硬件感知NAS与HPC协同实践

终极指南：如何用Win11Debloat三步让你的Windows 11重获新生

终极指南：如何在Mac上免费读写NTFS硬盘的完整解决方案

PHPStudy+Pikachu靶场搭建实战指南

EasyAi：告别 Python 依赖，Java 程序员也能轻松搞定 AI 开发！

2026年短视频矩阵获客观察：流量红利消退后，企业获客路径正在发生哪些变化？

P vs NP：西方哲学 × 西方计算理论 —— 人类思维的终极边界

霍奇猜想：哲学 × 数学 思维范式全链条

ASP Folder：深入解析ASP文件夹的结构与功能

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

霍奇猜想：哲学 × 数学思维范式全链条