Python爬虫获取训练数据：为定制化伏羲模型收集历史气象资料-尧图企业网站定制

Python爬虫获取训练数据为定制化伏羲模型收集历史气象资料想训练一个能精准预测本地天气的AI模型第一步也是最关键的一步就是得有数据。没有高质量的数据再厉害的模型也是“巧妇难为无米之炊”。对于气象预测这类任务历史气象数据就是最宝贵的“食材”。今天我就手把手带你用Python爬虫从公开的气象数据源里把温度、湿度、风速这些“食材”自动化地收集起来清洗干净整理成一份可以直接喂给模型比如你想做区域定制的伏羲模型的训练数据集。整个过程就像教一个新手厨师去菜市场买菜、择菜、洗菜一样咱们一步步来保证你能上手。1. 准备工作明确目标与备好工具在开始写代码之前咱们得先想清楚两件事要什么数据和从哪里获取。要什么数据这取决于你的模型想预测什么。如果你想预测未来三天的温度那么历史温度数据就是核心。通常一份基础的气象训练数据集可能包含时间年、月、日、小时时间戳。核心气象要素气温最高、最低、平均、相对湿度、降水量、风速、风向、气压。可选要素云量、能见度、日照时数等。从哪里获取幸运的是国内外有很多机构提供公开的气象数据全球范围美国国家海洋和大气管理局NOAA的数据非常全面可以通过其API或FTP服务器获取。国内数据中国气象数据网等官方机构也提供部分历史数据但通常需要注册且对使用有一定规范。请注意在获取和使用任何数据时务必严格遵守数据提供方的服务条款和当地法律法规尊重数据版权仅用于合法合规的学习与研究目的。对于本教程为了演示的通用性和可访问性我们将以一个模拟的公开数据API接口为例。这个例子中的思路和方法完全可以迁移到其他真实、合法的数据源上。工具准备确保你的电脑上已经安装了Python建议3.7及以上版本。然后打开你的终端或命令行安装我们需要的“厨房工具”pip install requests pandasrequests用来向网站或API发送请求获取数据就像我们的“采购员”。pandas数据处理和分析的神器用来清洗、整理和保存数据就像我们的“备菜台和储物盒”。2. 第一步编写爬虫获取原始数据现在我们开始写第一个脚本目标是从一个模拟的气象数据API获取某个城市过去7天的历史数据。我们假设这个API的地址是https://api.weather-demo.com/history它接受city城市名和days天数作为参数。import requests import pandas as pd from datetime import datetime, timedelta def fetch_weather_data(cityBeijing, days7): 从模拟API获取历史气象数据 :param city: 城市名称 :param days: 要获取的历史天数 :return: 包含原始数据的Pandas DataFrame # 1. 构建API请求URL和参数 base_url https://api.weather-demo.com/history params { city: city, days: days, units: metric # 使用公制单位摄氏度米/秒等 } # 2. 设置请求头模拟浏览器访问有些API可能需要 headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 } print(f正在从API获取 {city} 过去{days}天的数据...) try: # 3. 发送GET请求 response requests.get(base_url, paramsparams, headersheaders, timeout10) # 4. 检查请求是否成功 (状态码200表示成功) response.raise_for_status() # 5. 解析返回的JSON数据 raw_data response.json() print(数据获取成功) # 6. 将JSON数据转换为Pandas DataFrame # 假设API返回的数据结构是 {data: [list_of_records]} df pd.DataFrame(raw_data[data]) return df except requests.exceptions.RequestException as e: print(f请求数据时出错: {e}) return None except (KeyError, ValueError) as e: print(f解析数据时出错: {e}) return None # 尝试运行一下这个函数 if __name__ __main__: weather_df fetch_weather_data(cityShanghai, days5) if weather_df is not None: print(\n获取到的数据前5行) print(weather_df.head()) print(f\n数据形状{weather_df.shape}) # 查看数据行数和列数代码解释我们定义了一个函数fetch_weather_data它负责与API通信。requests.get()方法发送HTTP GET请求。params参数会把我们的查询条件城市、天数自动附加到URL后面。response.raise_for_status()会在请求失败如404、500错误时抛出异常帮助我们及时发现问题。成功的响应通常以JSON格式返回我们用.json()方法将其转换为Python的字典或列表。最后用pd.DataFrame()把数据转换成表格形式的DataFrame方便后续处理。重要提醒在实际操作中你需要将base_url替换为真实、合法且你拥有访问权限的数据源地址并仔细阅读其API文档了解具体的参数、频率限制和授权方式。3. 第二步数据清洗与格式化从网上抓下来的数据很少是完美无缺的。常常会遇到缺失值、异常值、格式不统一等问题。这一步就是我们的“择菜洗菜”环节。假设我们获取的DataFrameweather_df包含以下列date,temp_max,temp_min,humidity,precipitation,wind_speed。def clean_and_format_data(df): 清洗和格式化气象数据 :param df: 原始的DataFrame :return: 清洗后的DataFrame if df is None or df.empty: print(数据为空无法清洗。) return None print(开始清洗数据...) df_clean df.copy() # 避免修改原始数据 # 1. 处理日期列确保是datetime格式并设置为索引时间序列分析常用 if date in df_clean.columns: df_clean[date] pd.to_datetime(df_clean[date]) df_clean.set_index(date, inplaceTrue) print(日期列已格式化并设置为索引。) # 2. 处理缺失值 # 检查缺失情况 missing_report df_clean.isnull().sum() if missing_report.any(): print(f\n发现缺失值\n{missing_report[missing_report 0]}) # 根据情况处理这里用前后时刻的平均值填充对于时间序列数据常用 # 对于数值列使用线性插值 numeric_cols df_clean.select_dtypes(include[number]).columns df_clean[numeric_cols] df_clean[numeric_cols].interpolate(methodtime) # 如果插值后还有缺失如开头或结尾用该列的均值填充 df_clean[numeric_cols] df_clean[numeric_cols].fillna(df_clean[numeric_cols].mean()) print(缺失值已处理。) # 3. 处理明显的异常值简单示例 # 例如湿度应该在0-100之间 if humidity in df_clean.columns: # 将超出范围的值替换为边界值或NaN df_clean[humidity] df_clean[humidity].clip(lower0, upper100) # 温度异常检查假设采集地温度在-50到50摄氏度之间 for col in [temp_max, temp_min, temp_mean]: if col in df_clean.columns: df_clean[col] df_clean[col].clip(lower-50, upper50) print(异常值已初步处理。) # 4. 统一单位如果API返回单位不一致在此处转换 # 例如将风速从km/h转换为m/s if wind_speed in df_clean.columns: # 假设原始数据是km/h转换为m/s df_clean[wind_speed_ms] df_clean[wind_speed] / 3.6 # 可以选择删除原始列 # df_clean.drop(columns[wind_speed], inplaceTrue) # 5. 重命名列使其更清晰可选 column_rename_map { temp_max: temperature_max_c, temp_min: temperature_min_c, humidity: relative_humidity_percent, precipitation: precipitation_mm, wind_speed_ms: wind_speed_ms } df_clean.rename(columnscolumn_rename_map, inplaceTrue) print(数据清洗完成) print(f清洗后数据形状{df_clean.shape}) print(f\n清洗后数据概览) print(df_clean.info()) print(df_clean.head()) return df_clean # 使用上一步获取的数据进行清洗 if __name__ __main__: raw_df fetch_weather_data(days7) # 这里使用默认城市 if raw_df is not None: cleaned_df clean_and_format_data(raw_df)清洗后的数据列名清晰格式统一没有缺失和明显错误已经是一份“干净食材”了。4. 第三步数据整合与保存通常我们需要收集多个地点、长时间段的数据。我们可以写一个循环分批获取数据然后合并起来。def build_complete_dataset(cities, start_date, end_date, batch_days30): 构建多城市、长时间段的数据集 :param cities: 城市列表 :param start_date: 开始日期字符串格式 YYYY-MM-DD :param end_date: 结束日期字符串格式 YYYY-MM-DD :param batch_days: 每次API调用请求的天数避免单次请求过大 :return: 合并后的完整DataFrame all_data_frames [] start_dt pd.to_datetime(start_date) end_dt pd.to_datetime(end_date) for city in cities: print(f\n正在处理城市: {city}) current_start start_dt while current_start end_dt: # 计算本次请求的结束日期 current_end min(current_start timedelta(daysbatch_days), end_dt) days_to_fetch (current_end - current_start).days # 在实际API中你可能需要传递具体的起止日期参数 # 这里为了演示我们简化成按天数获取 print(f 获取时段: {current_start.date()} 至 {current_end.date()} ({days_to_fetch}天)) # 调用之前的获取函数需要修改fetch_weather_data以支持起止日期 # 此处为演示我们假设每次调用都能成功 # 实际应用中应添加重试机制和错误处理 df_batch fetch_weather_data(citycity, daysdays_to_fetch) if df_batch is not None: # 清洗这批数据 df_batch_clean clean_and_format_data(df_batch) if df_batch_clean is not None: # 添加城市标识列 df_batch_clean[city] city all_data_frames.append(df_batch_clean) # 移动到下一个时间批次 current_start current_end # 礼貌地暂停一下避免对API服务器造成压力 import time time.sleep(1) # 合并所有批次、所有城市的数据 if all_data_frames: final_dataset pd.concat(all_data_frames, ignore_indexFalse) # 保留时间索引 print(f\n所有数据整合完成总数据量{len(final_dataset)} 条记录) return final_dataset else: print(未能获取到任何有效数据。) return None def save_dataset(df, filepathweather_training_dataset.csv): 将数据集保存为文件 :param df: 要保存的DataFrame :param filepath: 保存路径和文件名 if df is not None and not df.empty: # 保存为CSV这是最通用的格式 df.to_csv(filepath, indexTrue) # indexTrue 保存时间索引 print(f数据集已保存至: {filepath}) # 也可以保存为其他格式如Parquet压缩率高读取快 # df.to_parquet(weather_training_dataset.parquet) # print(数据集已保存为Parquet格式。) else: print(没有有效数据可保存。) # 主程序流程 if __name__ __main__: # 定义要收集的城市和日期范围 target_cities [Beijing, Shanghai, Guangzhou] # 示例城市 start 2023-01-01 end 2023-12-31 print(开始构建完整气象训练数据集...) full_dataset build_complete_dataset(target_cities, start, end, batch_days90) # 每批次90天 if full_dataset is not None: save_dataset(full_dataset, historical_weather_data_2023.csv) print(\n数据集预览) print(full_dataset.head()) print(full_dataset[[city, temperature_max_c]].groupby(city).describe())运行这个脚本你最终会得到一个名为historical_weather_data_2023.csv的文件里面包含了三个城市2023年全年的、清洗过的气象数据。这份数据已经具备了被用于模型训练的基本条件。5. 一些实用的技巧与注意事项写爬虫不是一劳永逸的在实际操作中你会遇到各种问题。这里分享几个小技巧1. 处理反爬机制设置请求头像我们代码里那样模拟一个真实的浏览器User-Agent是最基本的。使用延时在循环请求之间用time.sleep()加入随机延时比如1到3秒避免请求过快被屏蔽。处理Cookies/Session对于需要登录的网站使用requests.Session()来保持会话。轮换代理IP如果请求量非常大考虑使用代理IP池来分散请求。务必确保使用的代理服务合法合规。2. 让代码更健壮异常处理网络请求可能超时、失败API结构可能变化。用try...except包裹关键代码并记录日志便于排查。断点续传如果收集数据需要几天时间最好把已成功获取的数据定期保存下来。下次运行时先检查哪些数据已经有了跳过它们只获取缺失的部分。3. 数据质量是生命线交叉验证如果条件允许可以从两个不同的数据源获取同一时期的数据进行交叉比对发现潜在的错误。可视化检查在清洗前后用pandas绘图或matplotlib简单画一下数据的时间序列图异常值或缺失模式往往一目了然。理解数据含义在清洗和转换单位前务必搞清楚每个字段的物理意义和原始单位避免犯低级错误。6. 总结走完这一趟你应该已经掌握了用Python爬虫构建气象数据集的完整流程从明确需求、选择数据源到编写爬虫获取数据再到仔细地清洗、格式化最后整合保存。这份你自己动手收集、清洗的数据集对于训练一个理解本地气候特点的定制化模型来说价值远超直接下载的通用数据集。整个过程最花时间的往往不是写代码而是理解数据源的结构、处理各种脏数据和网络异常。但这份功夫是值得的高质量的数据是AI模型成功的基石。当你拿到那份干净、规整的CSV文件时你已经为接下来的模型训练打下了最坚实的一步。接下来你就可以用这份数据去探索伏羲模型或其他时序预测模型开始你的气象预测之旅了。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻

科普漫画：服务器“过劳死”：为什么你的设备总比别人的先坏？

MySQL常用的关键字（详细）

Python全自动桌面整理工具，一键分类文件，小白也能用

AI工具产品路线图预测：为什么92%的企业踩坑？独家披露头部AI Lab内部使用的3层置信度评估矩阵

Vivado 2019下Xilinx 7系列FPGA PCIe硬核配置避坑指南：从Base模式到Advanced模式的实战详解

基于LM358的4V铅酸电池恒压恒流充电器设计与实现

全栈自研视觉孪生算法：打破传统桎梏，重塑数实融合新形态

手把手教你给WeAct STM32F401CEU6核心板刷入MicroPython固件（含DFU模式进入与固件选择避坑指南）

祁木 CAD 翻译保护：占位符替换与还原机制实战

实战指南：基于快马AI打造生产可用的附件功能测试页attachment-test.html

vROps 许可证过期怎么办？续费与降级免费版完整操作指南

VoLTE通话突然中断？别慌！手把手教你排查这些拆线原因代码（403/486/603...）

毕业论文神器！2026最新AI论文写作软件测评与推荐

基于指数矩的车牌识别解析方案【附代码】

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定