GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南

GewisLab/CNEnvAir源成分谱应用:PMF/CMB模型数据准备指南 GewisLab/CNEnvAir源成分谱应用PMF/CMB模型数据准备指南【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAirGewisLab/CNEnvAir是一个专注于中国环境空气研究的开源数据集项目提供了丰富的空气质量数据、气象数据和关键的源成分谱数据这些源成分谱数据可直接用于PMF正定矩阵因子分解和CMB化学质量平衡等主流源解析模型帮助研究人员高效开展空气污染源解析工作。为什么选择CNEnvAir进行PMF/CMB模型研究CNEnvAir数据集专为空气污染源解析研究设计其源成分谱数据具有以下显著优势全面的污染源覆盖包含工业燃烧源、工业工艺过程、民用燃烧源、生物质燃烧、畜牧源、道路移动源和非道路移动源等七大类基本涵盖了中国主要大气污染源。丰富的化学组分数据包含PM2.5、PM10、金属元素如Na、Mg、Al、Si、K等、离子如sulfate、nitrate、ammonium、有机组分如多环芳烃PAHs、有机胺如甲胺、二甲胺和气态组分如IVOCs等多种关键化学物质。标准化数据格式所有源成分谱数据均采用Parquet格式存储具有高压缩率和高效的读写性能便于使用Python等工具进行数据处理和模型输入。CNEnvAir源成分谱数据结构详解核心源谱文件PMF/CMB模型直接输入数据CNEnvAir的source_profiles目录下包含5个核心PM源谱文件共计414行有效样本是PMF/CMB模型的主要输入数据文件行数主要内容PM_source_Industrial_boiler.parquet24工业锅炉PM源谱PM_source_Industrial_process.parquet174工业工艺过程PM源谱PM_source_Power_industry.parquet61电力行业PM源谱PM_source_Residential.parquet95民用燃烧PM源谱PM_source_Transportation.parquet60交通源PM源谱这些文件包含统一的关键字段一级源: 源类别如工业燃烧、民用燃烧、交通等二级源: 具体源类型如锅炉、工艺过程等采样地点: 采样区域采样时间: 采样年份组分名称: 化学组分EF: 排放因子 (μg/kg 或 μg/m³)参考文献: 数据来源辅助组分数据模型优化与验证除核心PM源谱外还有16个辅助组分文件提供更详细的化学组分信息可用于模型优化和结果验证工业燃烧源如工业燃烧源_常规组分.parquet包含Na、Mg、Al等金属元素民用燃烧源如民用燃烧源_有机组分(实验室模拟燃烧).parquet包含多环芳烃(PAHs)生物质开放燃烧源生物质开放燃烧源_常规组分.parquet包含K、Cl等特征组分移动源如道路移动源_有机胺.parquet和非道路移动源_气态组分.parquetPMF/CMB模型数据准备步骤1. 获取数据集首先克隆CNEnvAir仓库到本地git clone https://gitcode.com/GewisLab/CNEnvAir.git cd CNEnvAir2. 数据选择与提取根据研究区域和目标污染物选择合适的源谱文件。例如若研究城市大气PM2.5来源核心PM源谱文件是基础import pandas as pd # 读取工业锅炉PM源谱数据 industrial_boiler pd.read_parquet(source_profiles/PM_source_Industrial_boiler.parquet) # 读取交通源PM源谱数据 transportation pd.read_parquet(source_profiles/PM_source_Transportation.parquet) # 合并源谱数据 source_profiles pd.concat([industrial_boiler, transportation], ignore_indexTrue)3. 数据预处理数据预处理是确保模型准确性的关键步骤主要包括单位统一确保所有排放因子单位一致CNEnvAir源谱数据主要使用μg/kg fuel、mg/kg fuel、mg/m³和ng/m³等单位。缺失值处理检查并处理缺失数据可根据研究需求选择删除或插值。异常值检测使用统计方法如Z-score识别并处理异常值。组分筛选根据模型要求和研究目标筛选出关键化学示踪物。4. 模型输入格式转换PMF和CMB模型通常需要特定格式的输入文件可使用Python将处理后的源谱数据转换为模型所需格式# 提取组分名称和排放因子准备PMF模型输入 pmf_input source_profiles.pivot_table(index[一级源, 二级源], columns组分名称, valuesEF).fillna(0) # 保存为CSV格式 pmf_input.to_csv(pmf_source_profiles.csv)数据使用注意事项数据适用性CNEnvAir源谱数据主要针对中国区域污染源使用时需考虑研究区域与数据采样地点的地理差异。时间范围源谱数据的采样时间范围需与受体数据如空气质量监测数据的时间范围相匹配以确保解析结果的准确性。数据引用如使用本数据集发表研究成果请注明数据来源。数据更新CNEnvAir项目会定期更新数据建议关注项目最新动态以获取更完善的源谱数据。总结GewisLab/CNEnvAir提供了高质量、标准化的源成分谱数据为PMF和CMB等源解析模型的应用提供了便捷的数据基础。通过本文介绍的步骤研究人员可以快速完成模型数据准备专注于污染源解析方法和结果分析从而更高效地开展大气污染来源研究工作。如需进一步了解数据集详情可参考项目根目录下的README.md和source_profiles目录下的README.md文件获取更全面的数据说明和使用指南。【免费下载链接】CNEnvAir项目地址: https://ai.gitcode.com/GewisLab/CNEnvAir创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考