Python学习100天(从入门到精通系列文章)文章目录Python学习100天(从入门到精通系列文章)前言一、数据重塑:多表整合1.1 数据拼接:concat 函数1.2 数据关联:merge 函数二、数据清洗:让脏数据变干净2.1 缺失值处理检测缺失值删除缺失值填充缺失值2.2 重复值处理检测重复值删除重复值2.3 异常值检测与处理Z-score 方法IQR 方法(四分位距法)删除和替换异常值三、数据预处理实战3.1 日期时间处理3.2 字符串处理与正则提取3.3 数据离散化(分箱)3.4 分类变量编码四、常见错误与避坑指南错误1:merge 时忽略索引导致连接失败错误2:混淆 inplace 参数的行为错误3:fillna 使用 method 参数时未排序参考链接总结前言在数据分析的实战中,我们很少能直接拿到"开箱即用"的干净数据。数据可能分散在多个表中需要合并,可能包含缺失值和重复记录,也可能存在格式不统一的问题。本文聚焦 pandas 的数据重塑与数据清洗两大核心技能,帮助你掌握concat、merge等数据整合方法,以及缺失值、重复值、异常值的处理技巧。适合已掌握 pandas 基础读写操作、准备进入真实数据分析场景的读者。一、数据重塑:多表整合数据重塑(Data Reshaping)是指将来自不同数据源、不同结构的数据整合到一起的过程。在实际工作中,我们经常需要把多个DataFrame拼接或关联起来,这是进行多维度分析的基础。1.1 数据拼接:concat 函数当多个DataFrame拥有相同的列结构时(例如从不同月份导出的员工表),可以使用pd.concat()将它们纵向拼接。importpandasaspd# 假设 emp_df 和 emp2_df 都是员工数据,结构完全一致all_emp_df
Python学习第74天:深入浅出pandas-3(数据重塑与数据清洗)
Python学习100天(从入门到精通系列文章)文章目录Python学习100天(从入门到精通系列文章)前言一、数据重塑:多表整合1.1 数据拼接:concat 函数1.2 数据关联:merge 函数二、数据清洗:让脏数据变干净2.1 缺失值处理检测缺失值删除缺失值填充缺失值2.2 重复值处理检测重复值删除重复值2.3 异常值检测与处理Z-score 方法IQR 方法(四分位距法)删除和替换异常值三、数据预处理实战3.1 日期时间处理3.2 字符串处理与正则提取3.3 数据离散化(分箱)3.4 分类变量编码四、常见错误与避坑指南错误1:merge 时忽略索引导致连接失败错误2:混淆 inplace 参数的行为错误3:fillna 使用 method 参数时未排序参考链接总结前言在数据分析的实战中,我们很少能直接拿到"开箱即用"的干净数据。数据可能分散在多个表中需要合并,可能包含缺失值和重复记录,也可能存在格式不统一的问题。本文聚焦 pandas 的数据重塑与数据清洗两大核心技能,帮助你掌握concat、merge等数据整合方法,以及缺失值、重复值、异常值的处理技巧。适合已掌握 pandas 基础读写操作、准备进入真实数据分析场景的读者。一、数据重塑:多表整合数据重塑(Data Reshaping)是指将来自不同数据源、不同结构的数据整合到一起的过程。在实际工作中,我们经常需要把多个DataFrame拼接或关联起来,这是进行多维度分析的基础。1.1 数据拼接:concat 函数当多个DataFrame拥有相同的列结构时(例如从不同月份导出的员工表),可以使用pd.concat()将它们纵向拼接。importpandasaspd# 假设 emp_df 和 emp2_df 都是员工数据,结构完全一致all_emp_df