、Sklearn全称:Scipy-toolkit Learn是 一个基于scipy实现的的开源机器学习库。它提供了大量的算法和工具用于数据挖掘和数据分析包括分类、回归、聚类等多种任务。本文我将带你了解并入门Sklearn下的preprocessing在机器学习中的基本用法。获取方式pip install scikit-learn模块结构在Python中要想熟练地使用一个库来完成各种任务那么我们必须得对这个库内各个模块的结构比较熟悉才可以观察Scikit-learn源代码中的第一级模块我们不难画出这样的一个树状图用来描述其结构:在这其中datasets为内置数据集剩下的2-13基本包含了整个机器学习中所有比较经典的算法后边七个模块是我们在进行机器学习任务时常用的工具。后续我将分别为大家介绍这20个模块的基本用法本文我们着重来了解preprocessing这个模块的基本用法。Preprocessing当我们对需要对数据进行预处理操作的时候可以使用sklearn的preprocessing模块内的函数来进行操作这里我给大家罗列出来常用数据预处理操作以及sklearn.preprocessing模块内对应函数。预处理类型主要函数/类功能描述常用参数适用场景标准化StandardScaler将特征缩放为均值为0方差为1with_mean,with_std适用于大多数基于距离的算法归一化MinMaxScaler将特征缩放到给定范围(默认[0,1])feature_range神经网络、图像处理MaxAbsScaler将特征缩放到[-1,1]范围-稀疏数据Normalizer对样本进行归一化(行归一化)norm(l1,l2,max)文本分类、聚类鲁棒缩放RobustScaler使用中位数和四分位数范围缩放with_centering,with_scaling存在异常值的数据非线性变换PowerTransformer应用幂变换使数据更接近正态分布method(yeo-johnson,box-cox)非正态分布数据QuantileTransformer使用分位数信息变换特征n_quantiles,output_distribution非线性模型离散化KBinsDiscretizer将连续特征离散化n_bins,encode,strategy决策树类算法二值化Binarizer根据阈值将数据二值化threshold文本处理、概率输出编码分类特征OrdinalEncoder将分类特征编码为整数categories有序分类变量OneHotEncoder将分类特征进行one-hot编码categories,drop无序分类变量LabelEncoder将目标标签编码为0到n_classes-1-目标变量编码缺失值处理SimpleImputer填充缺失值strategy(mean,median,most_frequent,constant)数据缺失处理多项式特征PolynomialFeatures生成多项式特征degree,interaction_only线性模型扩展特征自定义变换FunctionTransformer应用自定义函数变换func,inverse_func自定义预处理逻辑特征选择VarianceThreshold移除低方差特征threshold预处理中的特征选择总结以上便是Sklearn入门之preprocessing的基本用法的所有内容如果本文对你有用免费的三连来一波感谢各位大佬支持。后续我还将继续介绍sklearn中其他模块的使用方法。
Sklearn入门之数据预处理preprocessing
、Sklearn全称:Scipy-toolkit Learn是 一个基于scipy实现的的开源机器学习库。它提供了大量的算法和工具用于数据挖掘和数据分析包括分类、回归、聚类等多种任务。本文我将带你了解并入门Sklearn下的preprocessing在机器学习中的基本用法。获取方式pip install scikit-learn模块结构在Python中要想熟练地使用一个库来完成各种任务那么我们必须得对这个库内各个模块的结构比较熟悉才可以观察Scikit-learn源代码中的第一级模块我们不难画出这样的一个树状图用来描述其结构:在这其中datasets为内置数据集剩下的2-13基本包含了整个机器学习中所有比较经典的算法后边七个模块是我们在进行机器学习任务时常用的工具。后续我将分别为大家介绍这20个模块的基本用法本文我们着重来了解preprocessing这个模块的基本用法。Preprocessing当我们对需要对数据进行预处理操作的时候可以使用sklearn的preprocessing模块内的函数来进行操作这里我给大家罗列出来常用数据预处理操作以及sklearn.preprocessing模块内对应函数。预处理类型主要函数/类功能描述常用参数适用场景标准化StandardScaler将特征缩放为均值为0方差为1with_mean,with_std适用于大多数基于距离的算法归一化MinMaxScaler将特征缩放到给定范围(默认[0,1])feature_range神经网络、图像处理MaxAbsScaler将特征缩放到[-1,1]范围-稀疏数据Normalizer对样本进行归一化(行归一化)norm(l1,l2,max)文本分类、聚类鲁棒缩放RobustScaler使用中位数和四分位数范围缩放with_centering,with_scaling存在异常值的数据非线性变换PowerTransformer应用幂变换使数据更接近正态分布method(yeo-johnson,box-cox)非正态分布数据QuantileTransformer使用分位数信息变换特征n_quantiles,output_distribution非线性模型离散化KBinsDiscretizer将连续特征离散化n_bins,encode,strategy决策树类算法二值化Binarizer根据阈值将数据二值化threshold文本处理、概率输出编码分类特征OrdinalEncoder将分类特征编码为整数categories有序分类变量OneHotEncoder将分类特征进行one-hot编码categories,drop无序分类变量LabelEncoder将目标标签编码为0到n_classes-1-目标变量编码缺失值处理SimpleImputer填充缺失值strategy(mean,median,most_frequent,constant)数据缺失处理多项式特征PolynomialFeatures生成多项式特征degree,interaction_only线性模型扩展特征自定义变换FunctionTransformer应用自定义函数变换func,inverse_func自定义预处理逻辑特征选择VarianceThreshold移除低方差特征threshold预处理中的特征选择总结以上便是Sklearn入门之preprocessing的基本用法的所有内容如果本文对你有用免费的三连来一波感谢各位大佬支持。后续我还将继续介绍sklearn中其他模块的使用方法。