数据分析方法探索性数据分析EDA定义与目的探索性数据分析Exploratory Data Analysis简称 EDA是指对已有的数据在尽量少的先验假设下进行探索通过绘制图表、计算统计量等手段发现数据的规律、特征、变量之间的关系以及异常点等信息为后续的分析和建模提供方向和依据。其目的主要包括熟悉数据了解数据的基本特征如数据的规模、变量的类型数值型、分类型等、数据的分布情况等。发现规律与趋势通过可视化和统计方法找出数据中潜在的模式、趋势和关系例如时间序列数据中的季节性变化、不同变量之间的线性或非线性关联。识别异常值和数据问题检测数据中可能存在的异常点、缺失值或错误数据以便在后续分析中进行适当处理。常用的 EDA 技术数据可视化直方图用于展示数值型数据的分布情况。通过将数据划分为若干区间bin并统计每个区间内数据的频数或频率以矩形的高度表示频数或频率能直观地呈现数据的集中趋势、离散程度以及分布形态如正态分布、偏态分布等。例如分析某班学生的考试成绩分布使用直方图可以清晰看到成绩在各个分数段的学生人数分布情况。箱线图可以展示数据的四分位数、中位数、异常值等信息能有效比较不同数据集的分布特征和离散程度。箱体的上下边界分别为第一四分位数Q1和第三四分位数Q3中间的线为中位数 whiskers 表示数据的取值范围超出 whiskers 的点通常被视为异常值。比如对比不同班级学生成绩的稳定性箱线图能直观显示出各班成绩的分布差异以及是否存在异常成绩。散点图用于观察两个数值型变量之间的关系通过将两个变量分别映射到坐标轴上每个数据点对应坐标轴上的一个位置。如果两个变量存在线性关系散点图上的数据点会呈现出一定的线性趋势若存在非线性关系也能从点的分布形态中有所察觉。例如研究房屋面积与房价之间的关系散点图可以帮助我们初步判断两者是否存在关联以及关联的大致形式。折线图适用于展示随时间或其他有序变量变化的数据趋势。将数据点按照顺序连接成折线能清晰地呈现数据的变化情况如上升、下降、波动等趋势。常用于时间序列数据的分析如分析公司每月的销售额变化趋势通过折线图可以直观看到销售额在不同时间段的增减情况。统计描述集中趋势度量包括均值、中位数和众数。均值是所有数据的总和除以数据的个数能反映数据的平均水平中位数是将数据按大小顺序排列后位于中间位置的数值若数据个数为奇数或中间两个数的平均值若数据个数为偶数对极端值不敏感众数是数据中出现次数最多的数值适用于描述分类型数据或具有明显集中趋势的数值型数据。例如在分析员工工资时均值可以反映整体工资水平但如果存在少数高收入的管理层中位数可能更能代表普通员工的工资水平而众数可以告诉我们最常见的工资额度。离散程度度量如标准差和方差用于衡量数据的离散程度或变异性。方差是每个数据与均值之差的平方的平均值标准差是方差的平方根。标准差越大说明数据越分散标准差越小数据越集中。例如比较两个班级学生成绩的离散程度标准差大的班级成绩相对更分散学生之间的成绩差异较大。分位数除了中位数即第二四分位数第一四分位数Q1表示数据中 25% 的数据小于该值第三四分位数Q3表示 75% 的数据小于该值。四分位数间距IQR Q3 - Q1可以反映数据中间 50% 部分的离散程度常用于识别异常值。EDA 的一般流程数据导入与初步观察使用数据分析工具如 Python 的 pandas 库将数据导入到分析环境中并通过查看数据的前几行、数据的形状行数和列数、数据类型等对数据有一个初步的整体认识。单变量分析针对每个变量分别使用可视化和统计描述方法进行分析。对于数值型变量绘制直方图、箱线图计算均值、标准差等统计量对于分类型变量计算各类别的频数和频率绘制柱状图展示类别分布。多变量分析探索变量之间的关系通过绘制散点图、折线图等观察数值型变量之间的关联或者通过交叉表对于分类型变量分析不同类别之间的关系。总结与发现根据单变量和多变量分析的结果总结数据的特征、规律、异常情况以及变量之间的关系为后续的深入分析和建模提供方向和依据。回归分析定义与原理回归分析是一种用于研究变量之间关系的统计方法主要目的是建立一个数学模型来描述因变量目标变量如何随着一个或多个自变量解释变量的变化而变化。其基本原理基于最小二乘法即通过找到一条直线对于简单线性回归或一个超平面对于多元线性回归使得所有数据点到该直线或超平面的距离平方和最小以此来拟合数据并预测因变量的值。常见的回归类型简单线性回归研究一个自变量与一个因变量之间的线性关系模型形式为 ( y \beta_0 \beta_1x \epsilon )其中 ( y ) 是因变量( x ) 是自变量( \beta_0 ) 是截距( \beta_1 ) 是回归系数( \epsilon ) 是误差项表示实际值与模型预测值之间的差异。例如研究房屋面积自变量 ( x )与房价因变量 ( y )之间的关系假设两者存在线性关系就可以使用简单线性回归模型进行分析。多元线性回归当有多个自变量影响因变量时使用多元线性回归模型。模型形式为 ( y \beta_0 \beta_1x_1 \beta_2x_2 \cdots \beta_nx_n \epsilon )其中 ( x_1, x_2, \cdots, x_n ) 是多个自变量。比如分析房价时除了房屋面积还考虑房屋的房龄、周边配套设施等多个因素多个自变量对房价因变量的影响就需要用到多元线性回归。非线性回归当变量之间的关系不是线性关系时使用非线性回归模型。非线性回归模型具有更复杂的函数形式例如指数函数、对数函数、多项式函数等。例如在研究细菌的生长过程中细菌数量随时间的变化可能不符合线性关系而更适合用指数函数进行拟合此时就需要使用非线性回归方法。回归分析的步骤数据准备收集相关的数据并对数据进行清洗、预处理确保数据的质量和完整性。例如处理缺失值、异常值对数据进行标准化或归一化处理等。模型选择与假设根据数据的特点和研究问题选择合适的回归模型如简单线性回归、多元线性回归或非线性回归并对模型做出一些基本假设如线性回归模型通常假设误差项服从正态分布、误差项之间相互独立且具有相同的方差等。参数估计使用最小二乘法等方法估计回归模型中的参数如 ( \beta_0, \beta_1, \cdots, \beta_n )使得模型能够最佳拟合数据。模型评估通过计算一些评估指标如均方误差 MSE、均方根误差 RMSE、决定系数 ( R^2 ) 等来评估模型的拟合优度和预测能力。均方误差衡量了预测值与真实值之间误差的平方的平均值RMSE 是 MSE 的平方根能更直观地反映预测误差的大小决定系数 ( R^2 ) 表示模型对数据的解释程度取值范围在 0 到 1 之间越接近 1 说明模型对数据的拟合效果越好。模型应用与预测如果模型评估结果良好就可以使用该模型对新的数据进行预测为决策提供依据。例如根据建立的房价回归模型预测新上市房屋的价格。分类算法定义与应用场景分类算法是一种有监督学习方法旨在根据已知的输入特征自变量将数据分为不同的类别因变量。其应用场景广泛例如医疗诊断根据患者的症状、检查结果等特征判断患者是否患有某种疾病如通过血液检测指标和影像数据判断患者是否患有癌症。信用评估金融机构根据客户的收入、信用记录、负债情况等特征评估客户的信用风险将客户分为不同的信用等级以决定是否给予贷款以及贷款额度。图像识别识别图像中的物体类别如识别照片中的动物是猫还是狗在安防监控、自动驾驶等领域有重要应用。常见的分类算法决策树通过一系列的条件判断来对数据进行分类。决策树从根节点开始根据某个特征的取值对数据进行划分形成不同的分支直到叶节点叶节点表示最终的分类结果。例如在判断一个水果是苹果还是橙子时可以根据颜色、形状、味道等特征构建决策树进行分类。决策树的优点是易于理解和解释可处理分类型和数值型数据缺点是容易过拟合对噪声数据敏感。支持向量机SVM旨在找到一个最优的超平面将不同类别的数据点尽可能分开并且使两类数据点到超平面的距离最大化。对于线性可分的数据SVM 可以找到唯一的最优超平面对于非线性可分的数据可以通过核函数将数据映射到高维空间再寻找超平面。SVM 在小样本、高维数据的分类问题上表现出色常用于文本分类、图像分类等领域。朴素贝叶斯分类器基于贝叶斯定理假设特征之间相互独立通过计算每个类别在给定特征下的概率选择概率最大的类别作为分类结果。朴素贝叶斯分类器计算简单、效率高在文本分类如垃圾邮件过滤等领域应用广泛。但它对特征之间的独立性假设在实际中可能并不总是成立这可能会影响分类效果。K 近邻算法K - Nearest NeighborsKNN对于一个新的数据点根据它与训练数据集中各个点的距离如欧氏距离、曼哈顿距离等找出距离最近的 ( K ) 个点然后根据这 ( K ) 个点的类别来决定新数据点的类别。例如在一个二维平面上有两类数据点红色和蓝色对于一个新的绿色点通过计算它与周围点的距离找出最近的 ( K ) 个点如果这 ( K ) 个点中红色点居多就将绿色点分类为红色类别。KNN 算法简单直观但计算量较大对数据的局部特征敏感( K ) 值的选择对分类结果影响较大。分类算法的一般流程数据预处理对原始数据进行清洗处理缺失值、异常值对数据进行编码如将分类型变量转换为数值型、标准化或归一化等操作使数据适合算法处理。数据集划分将数据集划分为训练集和测试集通常按照一定比例如 70% 作为训练集30% 作为测试集进行划分。训练集用于训练分类模型测试集用于评估模型的性能。模型训练使用训练集数据对选定的分类算法进行训练调整模型的参数使模型能够学习到数据的特征与类别之间的关系。模型评估使用测试集数据对训练好的模型进行评估常用的评估指标有准确率、精确率、召回率、F1 值等。准确率是分类正确的样本数占总样本数的比例精确率是预测为正类且实际为正类的样本数占预测为正类的样本数的比例召回率是预测为正类且实际为正类的样本数占实际为正类的样本数的比例F1 值是精确率和召回率的调和平均数综合反映了模型的性能。根据评估结果可以对模型进行调优或选择更合适的模型。模型应用将训练好且评估合格的模型应用到新的数据上进行分类预测为实际问题提供解决方案。聚类分析定义与目的聚类分析是一种无监督学习方法它将数据集中的对象按照相似性划分为不同的簇类别使得同一簇内的对象相似度较高而不同簇之间的对象相似度较低。聚类分析的目的主要有发现数据中的自然分组在没有先验类别信息的情况下通过聚类算法自动发现数据中潜在的结构和分组例如在客户细分中将具有相似购买行为的客户分为一组以便企业针对不同组客户制定个性化的营销策略。数据降维和可视化通过聚类可以将大量的数据点简化为少数几个簇从而降低数据的维度便于对数据进行可视化和理解。例如在高维空间中的数据点通过聚类后可以在二维或三维空间中以不同颜色或形状表示不同的簇直观展示数据的分布情况。常见的聚类算法K - 均值聚类这是最常用的聚类算法之一。它首先随机选择 ( K ) 个初始聚类中心然后将每个数据点分配到距离它最近的聚类中心所在的簇接着重新计算每个簇的中心即簇内所有数据点的均值不断重复这个过程直到聚类中心不再变化或达到预设的迭代次数。例如在分析一群人的身高和体重数据时使用 ( K - ) 均值聚类算法可以将人群分为不同的组每组人群在身高和体重方面具有相似性。K - 均值聚类算法简单高效但 ( K ) 值需要事先确定且对初始聚类中心的选择敏感可能会导致不同的聚类结果。层次聚类分为凝聚式层次聚类和分裂式层次聚类。凝聚式层次聚类从每个数据点作为一个单独的簇开始然后逐步合并相似的簇直到所有数据点都在一个簇中或满足某个终止条件分裂式层次聚类则相反从所有数据点在一个簇开始逐步分裂成更小的簇。层次聚类不需要事先指定簇的数量聚类结果以树形结构 dendrogram展示可以直观地看到数据点之间的层次关系。但计算复杂度较高不适合大规模数据。DBSCANDensity - Based Spatial Clustering of Applications with Noise基于密度的聚类算法它将数据空间中密度相连的区域划分为一个簇并将低密度区域中的点视为噪声点。DBSCAN 能够发现任意形状的簇对噪声数据不敏感适用于具有复杂形状分布的数据聚类。例如在地理数据中分析城市的分布时DBSCAN 可以根据城市的密度将不同区域的城市分为不同的簇同时识别出一些孤立的小区域噪声点。但 DBSCAN 需要选择合适的密度参数如邻域半径 ( \epsilon ) 和最小点数 ( MinPts )参数选择不当可能会影响聚类效果。聚类分析的步骤数据预处理与分类算法类似对数据进行清洗、标准化或归一化等操作以消除不同特征之间量纲的影响使数据更适合聚类分析。选择聚类算法和参数根据数据的特点和分析目的选择合适的聚类算法并确定相关参数。例如对于简单的球形簇结构数据K - 均值聚类可能是一个不错的选择对于具有复杂形状分布的数据DBSCAN 可能更合适。同时需要根据经验或通过一些实验方法确定参数值如 ( K - ) 均值聚类中的 ( K ) 值、DBSCAN 中的 ( \epsilon ) 和 ( MinPts )。执行聚类算法使用选定的聚类算法对预处理后的数据进行聚类操作得到数据的聚类结果即每个数据点所属的簇。聚类结果评估由于聚类分析是无监督学习没有真实的类别标签作为参考评估聚类结果相对较困难。常用的评估指标有轮廓系数、Calinski - Harabasz 指数等。轮廓系数综合考虑了簇内的紧凑性和簇间的分离性取值范围在 -1 到 1 之间越接近 1 表示聚类效果越好Calinski - Harabasz 指数越大表示聚类效果越好。通过评估结果可以判断聚类算法和参数的选择是否合适如有必要可以调整算法或参数重新进行聚类。结果分析与应用对聚类结果进行分析理解每个簇的特征和含义根据分析结果为实际问题提供决策支持。例如在市场细分中根据聚类结果了解不同客户群体的特点制定针对性的产品推广策略。时间序列分析定义与特点时间序列是按时间顺序排列的观测值序列时间序列分析就是对这些序列进行分析以揭示其随时间变化的规律并用于预测未来值。时间序列数据具有以下特点趋势性数据随时间呈现出长期的上升、下降或平稳趋势。例如随着科技进步和市场需求增长某电子产品的销售额可能逐年上升而某些传统制造业产品由于市场饱和或新兴替代品出现销售额可能逐渐下降。季节性数据在固定周期内呈现出有规律的波动。这种周期可以是一年如季节性商品的销售夏季泳衣销量高冬季羽绒服销量高、一个月如某些服务行业在月初和月末业务量不同或一周如周末商场客流量大于工作日等。周期性与季节性类似但周期不一定固定通常由经济、环境等复杂因素引起。例如经济周期可能导致企业盈利在若干年中呈现周期性变化。随机性数据中包含无法用趋势、季节性或周期性解释的随机波动这些波动由偶然因素造成。常用分析方法移动平均法通过计算一定时间窗口内数据的平均值来平滑数据消除随机波动凸显数据的趋势和季节性。简单移动平均SMA是取固定时间窗口内数据的算术平均值加权移动平均WMA则对不同时间的数据赋予不同权重近期数据权重较大以更好反映数据的最新变化。例如计算过去 3 个月的平均销售额来预测下个月销售额若采用加权移动平均可对最近一个月销售额赋予更高权重。指数平滑法是移动平均法的改进它对过去所有数据都给予一定权重且权重随时间呈指数衰减更强调近期数据的影响。简单指数平滑SES适用于没有明显趋势和季节性的数据霍尔特 - 温特Holt - Winters指数平滑法可处理具有趋势和季节性的数据分为加法模型适用于季节性波动幅度相对稳定情况和乘法模型适用于季节性波动幅度随时间变化情况。自回归积分滑动平均模型ARIMA用于对平稳时间序列进行建模和预测。它由自回归AR、积分I和滑动平均MA三部分组成。自回归部分考虑序列当前值与过去值的线性关系积分部分通过对序列进行差分使其平稳滑动平均部分考虑误差项的相关性。对于非平稳时间序列先通过差分等变换使其平稳再构建 ARIMA 模型。例如分析电力消耗时间序列可使用 ARIMA 模型预测未来电力需求。时间序列分析步骤数据收集与预处理收集相关时间序列数据并检查数据完整性处理缺失值可采用插值法、均值/中位数填充等和异常值如修正、删除或转换。同时根据数据频率如日、周、月等进行适当整理。平稳性检验判断时间序列是否平稳因为多数时间序列分析方法要求数据平稳。常用的检验方法有单位根检验如 Augmented Dickey - Fuller 检验简称 ADF 检验。若数据非平稳需进行差分处理直到序列平稳。模型识别与选择根据平稳性检验结果和数据特点选择合适模型。观察自相关函数ACF和偏自相关函数PACF图形确定 ARIMA 模型的参数 ( p )自回归阶数、( d )差分阶数、( q )滑动平均阶数。也可尝试不同模型和参数组合通过比较信息准则如 AIC、BIC值越小模型越好选择最优模型。模型估计与检验使用选定模型对数据进行参数估计并检验模型有效性。通过分析残差序列是否为白噪声即无自相关性和异方差性判断模型是否充分拟合数据。若残差不满足白噪声条件需调整模型。预测与评估利用估计好的模型进行预测并使用适当指标如均方误差 MSE、平均绝对误差 MAE、平均绝对百分比误差 MAPE 等评估预测准确性。根据评估结果可进一步优化模型或调整预测方法。例如通过 MAPE 评估预测的销售额与实际销售额的偏差程度若偏差较大需改进模型。以下为补充时间序列分析中一些其他常见内容季节性分解定义与目的季节性分解是将时间序列数据分解为趋势Trend、季节性Seasonal和残差Residual等成分的过程。目的在于清晰地了解时间序列中不同成分对数据变化的影响从而更好地分析数据规律、预测未来值。例如在分析每月的零售销售额数据时通过季节性分解可以明确销售额的长期增长趋势、季节性波动模式以及去除趋势和季节性后剩余的随机波动部分。常用方法加法模型假设时间序列 ( Y_t ) 可以表示为趋势成分 ( T_t )、季节性成分 ( S_t ) 和残差成分 ( e_t ) 的和即 ( Y_t T_t S_t e_t )。在加法模型中季节性波动的幅度不随时间变化而改变。例如某城市每月的公共交通客流量在不考虑其他因素时季节性波动可能相对稳定就适合用加法模型进行分解。乘法模型该模型认为时间序列 ( Y_t ) 是趋势成分 ( T_t )、季节性成分 ( S_t ) 和残差成分 ( e_t ) 的乘积即 ( Y_t T_t \times S_t \times e_t )。乘法模型适用于季节性波动幅度随时间变化的情况比如一些时尚产品的销售额随着市场规模扩大季节性的销售高峰和低谷的差距可能也会增大此时乘法模型更合适。分解步骤计算移动平均通过移动平均法计算时间序列的趋势成分。移动平均的时间窗口长度通常与季节性周期相同例如对于月度数据如果存在年度季节性窗口长度可设为12个月。移动平均的结果初步反映了数据的趋势但可能包含部分季节性和随机波动。分离季节性成分将原时间序列除以移动平均得到的趋势序列乘法模型或减去趋势序列加法模型从而分离出季节性成分。然后对季节性成分进行平均以消除随机波动得到更平滑的季节性模式。计算残差成分用原时间序列减去趋势成分和季节性成分加法模型或除以趋势成分和季节性成分乘法模型得到残差成分。残差成分反映了无法由趋势和季节性解释的随机波动。时间序列预测的其他模型与技术状态空间模型原理状态空间模型将时间序列视为由不可观测的状态变量和可观测的观测变量组成。通过建立状态方程和观测方程描述状态变量的动态变化以及状态变量与观测变量之间的关系。这种模型能够处理具有复杂动态结构的时间序列尤其适用于对隐藏状态进行估计和预测。应用场景在经济预测、信号处理、金融风险管理等领域有广泛应用。例如在宏观经济分析中状态空间模型可以用于估计经济的潜在增长率等不可直接观测的变量并进行经济预测。深度学习模型长短期记忆网络LSTM一种特殊的循环神经网络RNN能够有效处理时间序列中的长期依赖问题。LSTM 通过门控机制输入门、遗忘门和输出门控制信息的流动从而记住长时间的信息。在预测电力消耗、股票价格等复杂时间序列数据方面表现出色。门控循环单元GRU是 LSTM 的简化变体具有与 LSTM 类似的处理长期依赖的能力但结构相对简单计算效率更高。它也被广泛应用于时间序列预测任务如语音识别中的时间序列建模、电商销售预测等。组合预测方法将多种时间序列预测方法进行组合利用不同方法的优势来提高预测准确性。例如可以将移动平均法、指数平滑法和 ARIMA 模型的预测结果进行加权平均得到最终的预测值。权重的确定可以通过最小化预测误差等方法来实现。组合预测方法在面对复杂多变的时间序列数据时往往能够取得比单一方法更好的预测效果。在数据分析方法板块时间序列分析之后通常还会涉及其他方面以下为你补充常见的内容关联规则挖掘定义与原理关联规则挖掘旨在发现数据集中不同项之间的关联关系揭示哪些事物经常同时出现。其原理基于支持度Support、置信度Confidence和提升度Lift等指标。支持度表示项集在数据集中出现的频率即包含该项集的事务数与总事务数之比反映了项集的普遍程度。置信度是指在包含前项的事务中同时包含后项的比例衡量了规则的可靠性。提升度则是置信度与后项支持度的比值体现了前项对后项的提升作用大于1表示前项的出现对后项有促进作用。例如在超市购物篮数据中关联规则挖掘可能发现“购买啤酒的顾客中有80%也会购买尿布”这里“购买啤酒”是前项“购买尿布”是后项80%就是该规则的置信度。通过计算支持度、置信度和提升度等指标可以筛选出有价值的关联规则。常见算法Apriori算法是最经典的关联规则挖掘算法。它基于“频繁项集的所有非空子集也一定是频繁的”这一先验性质采用逐层搜索的迭代方法。首先找出所有的1 - 频繁项集单个项组成的频繁项集然后基于1 - 频繁项集生成2 - 频繁项集两个项组成的频繁项集依此类推直到不能生成新的频繁项集为止。最后从频繁项集中生成满足最小支持度和置信度的关联规则。FP - growth算法针对Apriori算法在生成候选集时计算量较大的问题而提出。它通过构建频繁模式树FP - tree来压缩数据在树结构上直接挖掘频繁项集避免了Apriori算法中大量候选集的生成过程大大提高了挖掘效率。尤其适用于大数据集的关联规则挖掘。应用场景市场营销用于制定营销策略如交叉销售和捆绑销售。通过发现顾客购买商品之间的关联关系商家可以将相关商品组合推荐给顾客提高销售额。例如发现购买手机的顾客常同时购买手机壳和充电器商家可推出手机配件套餐。医疗诊断辅助医生进行疾病诊断。通过分析患者的症状、检查结果等数据之间的关联发现潜在的疾病模式。例如某些症状与特定疾病之间的关联规则有助于医生更准确地判断病情。网络分析在网络流量分析、社交网络分析中挖掘节点之间的关联关系。例如在社交网络中发现哪些用户群体经常互动为精准营销、社区发现等提供依据。生存分析定义与概念生存分析是用于研究事件发生时间如产品的失效时间、疾病的复发时间、病人的生存时间等及其影响因素的一类统计方法。它不仅考虑事件是否发生还考虑事件发生所经历的时间。在生存分析中涉及几个重要概念生存时间从某个起始事件到目标事件发生所经历的时间。例如从患者确诊疾病到死亡的时间或从产品投入使用到出现故障的时间。删失数据在研究过程中由于某些原因部分个体的生存时间未能完整观测到。比如在研究某种药物疗效时一些患者在研究结束时仍存活其确切生存时间未知这种数据就是删失数据。删失分为右删失观测到个体在某时刻后仍存活、左删失只知道个体在某时刻前已经发生事件和区间删失只知道事件发生在某个时间区间内。生存函数记为 ( S(t) )表示个体生存时间大于 ( t ) 的概率反映了生存时间的分布情况。分析方法非参数方法不需要对生存时间的分布做出假设直接根据数据估计生存函数。常用的方法有Kaplan - Meier法通过对生存时间进行排序逐段计算生存概率从而绘制出生存曲线直观展示生存时间的分布情况。该方法常用于描述性分析比较不同组之间的生存情况。参数方法假设生存时间服从某种特定的概率分布如指数分布、威布尔分布等。通过估计分布参数来确定生存函数。例如当假设生存时间服从指数分布时可以通过极大似然估计等方法估计分布的参数进而得到生存函数。参数方法在已知或假设生存时间分布形式的情况下能更准确地进行预测和分析。半参数方法以Cox比例风险模型为代表该模型不假设生存时间的具体分布形式但考虑协变量影响生存时间的因素对生存时间的影响。它通过估计风险比例来分析协变量与生存时间之间的关系在医学、可靠性工程等领域广泛应用。例如在研究癌症患者生存时间时可将患者的年龄、性别、治疗方法等作为协变量通过Cox模型分析这些因素对生存时间的影响。应用领域医学研究评估药物疗效、比较不同治疗方案的优劣、分析影响患者生存的因素等。例如比较两种抗癌药物对患者生存时间的影响找出影响癌症患者预后的关键因素。可靠性工程研究产品的可靠性和寿命特征评估产品在不同条件下的失效时间为产品设计、维护和质量控制提供依据。例如分析电子元件在不同使用环境下的寿命优化产品的设计和生产工艺。社会学研究分析个体在社会现象中的持续时间如失业持续时间、婚姻持续时间等并研究影响这些时间的因素。例如研究影响员工在某公司工作时长的因素为企业人力资源管理提供参考。以下是一些数据分析方法相关的书籍、视频及博主教程资源书籍《深入浅出数据分析》适合入门以通俗简单的方式让读者对数据分析概念有全面了解能体会数据分析的思想逻辑和原则。《深入浅出统计学》号称“文科生也能看懂”讲解了数据分析中常见的统计学知识如基本统计量、概率分布等。《利用Python进行数据分析》经典的数据分析书籍介绍了pandas、Numpy、matplotlib等库可应对一般的数据分析任务。《数据科学实战》适合有一定数据分析基础的人是数据分析和机器学习之间的桥梁介绍了回归分析、k近邻等机器学习基本算法。视频教程国家高等教育智慧教育平台的数据分析课程课程包含数据统计分析方法、数据关联分析算法、线性模型分析方法等内容还介绍了SPSS等实训工具配有完整数据分析案例。B站数据分析天花板教程内容全面详细涵盖Excel操作、函数使用、数据透视表、数据分析流程、数据清洗、RFM分析模型、漏斗分析模型等还有SPSS和Tableau相关内容。Datawhale动手学数据分析以项目为主线通过Jupyter Notebook进行教学包括数据基础操作、数据清洗与重构、建模和评估等内容适合有一定Python基础的学习者。博主教程极客时间的陈旸老师专栏《数据分析实战45讲》。陈旸是清华大学计算机博士他会结合自己的学习体会和实践经验带你由浅入深掌握数据分析的核心知识点并且结合案例手把手教你从源头上认识数据分析熟悉对应的工具操作。
【数据分析学习大纲 - 数据分析方法(详细版)】
数据分析方法探索性数据分析EDA定义与目的探索性数据分析Exploratory Data Analysis简称 EDA是指对已有的数据在尽量少的先验假设下进行探索通过绘制图表、计算统计量等手段发现数据的规律、特征、变量之间的关系以及异常点等信息为后续的分析和建模提供方向和依据。其目的主要包括熟悉数据了解数据的基本特征如数据的规模、变量的类型数值型、分类型等、数据的分布情况等。发现规律与趋势通过可视化和统计方法找出数据中潜在的模式、趋势和关系例如时间序列数据中的季节性变化、不同变量之间的线性或非线性关联。识别异常值和数据问题检测数据中可能存在的异常点、缺失值或错误数据以便在后续分析中进行适当处理。常用的 EDA 技术数据可视化直方图用于展示数值型数据的分布情况。通过将数据划分为若干区间bin并统计每个区间内数据的频数或频率以矩形的高度表示频数或频率能直观地呈现数据的集中趋势、离散程度以及分布形态如正态分布、偏态分布等。例如分析某班学生的考试成绩分布使用直方图可以清晰看到成绩在各个分数段的学生人数分布情况。箱线图可以展示数据的四分位数、中位数、异常值等信息能有效比较不同数据集的分布特征和离散程度。箱体的上下边界分别为第一四分位数Q1和第三四分位数Q3中间的线为中位数 whiskers 表示数据的取值范围超出 whiskers 的点通常被视为异常值。比如对比不同班级学生成绩的稳定性箱线图能直观显示出各班成绩的分布差异以及是否存在异常成绩。散点图用于观察两个数值型变量之间的关系通过将两个变量分别映射到坐标轴上每个数据点对应坐标轴上的一个位置。如果两个变量存在线性关系散点图上的数据点会呈现出一定的线性趋势若存在非线性关系也能从点的分布形态中有所察觉。例如研究房屋面积与房价之间的关系散点图可以帮助我们初步判断两者是否存在关联以及关联的大致形式。折线图适用于展示随时间或其他有序变量变化的数据趋势。将数据点按照顺序连接成折线能清晰地呈现数据的变化情况如上升、下降、波动等趋势。常用于时间序列数据的分析如分析公司每月的销售额变化趋势通过折线图可以直观看到销售额在不同时间段的增减情况。统计描述集中趋势度量包括均值、中位数和众数。均值是所有数据的总和除以数据的个数能反映数据的平均水平中位数是将数据按大小顺序排列后位于中间位置的数值若数据个数为奇数或中间两个数的平均值若数据个数为偶数对极端值不敏感众数是数据中出现次数最多的数值适用于描述分类型数据或具有明显集中趋势的数值型数据。例如在分析员工工资时均值可以反映整体工资水平但如果存在少数高收入的管理层中位数可能更能代表普通员工的工资水平而众数可以告诉我们最常见的工资额度。离散程度度量如标准差和方差用于衡量数据的离散程度或变异性。方差是每个数据与均值之差的平方的平均值标准差是方差的平方根。标准差越大说明数据越分散标准差越小数据越集中。例如比较两个班级学生成绩的离散程度标准差大的班级成绩相对更分散学生之间的成绩差异较大。分位数除了中位数即第二四分位数第一四分位数Q1表示数据中 25% 的数据小于该值第三四分位数Q3表示 75% 的数据小于该值。四分位数间距IQR Q3 - Q1可以反映数据中间 50% 部分的离散程度常用于识别异常值。EDA 的一般流程数据导入与初步观察使用数据分析工具如 Python 的 pandas 库将数据导入到分析环境中并通过查看数据的前几行、数据的形状行数和列数、数据类型等对数据有一个初步的整体认识。单变量分析针对每个变量分别使用可视化和统计描述方法进行分析。对于数值型变量绘制直方图、箱线图计算均值、标准差等统计量对于分类型变量计算各类别的频数和频率绘制柱状图展示类别分布。多变量分析探索变量之间的关系通过绘制散点图、折线图等观察数值型变量之间的关联或者通过交叉表对于分类型变量分析不同类别之间的关系。总结与发现根据单变量和多变量分析的结果总结数据的特征、规律、异常情况以及变量之间的关系为后续的深入分析和建模提供方向和依据。回归分析定义与原理回归分析是一种用于研究变量之间关系的统计方法主要目的是建立一个数学模型来描述因变量目标变量如何随着一个或多个自变量解释变量的变化而变化。其基本原理基于最小二乘法即通过找到一条直线对于简单线性回归或一个超平面对于多元线性回归使得所有数据点到该直线或超平面的距离平方和最小以此来拟合数据并预测因变量的值。常见的回归类型简单线性回归研究一个自变量与一个因变量之间的线性关系模型形式为 ( y \beta_0 \beta_1x \epsilon )其中 ( y ) 是因变量( x ) 是自变量( \beta_0 ) 是截距( \beta_1 ) 是回归系数( \epsilon ) 是误差项表示实际值与模型预测值之间的差异。例如研究房屋面积自变量 ( x )与房价因变量 ( y )之间的关系假设两者存在线性关系就可以使用简单线性回归模型进行分析。多元线性回归当有多个自变量影响因变量时使用多元线性回归模型。模型形式为 ( y \beta_0 \beta_1x_1 \beta_2x_2 \cdots \beta_nx_n \epsilon )其中 ( x_1, x_2, \cdots, x_n ) 是多个自变量。比如分析房价时除了房屋面积还考虑房屋的房龄、周边配套设施等多个因素多个自变量对房价因变量的影响就需要用到多元线性回归。非线性回归当变量之间的关系不是线性关系时使用非线性回归模型。非线性回归模型具有更复杂的函数形式例如指数函数、对数函数、多项式函数等。例如在研究细菌的生长过程中细菌数量随时间的变化可能不符合线性关系而更适合用指数函数进行拟合此时就需要使用非线性回归方法。回归分析的步骤数据准备收集相关的数据并对数据进行清洗、预处理确保数据的质量和完整性。例如处理缺失值、异常值对数据进行标准化或归一化处理等。模型选择与假设根据数据的特点和研究问题选择合适的回归模型如简单线性回归、多元线性回归或非线性回归并对模型做出一些基本假设如线性回归模型通常假设误差项服从正态分布、误差项之间相互独立且具有相同的方差等。参数估计使用最小二乘法等方法估计回归模型中的参数如 ( \beta_0, \beta_1, \cdots, \beta_n )使得模型能够最佳拟合数据。模型评估通过计算一些评估指标如均方误差 MSE、均方根误差 RMSE、决定系数 ( R^2 ) 等来评估模型的拟合优度和预测能力。均方误差衡量了预测值与真实值之间误差的平方的平均值RMSE 是 MSE 的平方根能更直观地反映预测误差的大小决定系数 ( R^2 ) 表示模型对数据的解释程度取值范围在 0 到 1 之间越接近 1 说明模型对数据的拟合效果越好。模型应用与预测如果模型评估结果良好就可以使用该模型对新的数据进行预测为决策提供依据。例如根据建立的房价回归模型预测新上市房屋的价格。分类算法定义与应用场景分类算法是一种有监督学习方法旨在根据已知的输入特征自变量将数据分为不同的类别因变量。其应用场景广泛例如医疗诊断根据患者的症状、检查结果等特征判断患者是否患有某种疾病如通过血液检测指标和影像数据判断患者是否患有癌症。信用评估金融机构根据客户的收入、信用记录、负债情况等特征评估客户的信用风险将客户分为不同的信用等级以决定是否给予贷款以及贷款额度。图像识别识别图像中的物体类别如识别照片中的动物是猫还是狗在安防监控、自动驾驶等领域有重要应用。常见的分类算法决策树通过一系列的条件判断来对数据进行分类。决策树从根节点开始根据某个特征的取值对数据进行划分形成不同的分支直到叶节点叶节点表示最终的分类结果。例如在判断一个水果是苹果还是橙子时可以根据颜色、形状、味道等特征构建决策树进行分类。决策树的优点是易于理解和解释可处理分类型和数值型数据缺点是容易过拟合对噪声数据敏感。支持向量机SVM旨在找到一个最优的超平面将不同类别的数据点尽可能分开并且使两类数据点到超平面的距离最大化。对于线性可分的数据SVM 可以找到唯一的最优超平面对于非线性可分的数据可以通过核函数将数据映射到高维空间再寻找超平面。SVM 在小样本、高维数据的分类问题上表现出色常用于文本分类、图像分类等领域。朴素贝叶斯分类器基于贝叶斯定理假设特征之间相互独立通过计算每个类别在给定特征下的概率选择概率最大的类别作为分类结果。朴素贝叶斯分类器计算简单、效率高在文本分类如垃圾邮件过滤等领域应用广泛。但它对特征之间的独立性假设在实际中可能并不总是成立这可能会影响分类效果。K 近邻算法K - Nearest NeighborsKNN对于一个新的数据点根据它与训练数据集中各个点的距离如欧氏距离、曼哈顿距离等找出距离最近的 ( K ) 个点然后根据这 ( K ) 个点的类别来决定新数据点的类别。例如在一个二维平面上有两类数据点红色和蓝色对于一个新的绿色点通过计算它与周围点的距离找出最近的 ( K ) 个点如果这 ( K ) 个点中红色点居多就将绿色点分类为红色类别。KNN 算法简单直观但计算量较大对数据的局部特征敏感( K ) 值的选择对分类结果影响较大。分类算法的一般流程数据预处理对原始数据进行清洗处理缺失值、异常值对数据进行编码如将分类型变量转换为数值型、标准化或归一化等操作使数据适合算法处理。数据集划分将数据集划分为训练集和测试集通常按照一定比例如 70% 作为训练集30% 作为测试集进行划分。训练集用于训练分类模型测试集用于评估模型的性能。模型训练使用训练集数据对选定的分类算法进行训练调整模型的参数使模型能够学习到数据的特征与类别之间的关系。模型评估使用测试集数据对训练好的模型进行评估常用的评估指标有准确率、精确率、召回率、F1 值等。准确率是分类正确的样本数占总样本数的比例精确率是预测为正类且实际为正类的样本数占预测为正类的样本数的比例召回率是预测为正类且实际为正类的样本数占实际为正类的样本数的比例F1 值是精确率和召回率的调和平均数综合反映了模型的性能。根据评估结果可以对模型进行调优或选择更合适的模型。模型应用将训练好且评估合格的模型应用到新的数据上进行分类预测为实际问题提供解决方案。聚类分析定义与目的聚类分析是一种无监督学习方法它将数据集中的对象按照相似性划分为不同的簇类别使得同一簇内的对象相似度较高而不同簇之间的对象相似度较低。聚类分析的目的主要有发现数据中的自然分组在没有先验类别信息的情况下通过聚类算法自动发现数据中潜在的结构和分组例如在客户细分中将具有相似购买行为的客户分为一组以便企业针对不同组客户制定个性化的营销策略。数据降维和可视化通过聚类可以将大量的数据点简化为少数几个簇从而降低数据的维度便于对数据进行可视化和理解。例如在高维空间中的数据点通过聚类后可以在二维或三维空间中以不同颜色或形状表示不同的簇直观展示数据的分布情况。常见的聚类算法K - 均值聚类这是最常用的聚类算法之一。它首先随机选择 ( K ) 个初始聚类中心然后将每个数据点分配到距离它最近的聚类中心所在的簇接着重新计算每个簇的中心即簇内所有数据点的均值不断重复这个过程直到聚类中心不再变化或达到预设的迭代次数。例如在分析一群人的身高和体重数据时使用 ( K - ) 均值聚类算法可以将人群分为不同的组每组人群在身高和体重方面具有相似性。K - 均值聚类算法简单高效但 ( K ) 值需要事先确定且对初始聚类中心的选择敏感可能会导致不同的聚类结果。层次聚类分为凝聚式层次聚类和分裂式层次聚类。凝聚式层次聚类从每个数据点作为一个单独的簇开始然后逐步合并相似的簇直到所有数据点都在一个簇中或满足某个终止条件分裂式层次聚类则相反从所有数据点在一个簇开始逐步分裂成更小的簇。层次聚类不需要事先指定簇的数量聚类结果以树形结构 dendrogram展示可以直观地看到数据点之间的层次关系。但计算复杂度较高不适合大规模数据。DBSCANDensity - Based Spatial Clustering of Applications with Noise基于密度的聚类算法它将数据空间中密度相连的区域划分为一个簇并将低密度区域中的点视为噪声点。DBSCAN 能够发现任意形状的簇对噪声数据不敏感适用于具有复杂形状分布的数据聚类。例如在地理数据中分析城市的分布时DBSCAN 可以根据城市的密度将不同区域的城市分为不同的簇同时识别出一些孤立的小区域噪声点。但 DBSCAN 需要选择合适的密度参数如邻域半径 ( \epsilon ) 和最小点数 ( MinPts )参数选择不当可能会影响聚类效果。聚类分析的步骤数据预处理与分类算法类似对数据进行清洗、标准化或归一化等操作以消除不同特征之间量纲的影响使数据更适合聚类分析。选择聚类算法和参数根据数据的特点和分析目的选择合适的聚类算法并确定相关参数。例如对于简单的球形簇结构数据K - 均值聚类可能是一个不错的选择对于具有复杂形状分布的数据DBSCAN 可能更合适。同时需要根据经验或通过一些实验方法确定参数值如 ( K - ) 均值聚类中的 ( K ) 值、DBSCAN 中的 ( \epsilon ) 和 ( MinPts )。执行聚类算法使用选定的聚类算法对预处理后的数据进行聚类操作得到数据的聚类结果即每个数据点所属的簇。聚类结果评估由于聚类分析是无监督学习没有真实的类别标签作为参考评估聚类结果相对较困难。常用的评估指标有轮廓系数、Calinski - Harabasz 指数等。轮廓系数综合考虑了簇内的紧凑性和簇间的分离性取值范围在 -1 到 1 之间越接近 1 表示聚类效果越好Calinski - Harabasz 指数越大表示聚类效果越好。通过评估结果可以判断聚类算法和参数的选择是否合适如有必要可以调整算法或参数重新进行聚类。结果分析与应用对聚类结果进行分析理解每个簇的特征和含义根据分析结果为实际问题提供决策支持。例如在市场细分中根据聚类结果了解不同客户群体的特点制定针对性的产品推广策略。时间序列分析定义与特点时间序列是按时间顺序排列的观测值序列时间序列分析就是对这些序列进行分析以揭示其随时间变化的规律并用于预测未来值。时间序列数据具有以下特点趋势性数据随时间呈现出长期的上升、下降或平稳趋势。例如随着科技进步和市场需求增长某电子产品的销售额可能逐年上升而某些传统制造业产品由于市场饱和或新兴替代品出现销售额可能逐渐下降。季节性数据在固定周期内呈现出有规律的波动。这种周期可以是一年如季节性商品的销售夏季泳衣销量高冬季羽绒服销量高、一个月如某些服务行业在月初和月末业务量不同或一周如周末商场客流量大于工作日等。周期性与季节性类似但周期不一定固定通常由经济、环境等复杂因素引起。例如经济周期可能导致企业盈利在若干年中呈现周期性变化。随机性数据中包含无法用趋势、季节性或周期性解释的随机波动这些波动由偶然因素造成。常用分析方法移动平均法通过计算一定时间窗口内数据的平均值来平滑数据消除随机波动凸显数据的趋势和季节性。简单移动平均SMA是取固定时间窗口内数据的算术平均值加权移动平均WMA则对不同时间的数据赋予不同权重近期数据权重较大以更好反映数据的最新变化。例如计算过去 3 个月的平均销售额来预测下个月销售额若采用加权移动平均可对最近一个月销售额赋予更高权重。指数平滑法是移动平均法的改进它对过去所有数据都给予一定权重且权重随时间呈指数衰减更强调近期数据的影响。简单指数平滑SES适用于没有明显趋势和季节性的数据霍尔特 - 温特Holt - Winters指数平滑法可处理具有趋势和季节性的数据分为加法模型适用于季节性波动幅度相对稳定情况和乘法模型适用于季节性波动幅度随时间变化情况。自回归积分滑动平均模型ARIMA用于对平稳时间序列进行建模和预测。它由自回归AR、积分I和滑动平均MA三部分组成。自回归部分考虑序列当前值与过去值的线性关系积分部分通过对序列进行差分使其平稳滑动平均部分考虑误差项的相关性。对于非平稳时间序列先通过差分等变换使其平稳再构建 ARIMA 模型。例如分析电力消耗时间序列可使用 ARIMA 模型预测未来电力需求。时间序列分析步骤数据收集与预处理收集相关时间序列数据并检查数据完整性处理缺失值可采用插值法、均值/中位数填充等和异常值如修正、删除或转换。同时根据数据频率如日、周、月等进行适当整理。平稳性检验判断时间序列是否平稳因为多数时间序列分析方法要求数据平稳。常用的检验方法有单位根检验如 Augmented Dickey - Fuller 检验简称 ADF 检验。若数据非平稳需进行差分处理直到序列平稳。模型识别与选择根据平稳性检验结果和数据特点选择合适模型。观察自相关函数ACF和偏自相关函数PACF图形确定 ARIMA 模型的参数 ( p )自回归阶数、( d )差分阶数、( q )滑动平均阶数。也可尝试不同模型和参数组合通过比较信息准则如 AIC、BIC值越小模型越好选择最优模型。模型估计与检验使用选定模型对数据进行参数估计并检验模型有效性。通过分析残差序列是否为白噪声即无自相关性和异方差性判断模型是否充分拟合数据。若残差不满足白噪声条件需调整模型。预测与评估利用估计好的模型进行预测并使用适当指标如均方误差 MSE、平均绝对误差 MAE、平均绝对百分比误差 MAPE 等评估预测准确性。根据评估结果可进一步优化模型或调整预测方法。例如通过 MAPE 评估预测的销售额与实际销售额的偏差程度若偏差较大需改进模型。以下为补充时间序列分析中一些其他常见内容季节性分解定义与目的季节性分解是将时间序列数据分解为趋势Trend、季节性Seasonal和残差Residual等成分的过程。目的在于清晰地了解时间序列中不同成分对数据变化的影响从而更好地分析数据规律、预测未来值。例如在分析每月的零售销售额数据时通过季节性分解可以明确销售额的长期增长趋势、季节性波动模式以及去除趋势和季节性后剩余的随机波动部分。常用方法加法模型假设时间序列 ( Y_t ) 可以表示为趋势成分 ( T_t )、季节性成分 ( S_t ) 和残差成分 ( e_t ) 的和即 ( Y_t T_t S_t e_t )。在加法模型中季节性波动的幅度不随时间变化而改变。例如某城市每月的公共交通客流量在不考虑其他因素时季节性波动可能相对稳定就适合用加法模型进行分解。乘法模型该模型认为时间序列 ( Y_t ) 是趋势成分 ( T_t )、季节性成分 ( S_t ) 和残差成分 ( e_t ) 的乘积即 ( Y_t T_t \times S_t \times e_t )。乘法模型适用于季节性波动幅度随时间变化的情况比如一些时尚产品的销售额随着市场规模扩大季节性的销售高峰和低谷的差距可能也会增大此时乘法模型更合适。分解步骤计算移动平均通过移动平均法计算时间序列的趋势成分。移动平均的时间窗口长度通常与季节性周期相同例如对于月度数据如果存在年度季节性窗口长度可设为12个月。移动平均的结果初步反映了数据的趋势但可能包含部分季节性和随机波动。分离季节性成分将原时间序列除以移动平均得到的趋势序列乘法模型或减去趋势序列加法模型从而分离出季节性成分。然后对季节性成分进行平均以消除随机波动得到更平滑的季节性模式。计算残差成分用原时间序列减去趋势成分和季节性成分加法模型或除以趋势成分和季节性成分乘法模型得到残差成分。残差成分反映了无法由趋势和季节性解释的随机波动。时间序列预测的其他模型与技术状态空间模型原理状态空间模型将时间序列视为由不可观测的状态变量和可观测的观测变量组成。通过建立状态方程和观测方程描述状态变量的动态变化以及状态变量与观测变量之间的关系。这种模型能够处理具有复杂动态结构的时间序列尤其适用于对隐藏状态进行估计和预测。应用场景在经济预测、信号处理、金融风险管理等领域有广泛应用。例如在宏观经济分析中状态空间模型可以用于估计经济的潜在增长率等不可直接观测的变量并进行经济预测。深度学习模型长短期记忆网络LSTM一种特殊的循环神经网络RNN能够有效处理时间序列中的长期依赖问题。LSTM 通过门控机制输入门、遗忘门和输出门控制信息的流动从而记住长时间的信息。在预测电力消耗、股票价格等复杂时间序列数据方面表现出色。门控循环单元GRU是 LSTM 的简化变体具有与 LSTM 类似的处理长期依赖的能力但结构相对简单计算效率更高。它也被广泛应用于时间序列预测任务如语音识别中的时间序列建模、电商销售预测等。组合预测方法将多种时间序列预测方法进行组合利用不同方法的优势来提高预测准确性。例如可以将移动平均法、指数平滑法和 ARIMA 模型的预测结果进行加权平均得到最终的预测值。权重的确定可以通过最小化预测误差等方法来实现。组合预测方法在面对复杂多变的时间序列数据时往往能够取得比单一方法更好的预测效果。在数据分析方法板块时间序列分析之后通常还会涉及其他方面以下为你补充常见的内容关联规则挖掘定义与原理关联规则挖掘旨在发现数据集中不同项之间的关联关系揭示哪些事物经常同时出现。其原理基于支持度Support、置信度Confidence和提升度Lift等指标。支持度表示项集在数据集中出现的频率即包含该项集的事务数与总事务数之比反映了项集的普遍程度。置信度是指在包含前项的事务中同时包含后项的比例衡量了规则的可靠性。提升度则是置信度与后项支持度的比值体现了前项对后项的提升作用大于1表示前项的出现对后项有促进作用。例如在超市购物篮数据中关联规则挖掘可能发现“购买啤酒的顾客中有80%也会购买尿布”这里“购买啤酒”是前项“购买尿布”是后项80%就是该规则的置信度。通过计算支持度、置信度和提升度等指标可以筛选出有价值的关联规则。常见算法Apriori算法是最经典的关联规则挖掘算法。它基于“频繁项集的所有非空子集也一定是频繁的”这一先验性质采用逐层搜索的迭代方法。首先找出所有的1 - 频繁项集单个项组成的频繁项集然后基于1 - 频繁项集生成2 - 频繁项集两个项组成的频繁项集依此类推直到不能生成新的频繁项集为止。最后从频繁项集中生成满足最小支持度和置信度的关联规则。FP - growth算法针对Apriori算法在生成候选集时计算量较大的问题而提出。它通过构建频繁模式树FP - tree来压缩数据在树结构上直接挖掘频繁项集避免了Apriori算法中大量候选集的生成过程大大提高了挖掘效率。尤其适用于大数据集的关联规则挖掘。应用场景市场营销用于制定营销策略如交叉销售和捆绑销售。通过发现顾客购买商品之间的关联关系商家可以将相关商品组合推荐给顾客提高销售额。例如发现购买手机的顾客常同时购买手机壳和充电器商家可推出手机配件套餐。医疗诊断辅助医生进行疾病诊断。通过分析患者的症状、检查结果等数据之间的关联发现潜在的疾病模式。例如某些症状与特定疾病之间的关联规则有助于医生更准确地判断病情。网络分析在网络流量分析、社交网络分析中挖掘节点之间的关联关系。例如在社交网络中发现哪些用户群体经常互动为精准营销、社区发现等提供依据。生存分析定义与概念生存分析是用于研究事件发生时间如产品的失效时间、疾病的复发时间、病人的生存时间等及其影响因素的一类统计方法。它不仅考虑事件是否发生还考虑事件发生所经历的时间。在生存分析中涉及几个重要概念生存时间从某个起始事件到目标事件发生所经历的时间。例如从患者确诊疾病到死亡的时间或从产品投入使用到出现故障的时间。删失数据在研究过程中由于某些原因部分个体的生存时间未能完整观测到。比如在研究某种药物疗效时一些患者在研究结束时仍存活其确切生存时间未知这种数据就是删失数据。删失分为右删失观测到个体在某时刻后仍存活、左删失只知道个体在某时刻前已经发生事件和区间删失只知道事件发生在某个时间区间内。生存函数记为 ( S(t) )表示个体生存时间大于 ( t ) 的概率反映了生存时间的分布情况。分析方法非参数方法不需要对生存时间的分布做出假设直接根据数据估计生存函数。常用的方法有Kaplan - Meier法通过对生存时间进行排序逐段计算生存概率从而绘制出生存曲线直观展示生存时间的分布情况。该方法常用于描述性分析比较不同组之间的生存情况。参数方法假设生存时间服从某种特定的概率分布如指数分布、威布尔分布等。通过估计分布参数来确定生存函数。例如当假设生存时间服从指数分布时可以通过极大似然估计等方法估计分布的参数进而得到生存函数。参数方法在已知或假设生存时间分布形式的情况下能更准确地进行预测和分析。半参数方法以Cox比例风险模型为代表该模型不假设生存时间的具体分布形式但考虑协变量影响生存时间的因素对生存时间的影响。它通过估计风险比例来分析协变量与生存时间之间的关系在医学、可靠性工程等领域广泛应用。例如在研究癌症患者生存时间时可将患者的年龄、性别、治疗方法等作为协变量通过Cox模型分析这些因素对生存时间的影响。应用领域医学研究评估药物疗效、比较不同治疗方案的优劣、分析影响患者生存的因素等。例如比较两种抗癌药物对患者生存时间的影响找出影响癌症患者预后的关键因素。可靠性工程研究产品的可靠性和寿命特征评估产品在不同条件下的失效时间为产品设计、维护和质量控制提供依据。例如分析电子元件在不同使用环境下的寿命优化产品的设计和生产工艺。社会学研究分析个体在社会现象中的持续时间如失业持续时间、婚姻持续时间等并研究影响这些时间的因素。例如研究影响员工在某公司工作时长的因素为企业人力资源管理提供参考。以下是一些数据分析方法相关的书籍、视频及博主教程资源书籍《深入浅出数据分析》适合入门以通俗简单的方式让读者对数据分析概念有全面了解能体会数据分析的思想逻辑和原则。《深入浅出统计学》号称“文科生也能看懂”讲解了数据分析中常见的统计学知识如基本统计量、概率分布等。《利用Python进行数据分析》经典的数据分析书籍介绍了pandas、Numpy、matplotlib等库可应对一般的数据分析任务。《数据科学实战》适合有一定数据分析基础的人是数据分析和机器学习之间的桥梁介绍了回归分析、k近邻等机器学习基本算法。视频教程国家高等教育智慧教育平台的数据分析课程课程包含数据统计分析方法、数据关联分析算法、线性模型分析方法等内容还介绍了SPSS等实训工具配有完整数据分析案例。B站数据分析天花板教程内容全面详细涵盖Excel操作、函数使用、数据透视表、数据分析流程、数据清洗、RFM分析模型、漏斗分析模型等还有SPSS和Tableau相关内容。Datawhale动手学数据分析以项目为主线通过Jupyter Notebook进行教学包括数据基础操作、数据清洗与重构、建模和评估等内容适合有一定Python基础的学习者。博主教程极客时间的陈旸老师专栏《数据分析实战45讲》。陈旸是清华大学计算机博士他会结合自己的学习体会和实践经验带你由浅入深掌握数据分析的核心知识点并且结合案例手把手教你从源头上认识数据分析熟悉对应的工具操作。