一、Bagging思想典型代表随机森林1.1Bagging通俗理解集思广益原理案例如果只使用单一模型那么这个模型频繁使用一定会有误差。如果使用多个单一模型假如现在我们规定baseline为5.0A_modelbisa1B_modelbisa-1那么这两个模型相加求平均bias会发现稳定了这表明使用多个模型平权投票表现比单一模型更稳定。由此可以推出Bagging思想消除噪声bagging原理图示1.2随机森林基座决策树解决方向分类|回归 问题基础概念熵混乱程度越大熵越大信息增益按某个特征划分数据集划分好以后约规整那么信息增益越大。比如按照身份证划分每一个人的数据集划分以后熵直接变成0.那么此时信息增益最大。但是这个特征毫无意义因为对于训练集来说他确实可以精准识别但是新来一个人那他就完全没有办法识别这就是过拟合。这也引出了信息增益率的概念。信息增益率对取值特别多的特征进行惩罚值越多信息增益率越小。基尼系数类似于熵的概念也是衡量混乱程度取值范围是0~0.5。熵的取值范围是0~1或者更大。单模型训练场景优点如果单个模型的性能比较好他基于某一个属性达到了一个很好的分类缺点每次重复模型严重依赖某一属性随机森林概念拆解随机样本随机抽取并放回样本分布差异化属性随机属性划分差异性a_tree:年龄、职业、收入 b_tree:消费金额、还款记录、卡级别随机优势特征多元化鲁棒性更强森林多个模型一起决策随机森林原理图示二、停用词作用非核心词意义很小比如连词语气词等剔除停用词步骤分词jieba剔除停用词作用是减少词表的长度和减少一句话分词以后的有效长度垂直领域针对专业领域有专业词汇词表三、tf-idf背景基于词之间的独立性|无关联性基础算法one-hot基于词出现的索引出现就为1得到一个非常稀疏的向量bag-of-word基于词频也是得到一个非常稀疏的向量但是出现词频不能表明这个词很有意义比如连词和语气词有很多但是意义不大所以要引出代表性的概念。tf-idf融合了词频和词的重要程度tf词频越大越好idf逆文档频率越小越好四、混淆矩阵精确率Precision精确率表示模型预测为正例的样本中真正为正例的比例反映模型预测正例的准确性。其计算公式为准确率Accuracy准确率是模型预测正确的样本占总样本的比例计算公式为召回率Recall召回率也称灵敏度、真正例率指实际为正例的样本中被模型正确预测为正例的比例用于衡量模型对正例的识别能力。其计算公式为F1 值F1 值是精确率和召回率的调和平均数综合反映模型性能。当精确率和召回率都高时F1 值才会高。其计算公式为F1 值的引入是为了平衡精确率和召回率这两个指标。因为在实际应用中精确率和召回率往往是相互制约的关系。
算法思想(一)
一、Bagging思想典型代表随机森林1.1Bagging通俗理解集思广益原理案例如果只使用单一模型那么这个模型频繁使用一定会有误差。如果使用多个单一模型假如现在我们规定baseline为5.0A_modelbisa1B_modelbisa-1那么这两个模型相加求平均bias会发现稳定了这表明使用多个模型平权投票表现比单一模型更稳定。由此可以推出Bagging思想消除噪声bagging原理图示1.2随机森林基座决策树解决方向分类|回归 问题基础概念熵混乱程度越大熵越大信息增益按某个特征划分数据集划分好以后约规整那么信息增益越大。比如按照身份证划分每一个人的数据集划分以后熵直接变成0.那么此时信息增益最大。但是这个特征毫无意义因为对于训练集来说他确实可以精准识别但是新来一个人那他就完全没有办法识别这就是过拟合。这也引出了信息增益率的概念。信息增益率对取值特别多的特征进行惩罚值越多信息增益率越小。基尼系数类似于熵的概念也是衡量混乱程度取值范围是0~0.5。熵的取值范围是0~1或者更大。单模型训练场景优点如果单个模型的性能比较好他基于某一个属性达到了一个很好的分类缺点每次重复模型严重依赖某一属性随机森林概念拆解随机样本随机抽取并放回样本分布差异化属性随机属性划分差异性a_tree:年龄、职业、收入 b_tree:消费金额、还款记录、卡级别随机优势特征多元化鲁棒性更强森林多个模型一起决策随机森林原理图示二、停用词作用非核心词意义很小比如连词语气词等剔除停用词步骤分词jieba剔除停用词作用是减少词表的长度和减少一句话分词以后的有效长度垂直领域针对专业领域有专业词汇词表三、tf-idf背景基于词之间的独立性|无关联性基础算法one-hot基于词出现的索引出现就为1得到一个非常稀疏的向量bag-of-word基于词频也是得到一个非常稀疏的向量但是出现词频不能表明这个词很有意义比如连词和语气词有很多但是意义不大所以要引出代表性的概念。tf-idf融合了词频和词的重要程度tf词频越大越好idf逆文档频率越小越好四、混淆矩阵精确率Precision精确率表示模型预测为正例的样本中真正为正例的比例反映模型预测正例的准确性。其计算公式为准确率Accuracy准确率是模型预测正确的样本占总样本的比例计算公式为召回率Recall召回率也称灵敏度、真正例率指实际为正例的样本中被模型正确预测为正例的比例用于衡量模型对正例的识别能力。其计算公式为F1 值F1 值是精确率和召回率的调和平均数综合反映模型性能。当精确率和召回率都高时F1 值才会高。其计算公式为F1 值的引入是为了平衡精确率和召回率这两个指标。因为在实际应用中精确率和召回率往往是相互制约的关系。