算法思想（一）-尧图企业网站定制

一、Bagging思想典型代表随机森林1.1Bagging通俗理解集思广益原理案例如果只使用单一模型那么这个模型频繁使用一定会有误差。如果使用多个单一模型假如现在我们规定baseline为5.0A_modelbisa1B_modelbisa-1那么这两个模型相加求平均bias会发现稳定了这表明使用多个模型平权投票表现比单一模型更稳定。由此可以推出Bagging思想消除噪声bagging原理图示1.2随机森林基座决策树解决方向分类|回归问题基础概念熵混乱程度越大熵越大信息增益按某个特征划分数据集划分好以后约规整那么信息增益越大。比如按照身份证划分每一个人的数据集划分以后熵直接变成0.那么此时信息增益最大。但是这个特征毫无意义因为对于训练集来说他确实可以精准识别但是新来一个人那他就完全没有办法识别这就是过拟合。这也引出了信息增益率的概念。信息增益率对取值特别多的特征进行惩罚值越多信息增益率越小。基尼系数类似于熵的概念也是衡量混乱程度取值范围是0~0.5。熵的取值范围是0~1或者更大。单模型训练场景优点如果单个模型的性能比较好他基于某一个属性达到了一个很好的分类缺点每次重复模型严重依赖某一属性随机森林概念拆解随机样本随机抽取并放回样本分布差异化属性随机属性划分差异性a_tree:年龄、职业、收入 b_tree:消费金额、还款记录、卡级别随机优势特征多元化鲁棒性更强森林多个模型一起决策随机森林原理图示二、停用词作用非核心词意义很小比如连词语气词等剔除停用词步骤分词jieba剔除停用词作用是减少词表的长度和减少一句话分词以后的有效长度垂直领域针对专业领域有专业词汇词表三、tf-idf背景基于词之间的独立性|无关联性基础算法one-hot基于词出现的索引出现就为1得到一个非常稀疏的向量bag-of-word基于词频也是得到一个非常稀疏的向量但是出现词频不能表明这个词很有意义比如连词和语气词有很多但是意义不大所以要引出代表性的概念。tf-idf融合了词频和词的重要程度tf词频越大越好idf逆文档频率越小越好四、混淆矩阵精确率Precision精确率表示模型预测为正例的样本中真正为正例的比例反映模型预测正例的准确性。其计算公式为准确率Accuracy准确率是模型预测正确的样本占总样本的比例计算公式为召回率Recall召回率也称灵敏度、真正例率指实际为正例的样本中被模型正确预测为正例的比例用于衡量模型对正例的识别能力。其计算公式为F1 值F1 值是精确率和召回率的调和平均数综合反映模型性能。当精确率和召回率都高时F1 值才会高。其计算公式为F1 值的引入是为了平衡精确率和召回率这两个指标。因为在实际应用中精确率和召回率往往是相互制约的关系。

相关新闻

避开校园网限制：用闲置笔记本搭建frp内网穿透服务器（RDP端口转发实测）

Nanbeige 4.1-3B保姆级教程：从HuggingFace加载模型到Streamlit前端上线

Activiti6整合达梦数据库实战：从源码修改到SQL适配全流程

【UniApp小程序知识点总结】使用 UniHelper 声明事件类型

闲谈《道德经》005｜去私守中

Node.js Worker Threads 实战：CPU 密集型任务的线程池设计与性能对比

3分钟解锁LyricsX：macOS歌词同步的终极解决方案

Ext2Read技术解析：Windows平台下Linux文件系统透明访问的架构设计与实现

SpringCloud + React19 集成Scalar的API文档

A股股指期货：全维度解析（多表格结构化完整版）

ByteHouse：云原生数据仓库的架构解析与最佳实践

校园服饰细分赛道测算程序，学生平价国风，机能穿搭市场规模预估。

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

工业4-20mA电流环信号传输与XTR116应用设计

TPAFE0808与PIC18F87K22的多通道信号采集方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原