机器学习——聚类评价指标SSE、SC、CH演示案例-尧图企业网站定制

一.评价指标简介SSE考虑了簇内因素SSE越越小越好SSE肘部法常用来确定聚类的最佳K值SC轮廓系数法考虑了簇内和簇间因素数值越大越好CH考虑簇内簇间以及K值因素数值越大越好二.代码部分详解1.SSE肘部法#1.演示SSE肘部法 def dm01_SSE(): #1.定义sse列表记录每个k值的SSE值 sse_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sse值并添加到sse_list 列表中 for k in range(1,100): #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 #3.4获取到每个簇的sse值 sse_value estimator.inertia_ #3.5将每个K值对应的sse添加到sse_list中 sse_list.append(sse_value) #绘制SSE曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(SSE) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(SSE) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sse值 plt.plot(range(1, 100), sse_list) plt.show()2.SC#2.演示SC轮廓系数法 def dm02_SC(): #1.定义sc列表记录每个k值的sc值 sc_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sc值并添加到sc_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的sc值 sc_value silhouette_score(x, y_pred) #3.5将每个K值对应的sc添加到sc_list中 sc_list.append(sc_value) #绘制sc曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(sc) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(sc) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sc值 plt.plot(range(2, 100), sc_list) plt.show()3.CH#3.演示CH轮廓系数法 def dm03_ch(): #1.定义ch列表记录每个k值的ch值 ch_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的ch值并添加到ch_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的ch值 ch_value calinski_harabasz_score(x, y_pred) #3.5将每个K值对应的ch添加到ch_list中 ch_list.append(ch_value) #绘制ch曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(ch) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(ch) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的ch值 plt.plot(range(2, 100), ch_list) plt.show()4.完整代码 SSE:只考虑簇内部值越小越好 SC:考虑了簇内和簇间值越大越好 CH考虑了簇内簇间以及K值值越大越好 #导包 from sklearn.cluster import KMeans import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from sklearn.metrics import calinski_harabasz_score, silhouette_score import matplotlib matplotlib.use(TkAgg) # 解决后端错误 #1.演示SSE肘部法 def dm01_SSE(): #1.定义sse列表记录每个k值的SSE值 sse_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sse值并添加到sse_list 列表中 for k in range(1,100): #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 #3.4获取到每个簇的sse值 sse_value estimator.inertia_ #3.5将每个K值对应的sse添加到sse_list中 sse_list.append(sse_value) #绘制SSE曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(SSE) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(SSE) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sse值 plt.plot(range(1, 100), sse_list) plt.show() #2.演示SC轮廓系数法 def dm02_SC(): #1.定义sc列表记录每个k值的sc值 sc_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sc值并添加到sc_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的sc值 sc_value silhouette_score(x, y_pred) #3.5将每个K值对应的sc添加到sc_list中 sc_list.append(sc_value) #绘制sc曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(sc) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(sc) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sc值 plt.plot(range(2, 100), sc_list) plt.show() #3.演示CH轮廓系数法 def dm03_ch(): #1.定义ch列表记录每个k值的ch值 ch_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的ch值并添加到ch_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的ch值 ch_value calinski_harabasz_score(x, y_pred) #3.5将每个K值对应的ch添加到ch_list中 ch_list.append(ch_value) #绘制ch曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(ch) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(ch) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的ch值 plt.plot(range(2, 100), ch_list) plt.show() #4.测试 if __name__ __main__: #dm01_SSE() #dm02_SC() dm03_ch()三.总结加强了对于对于聚类算法评价指标的练习。

相关新闻

将 Taotoken 作为统一网关降低多模型调用复杂度

Foobar2000逐字歌词终极解决方案：ESLyric-LyricsSource完全指南

AI写论文不用愁！4款AI论文生成工具，轻松开启论文写作之旅！

Android换肤性能优化：Colorful库高效使用技巧

HarmonyOS CharUtil 字符检测工具：10 个方法全面解析字符类型

Claude Desktop for Linux版本升级指南：平滑迁移与回滚策略

Node.js API中文文档：终极Node.js开发指南与完整API参考

Python数据分析入门 - BV1xX4y1Z7Y8

3步搞定系统镜像烧录：Balena Etcher终极安全指南

P vs NP：西方哲学 × 西方计算理论 —— 人类思维的终极边界

霍奇猜想：哲学 × 数学 思维范式全链条

ASP Folder：深入解析ASP文件夹的结构与功能

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

霍奇猜想：哲学 × 数学思维范式全链条