Python实战：用sklearn和matplotlib绘制决策树（附完整代码与图像解读）-尧图企业网站定制

Python实战用sklearn和matplotlib绘制决策树附完整代码与图像解读决策树是机器学习中最直观易懂的算法之一但很多人只停留在调用fit()和predict()的层面忽略了可视化这一强大工具。本文将手把手教你用Python绘制决策树并像专家一样解读其中的关键信息。无论你是刚入门的数据分析新手还是需要向非技术同事解释模型原理的从业者这些技能都能让你事半功倍。1. 环境准备与数据加载在开始绘制决策树前我们需要确保环境配置正确。推荐使用Python 3.8版本并安装以下库pip install scikit-learn matplotlib numpy pandas经典的鸢尾花数据集非常适合演示决策树。让我们先加载数据并查看特征from sklearn import datasets import pandas as pd iris datasets.load_iris() df pd.DataFrame(iris.data, columnsiris.feature_names) df[target] iris.target print(df.head())输出示例sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target 0 5.1 3.5 1.4 0.2 0 1 4.9 3.0 1.4 0.2 0 2 4.7 3.2 1.3 0.2 02. 构建与训练决策树模型决策树的超参数会直接影响可视化效果。我们先创建一个基础模型from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split( iris.data, iris.target, test_size0.2, random_state42) clf DecisionTreeClassifier( criteriongini, # 也可选entropy max_depth3, # 控制树深度 min_samples_split2, min_samples_leaf1 ) clf.fit(X_train, y_train)提示设置max_depth参数可以防止树过深这对可视化特别重要。实际项目中应该通过交叉验证确定最佳深度。3. 决策树可视化实战3.1 基础绘图方法sklearn.tree.plot_tree是最直接的绘制方法import matplotlib.pyplot as plt from sklearn import tree plt.figure(figsize(20,10)) tree.plot_tree( clf, filledTrue, # 填充颜色表示类别 feature_namesiris.feature_names, class_namesiris.target_names, roundedTrue, # 圆角节点更美观 proportionTrue # 显示样本比例而非绝对数 ) plt.savefig(decision_tree.png, dpi300, bbox_inchestight) plt.show()关键参数说明参数说明推荐值filled节点填充颜色Truefeature_names特征名称列表数据集特征名class_names类别名称目标变量名称max_depth显示的最大深度3-5fontsize文字大小10-123.2 高级美化技巧默认样式可能不够美观我们可以通过Matplotlib进行深度定制plt.figure(figsize(16,8)) ax plt.gca() tree.plot_tree(clf, axax, **plot_params) # 添加标题和调整样式 plt.title(鸢尾花分类决策树, fontsize14, pad20) ax.spines[top].set_visible(False) ax.spines[right].set_visible(False) plt.tight_layout()4. 决策树节点深度解读理解决策树可视化中的每个元素至关重要。以下是一个典型节点的解读示例[petal width (cm) 0.8] gini 0.667 samples 120 value [40, 40, 40]分裂条件petal width 0.8是最佳分割点gini系数当前节点的杂质程度0最纯0.5最混samples到达该节点的样本数value各类别样本分布常见节点类型对比节点类型特征示例分裂节点有分裂条件[feature value]叶节点无分裂条件gini 0.0深度节点颜色更深纯度更高5. 实战案例不同参数下的树结构对比通过对比不同参数下的树结构可以直观理解决策树的工作原理params [ {criterion: gini, max_depth: 2}, {criterion: entropy, max_depth: 3}, {min_samples_leaf: 10, max_depth: 4} ] fig, axes plt.subplots(1, 3, figsize(24, 8)) for ax, param in zip(axes, params): clf DecisionTreeClassifier(**param).fit(X_train, y_train) tree.plot_tree(clf, axax, filledTrue, feature_namesiris.feature_names) ax.set_title(fParams: {param}, fontsize10)从对比中可以观察到熵准则(entropy)产生的树通常更深min_samples_leaf增大会使树更简单深度限制(max_depth)会强制停止分裂6. 常见问题与解决方案问题1树太大无法完整显示解决方案调整max_depth参数或使用export_text输出文本格式from sklearn.tree import export_text print(export_text(clf, feature_namesiris.feature_names))问题2节点文字重叠解决方案调整图像大小或字体大小plt.figure(figsize(30,15)) tree.plot_tree(clf, fontsize10)问题3需要保存高清图像解决方案提高dpi并指定保存格式plt.savefig(tree.pdf, dpi600, formatpdf)7. 决策树可视化的进阶应用将决策树可视化集成到模型解释流程中import shap explainer shap.TreeExplainer(clf) shap_values explainer.shap_values(X_test) shap.summary_plot(shap_values, X_test, feature_namesiris.feature_names)这种组合方法可以通过决策树理解整体模型结构通过SHAP值分析单个预测识别最重要的特征在实际项目中我发现将决策树可视化与特征重要性分析结合能显著提升模型的可解释性。特别是在需要向业务部门解释模型决策过程时一张清晰的决策树图往往抵得上千言万语。

相关新闻

基于 YOLOv8 的灾难场景人员检测系统（中英文双版） | 附完整源码与效果演示

仅保留Task+Queue+Tick的最小RTOS内核，实测吞吐提升2.8倍——但99%人不知道它在ARMv8-M上会触发Privileged Fault（裁剪边界红线预警）

5个jsdom核心功能实战技巧：从测试困境到高效DOM模拟

地理位置获取技术全解析：Web、iOS、Android权限实现与最佳实践

企业级Agentic AI落地指南：从核心能力到本地验证

收到芯片停产通知不用人工核对替代型号，专业工具几秒匹配完成

MP2672A充电器IC与PIC18F4455微控制器的智能电池管理系统设计

阿里云国际站：云老大 Linux端口被占用网络不通？7步排查清单与解决思路

PIC微控制器驱动磁性蜂鸣器的硬件设计与实现

浏览器缓存行为深度解析：Chrome/Firefox/Safari 对 304 响应的 5 种触发场景对比

YesPlayMusic：如何用高颜值播放器重塑你的网易云音乐体验？[特殊字符]

3大革新方案：开源激活工具永久解锁IDM下载神器

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

工业4-20mA电流环信号传输与XTR116应用设计

TPAFE0808与PIC18F87K22的多通道信号采集方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原