保姆级教程：用NumPy手搓一个逻辑回归，搞定西瓜书3.0α数据集分类-尧图企业网站定制

从零实现逻辑回归用NumPy解析西瓜数据集分类问题在机器学习入门阶段理解算法原理与代码实现之间的桥梁至关重要。本文将以周志华《机器学习》中的西瓜数据集3.0α为例带你用纯NumPy实现逻辑回归模型避开框架封装直击算法核心。不同于直接调用现成库我们将从数学公式出发逐步构建数据加载、模型定义、训练策略和结果可视化的完整流程特别适合希望深入理解机器学习底层原理的开发者。1. 数据准备与特征工程1.1 数据集解析与加载西瓜数据集3.0α包含17个样本每个样本有密度和含糖率两个特征以及好瓜1或坏瓜0的标签。我们先构建一个轻量级数据加载器import numpy as np import pandas as pd class SimpleDataLoader: def __init__(self, data, features, label): self.features data[features].values self.labels data[label].values.reshape(-1, 1) self._size len(data) def __len__(self): return self._size def __getitem__(self, idx): return self.features[idx], self.labels[idx]使用示例data pd.read_csv(watermelon_3.0a.csv) loader SimpleDataLoader(data, [密度, 含糖率], 好瓜)1.2 数据标准化处理逻辑回归对特征尺度敏感建议进行标准化def standardize(features): mean np.mean(features, axis0) std np.std(features, axis0) return (features - mean) / std standardized_features standardize(loader.features)2. 逻辑回归模型实现2.1 核心数学原理逻辑回归通过sigmoid函数将线性组合映射到(0,1)区间$$ \sigma(z) \frac{1}{1e^{-z}} \quad \text{其中} \quad z w^Tx b $$决策边界设为0.5$\sigma(z) \geq 0.5$ → 正类$\sigma(z) 0.5$ → 负类2.2 NumPy实现class LogisticRegression: def __init__(self, lr0.01): self.weights None self.lr lr def sigmoid(self, z): return 1 / (1 np.exp(-z)) def initialize_weights(self, n_features): self.weights np.zeros((n_features 1, 1)) # 1 for bias def forward(self, x): z np.dot(x, self.weights[:-1]) self.weights[-1] return self.sigmoid(z) def predict(self, x, threshold0.5): return (self.forward(x) threshold).astype(int)3. 训练策略与优化3.1 损失函数与梯度计算使用交叉熵损失函数$$ J(w,b) -\frac{1}{m}\sum_{i1}^m [y^{(i)}\log(h(x^{(i)})) (1-y^{(i)})\log(1-h(x^{(i)}))] $$梯度计算def compute_gradients(self, x, y, predictions): error predictions - y dw np.dot(x.T, error) / len(y) db np.sum(error) / len(y) return dw, db3.2 留一法交叉验证针对小数据集采用留一法确保数据利用率def loo_cross_validation(data, epochs100): accuracies [] for i in range(len(data)): train_data np.delete(data, i, axis0) test_sample data[i] model LogisticRegression() model.fit(train_data[:, :-1], train_data[:, -1], epochs) pred model.predict(test_sample[:-1]) accuracies.append(pred test_sample[-1]) return np.mean(accuracies)4. 结果可视化与分析4.1 决策边界绘制def plot_decision_boundary(model, X, y): x_min, x_max X[:, 0].min()-0.1, X[:, 0].max()0.1 y_min, y_max X[:, 1].min()-0.1, X[:, 1].max()0.1 xx, yy np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100)) Z model.predict(np.c_[xx.ravel(), yy.ravel()]) Z Z.reshape(xx.shape) plt.contourf(xx, yy, Z, alpha0.4) plt.scatter(X[:, 0], X[:, 1], cy, s20, edgecolork) plt.xlabel(密度标准化后) plt.ylabel(含糖率标准化后)4.2 训练过程监控记录每次迭代的损失变化epochs range(1, len(loss_history)1) plt.plot(epochs, loss_history, b-) plt.title(Training Loss) plt.xlabel(Epochs) plt.ylabel(Loss) plt.grid(True)5. 关键实现细节与优化技巧5.1 学习率选择策略不同学习率对收敛速度的影响学习率收敛速度稳定性适用场景0.1快低简单问题0.01中等高默认选择0.001慢很高精细调优推荐使用学习率衰减策略self.lr initial_lr * (1 / (1 decay_rate * epoch))5.2 权重初始化对比不同初始化方法效果差异零初始化简单但可能导致对称性问题随机初始化打破对称性推荐小范围随机值self.weights np.random.randn(n_features 1, 1) * 0.015.3 正则化处理添加L2正则化防止过拟合def compute_loss(self, x, y, lambda_0.01): predictions self.forward(x) loss -np.mean(y*np.log(predictions) (1-y)*np.log(1-predictions)) reg_loss lambda_ * np.sum(self.weights**2) / (2*len(y)) return loss reg_loss6. 完整代码整合与扩展将各模块组合成完整流程# 数据准备 data pd.read_csv(watermelon_3.0a.csv) X standardize(data[[密度, 含糖率]].values) y data[好瓜].values.reshape(-1, 1) # 模型训练 model LogisticRegression(lr0.1) model.fit(X, y, epochs500, verboseTrue) # 评估与可视化 print(f训练准确率: {model.evaluate(X, y):.2%}) plot_decision_boundary(model, X, y)扩展建议添加特征交叉项增强模型能力实现多分类逻辑回归加入早停机制防止过拟合尝试不同的优化算法如动量法在实际项目中当数据量超过500样本时建议改用SGD优化器加速训练。对于这个西瓜数据集经过50次迭代后模型通常能达到85%以上的准确率关键是要理解每个参数更新的数学含义而不仅仅是调用fit()方法。

相关新闻

技术深度解析：RePKG项目架构与Wallpaper Engine资源逆向工程实践

工业智能化的时序选型指南：当数据底座遇见机器学习

热江官方正版 - 安全下载渠道-新手小白攻略

Claude Code 常用操作指南：命令速查 + 上下文管理 + 高效工作流，中文开发者一站式参考

经纬度坐标获取太麻烦？这个免费在线地图工具我真后悔没早点发现！

SMUDebugTool：解锁AMD Ryzen底层硬件控制的专业级调试工具

算法复杂度：那些神秘符号背后的故事

推理服务为什么一上批量采样就开始输出不可复现：从 RNG State 到 Per-Request Stream 的工程实战

LizzieYzy：围棋AI分析工具的完全指南 [特殊字符]

【AI Daily】AI日报 | 2026-05-24

Go语言MongoDB文档数据库操作指南

【前端无障碍】无障碍测试：确保你的应用对所有人友好

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势