深度学习进阶：自然语言处理｜6.1.4 QA｜L2 范数、梯度裁剪与 L1/L2 正则化详解-尧图企业网站定制

一、L2 范数是什么L2 范数就是向量的欧几里得长度直线距离∥x∥2x12x22⋯xn2\|\mathbf{x}\|_2 \sqrt{x_1^2 x_2^2 \cdots x_n^2}∥x∥2x12x22⋯xn2图解从原点到 (3, 4) 的距离12341234(3, 4)L2 √(916) 5横走 3竖走 4L2 5L1 7二、Lp 范数家族通用公式∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p\|\mathbf{x}\|_p \left( |x_1|^p |x_2|^p \cdots |x_n|^p \right)^{1/p}∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p范数p 值计算方式直觉L11Σ|xᵢ|沿街道走曼哈顿距离L22√(Σxᵢ²)直线飞过去欧几里得距离三、为什么范数要带绝对值图解正负抵消的问题0-100100x1 100x2 -100不加绝对值100 (-100) 0加绝对值|100| |-100| 200核心理解范数本质是衡量大小绝对值防止正负抵消。⚠️ 易错点计算 L1 范数时忘记加绝对值错误示范向量 (1, -2, 3) 的 L1 范数 1 (-2) 3 2 ❌正确计算向量 (1, -2, 3) 的 L1 范数 |1| |-2| |3| 1 2 3 6✓四、梯度裁剪Gradient Clipping4.1 梯度爆炸问题在 RNN 中反向传播经过多个时间步梯度会被反复相乘。如果每步乘以一个大于 1 的值梯度就会指数级增长——这就是梯度爆炸。4.2 解决方案用 L2 范数裁剪梯度if ‖ĝ‖ ≥ threshold: ĝ (threshold / ‖ĝ‖) × ĝ4.3 图解梯度裁剪的几何意义阈值圆 (threshold2)原点原始梯度 ||g||10裁剪后 ||g||2方向不变||g||1.5 2不裁剪保持不变裁剪规则:超出圆的 → 缩到圆上 | 圆内的 → 不动⚠️ 易错点以为所有梯度都会被裁剪错误理解梯度 L2 范数 1.5阈值 2 → 也会被裁剪 ❌正确理解1.5 2不进入 if 分支梯度保持不变 ✓五、L1 正则化 vs L2 正则化5.1 正则化是什么在 loss 函数中加一个惩罚项防止权重过大过拟合L原始lossλ⋅权重的惩罚L \text{原始loss} \lambda \cdot \text{权重的惩罚}L原始lossλ⋅权重的惩罚正则化类型惩罚项别名L1 正则化λΣ|wᵢ|LassoL2 正则化λΣwᵢ²Ridge / Weight Decay5.2 图解L1 vs L2 对权重分布的偏好A (0.5, 0.5, 0.5, 0.5)分散均匀0.50.50.50.5B (0, 0, 0, 2)集中在一个0002L1 惩罚 2L2 惩罚 1L1 惩罚 2L2 惩罚 4 ← 重罚!结论L1 对两者一视同仁都是2L2 重罚集中权重4 vs 1逼模型分散权重⚠️ 易错点混淆 L2 范数和 L2 正则项B (0, 0, 0, 2) 的L2范数 √(0004) √4 2L2正则项范数的平方 0004 4正则化用的是 Σwᵢ²平方和不是 √(Σwᵢ²)范数本身六、为什么梯度下降需要对正则项求导正则化写的是loss 函数但更新权重用的是梯度下降wneww−η⋅∂L∂ww_{\text{new}} w - \eta \cdot \frac{\partial L}{\partial w}wneww−η⋅∂w∂L所以必须对 loss包括正则项求导才能得到更新方向。正则项对 wᵢ 求导后的梯度说明λwᵢ²2λwᵢ幂函数求导(x²)’ 2xλ|wᵢ|λ · sign(wᵢ)绝对值求导正数→1负数→-1注有些教材把 L2 正则项写成 (λ/2)Σwᵢ²求导后 2 和 1/2 抵消梯度变为 λwᵢ。两种约定都对。七、手算对比L1 vs L2 更新权重设定两个权重w₁ 0.5w₂ 0.02原始 loss 的梯度 0只有正则项在推学习率 η 0.1正则化强度 λ 1L2 正则化更新梯度 2λwᵢ与权重大小成正比w₁: 梯度 2×1×0.5 1.0 → w₁_new 0.5 - 0.1×1.0 0.4 w₂: 梯度 2×1×0.02 0.04 → w₂_new 0.02 - 0.1×0.04 0.016L1 正则化更新梯度 λ × sign(wᵢ)固定大小与权重无关w₁: 梯度 1×sign(0.5) 1 → w₁_new 0.5 - 0.1×1 0.4 w₂: 梯度 1×sign(0.02) 1 → w₂_new 0.02 - 0.1×1 -0.08⚠️ 易错点把 L1 的梯度算成 λ×wᵢ跟 L2 搞混错误L1 对 w₂ 的梯度 1 × 0.02 0.02 ❌正确L1 对 w₂ 的梯度 1 × sign(0.02) 1 × 1 1✓sign() 只看正负号不看大小正数永远给 1负数永远给 -1。图解L1 vs L2 对小权重 w₂ 的不同命运w₂ 0.02 经过一步更新后的命运L2:00.02 (原值)0.016 (新值)推力0.04 (很小)L1:00.02-0.08 (穿过零!)推力1 (恒定!)穿过零 → 截断为 0L2: 推力与权重成正比越小推越轻 | L1: 推力恒定小权重直接被杀八、实际应用场景房价预测100 个特征中只有 ~10 个真正有用其余是噪声。图解训练后的权重分布训练后权重分布对比L2 正则化有用特征噪声(小但非0)100个权重全部非零所有特征都有点用全局音量旋钮L1 正则化000000有用特征噪声(全0)只剩 8-12 个非零权重自动选出重要特征自动特征选择器九、一句话总结L2 正则化全局音量旋钮所有权重均匀缩小L1 正则化自动特征选择器不重要的权重直接归零梯度裁剪速度限制器梯度太大时等比缩小方向不变

相关新闻

别再只仿真了！用100个三极管在面包板上还原4位加法器，我总结了这些避坑指南

模型迁移的“翻译官”——AMCT异构计算管理实战与自定义算子解决方案

北斗导航“指路”申通西安转运中心让特产寄递跑出“加速度”

避坑指南：KDL库LM逆解算法参数调优实战（lambda, eps, maxiter怎么设？）

从‘骨架跃迁’到‘靶点预测’：药效团模型在AI制药时代还能怎么玩？

17款AI工具重塑开发工作流：从编码到运维的智能生产力革命

MCB900编程适配器使用指南与LPC微控制器开发技巧

如何永久保存微信聊天记录？WeChatMsg开源工具提供完整解决方案

用SpringBoot+Vue仿写一个宠物医院系统，我踩过的这些坑你一定要避开

Linux 组调度核心原理：task_group 的层次化公平调度

从关键词到语义网络：生成式引擎优化（GEO）的技术原理解析与工程实践

从命令行到采购单：手把手教你用Linux命令(dmidecode)生成服务器内存升级报告

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势