一、L2 范数是什么L2 范数就是向量的欧几里得长度直线距离∥x∥2x12x22⋯xn2\|\mathbf{x}\|_2 \sqrt{x_1^2 x_2^2 \cdots x_n^2}∥x∥2x12x22⋯xn2图解从原点到 (3, 4) 的距离12341234(3, 4)L2 √(916) 5横走 3竖走 4L2 5L1 7二、Lp 范数家族通用公式∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p\|\mathbf{x}\|_p \left( |x_1|^p |x_2|^p \cdots |x_n|^p \right)^{1/p}∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p范数p 值计算方式直觉L11Σ|xᵢ|沿街道走曼哈顿距离L22√(Σxᵢ²)直线飞过去欧几里得距离三、为什么范数要带绝对值图解正负抵消的问题0-100100x1 100x2 -100不加绝对值100 (-100) 0加绝对值|100| |-100| 200核心理解范数本质是衡量大小绝对值防止正负抵消。⚠️ 易错点计算 L1 范数时忘记加绝对值错误示范向量 (1, -2, 3) 的 L1 范数 1 (-2) 3 2 ❌正确计算向量 (1, -2, 3) 的 L1 范数 |1| |-2| |3| 1 2 3 6✓四、梯度裁剪Gradient Clipping4.1 梯度爆炸问题在 RNN 中反向传播经过多个时间步梯度会被反复相乘。如果每步乘以一个大于 1 的值梯度就会指数级增长——这就是梯度爆炸。4.2 解决方案用 L2 范数裁剪梯度if ‖ĝ‖ ≥ threshold: ĝ (threshold / ‖ĝ‖) × ĝ4.3 图解梯度裁剪的几何意义阈值圆 (threshold2)原点原始梯度 ||g||10裁剪后 ||g||2方向不变||g||1.5 2不裁剪保持不变裁剪规则:超出圆的 → 缩到圆上 | 圆内的 → 不动⚠️ 易错点以为所有梯度都会被裁剪错误理解梯度 L2 范数 1.5阈值 2 → 也会被裁剪 ❌正确理解1.5 2不进入 if 分支梯度保持不变 ✓五、L1 正则化 vs L2 正则化5.1 正则化是什么在 loss 函数中加一个惩罚项防止权重过大过拟合L原始lossλ⋅权重的惩罚L \text{原始loss} \lambda \cdot \text{权重的惩罚}L原始lossλ⋅权重的惩罚正则化类型惩罚项别名L1 正则化λΣ|wᵢ|LassoL2 正则化λΣwᵢ²Ridge / Weight Decay5.2 图解L1 vs L2 对权重分布的偏好A (0.5, 0.5, 0.5, 0.5)分散均匀0.50.50.50.5B (0, 0, 0, 2)集中在一个0002L1 惩罚 2L2 惩罚 1L1 惩罚 2L2 惩罚 4 ← 重罚!结论L1 对两者一视同仁都是2L2 重罚集中权重4 vs 1逼模型分散权重⚠️ 易错点混淆 L2 范数和 L2 正则项B (0, 0, 0, 2) 的L2范数 √(0004) √4 2L2正则项范数的平方 0004 4正则化用的是 Σwᵢ²平方和不是 √(Σwᵢ²)范数本身六、为什么梯度下降需要对正则项求导正则化写的是loss 函数但更新权重用的是梯度下降wneww−η⋅∂L∂ww_{\text{new}} w - \eta \cdot \frac{\partial L}{\partial w}wneww−η⋅∂w∂L所以必须对 loss包括正则项求导才能得到更新方向。正则项对 wᵢ 求导后的梯度说明λwᵢ²2λwᵢ幂函数求导(x²)’ 2xλ|wᵢ|λ · sign(wᵢ)绝对值求导正数→1负数→-1注有些教材把 L2 正则项写成 (λ/2)Σwᵢ²求导后 2 和 1/2 抵消梯度变为 λwᵢ。两种约定都对。七、手算对比L1 vs L2 更新权重设定两个权重w₁ 0.5w₂ 0.02原始 loss 的梯度 0只有正则项在推学习率 η 0.1正则化强度 λ 1L2 正则化更新梯度 2λwᵢ与权重大小成正比w₁: 梯度 2×1×0.5 1.0 → w₁_new 0.5 - 0.1×1.0 0.4 w₂: 梯度 2×1×0.02 0.04 → w₂_new 0.02 - 0.1×0.04 0.016L1 正则化更新梯度 λ × sign(wᵢ)固定大小与权重无关w₁: 梯度 1×sign(0.5) 1 → w₁_new 0.5 - 0.1×1 0.4 w₂: 梯度 1×sign(0.02) 1 → w₂_new 0.02 - 0.1×1 -0.08⚠️ 易错点把 L1 的梯度算成 λ×wᵢ跟 L2 搞混错误L1 对 w₂ 的梯度 1 × 0.02 0.02 ❌正确L1 对 w₂ 的梯度 1 × sign(0.02) 1 × 1 1✓sign() 只看正负号不看大小正数永远给 1负数永远给 -1。图解L1 vs L2 对小权重 w₂ 的不同命运w₂ 0.02 经过一步更新后的命运L2:00.02 (原值)0.016 (新值)推力0.04 (很小)L1:00.02-0.08 (穿过零!)推力1 (恒定!)穿过零 → 截断为 0L2: 推力与权重成正比越小推越轻 | L1: 推力恒定小权重直接被杀八、实际应用场景房价预测100 个特征中只有 ~10 个真正有用其余是噪声。图解训练后的权重分布训练后权重分布对比L2 正则化有用特征噪声(小但非0)100个权重全部非零所有特征都有点用全局音量旋钮L1 正则化000000有用特征噪声(全0)只剩 8-12 个非零权重自动选出重要特征自动特征选择器九、一句话总结L2 正则化 全局音量旋钮所有权重均匀缩小L1 正则化 自动特征选择器不重要的权重直接归零梯度裁剪 速度限制器梯度太大时等比缩小方向不变
深度学习进阶:自然语言处理|6.1.4 QA|L2 范数、梯度裁剪与 L1/L2 正则化详解
一、L2 范数是什么L2 范数就是向量的欧几里得长度直线距离∥x∥2x12x22⋯xn2\|\mathbf{x}\|_2 \sqrt{x_1^2 x_2^2 \cdots x_n^2}∥x∥2x12x22⋯xn2图解从原点到 (3, 4) 的距离12341234(3, 4)L2 √(916) 5横走 3竖走 4L2 5L1 7二、Lp 范数家族通用公式∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p\|\mathbf{x}\|_p \left( |x_1|^p |x_2|^p \cdots |x_n|^p \right)^{1/p}∥x∥p(∣x1∣p∣x2∣p⋯∣xn∣p)1/p范数p 值计算方式直觉L11Σ|xᵢ|沿街道走曼哈顿距离L22√(Σxᵢ²)直线飞过去欧几里得距离三、为什么范数要带绝对值图解正负抵消的问题0-100100x1 100x2 -100不加绝对值100 (-100) 0加绝对值|100| |-100| 200核心理解范数本质是衡量大小绝对值防止正负抵消。⚠️ 易错点计算 L1 范数时忘记加绝对值错误示范向量 (1, -2, 3) 的 L1 范数 1 (-2) 3 2 ❌正确计算向量 (1, -2, 3) 的 L1 范数 |1| |-2| |3| 1 2 3 6✓四、梯度裁剪Gradient Clipping4.1 梯度爆炸问题在 RNN 中反向传播经过多个时间步梯度会被反复相乘。如果每步乘以一个大于 1 的值梯度就会指数级增长——这就是梯度爆炸。4.2 解决方案用 L2 范数裁剪梯度if ‖ĝ‖ ≥ threshold: ĝ (threshold / ‖ĝ‖) × ĝ4.3 图解梯度裁剪的几何意义阈值圆 (threshold2)原点原始梯度 ||g||10裁剪后 ||g||2方向不变||g||1.5 2不裁剪保持不变裁剪规则:超出圆的 → 缩到圆上 | 圆内的 → 不动⚠️ 易错点以为所有梯度都会被裁剪错误理解梯度 L2 范数 1.5阈值 2 → 也会被裁剪 ❌正确理解1.5 2不进入 if 分支梯度保持不变 ✓五、L1 正则化 vs L2 正则化5.1 正则化是什么在 loss 函数中加一个惩罚项防止权重过大过拟合L原始lossλ⋅权重的惩罚L \text{原始loss} \lambda \cdot \text{权重的惩罚}L原始lossλ⋅权重的惩罚正则化类型惩罚项别名L1 正则化λΣ|wᵢ|LassoL2 正则化λΣwᵢ²Ridge / Weight Decay5.2 图解L1 vs L2 对权重分布的偏好A (0.5, 0.5, 0.5, 0.5)分散均匀0.50.50.50.5B (0, 0, 0, 2)集中在一个0002L1 惩罚 2L2 惩罚 1L1 惩罚 2L2 惩罚 4 ← 重罚!结论L1 对两者一视同仁都是2L2 重罚集中权重4 vs 1逼模型分散权重⚠️ 易错点混淆 L2 范数和 L2 正则项B (0, 0, 0, 2) 的L2范数 √(0004) √4 2L2正则项范数的平方 0004 4正则化用的是 Σwᵢ²平方和不是 √(Σwᵢ²)范数本身六、为什么梯度下降需要对正则项求导正则化写的是loss 函数但更新权重用的是梯度下降wneww−η⋅∂L∂ww_{\text{new}} w - \eta \cdot \frac{\partial L}{\partial w}wneww−η⋅∂w∂L所以必须对 loss包括正则项求导才能得到更新方向。正则项对 wᵢ 求导后的梯度说明λwᵢ²2λwᵢ幂函数求导(x²)’ 2xλ|wᵢ|λ · sign(wᵢ)绝对值求导正数→1负数→-1注有些教材把 L2 正则项写成 (λ/2)Σwᵢ²求导后 2 和 1/2 抵消梯度变为 λwᵢ。两种约定都对。七、手算对比L1 vs L2 更新权重设定两个权重w₁ 0.5w₂ 0.02原始 loss 的梯度 0只有正则项在推学习率 η 0.1正则化强度 λ 1L2 正则化更新梯度 2λwᵢ与权重大小成正比w₁: 梯度 2×1×0.5 1.0 → w₁_new 0.5 - 0.1×1.0 0.4 w₂: 梯度 2×1×0.02 0.04 → w₂_new 0.02 - 0.1×0.04 0.016L1 正则化更新梯度 λ × sign(wᵢ)固定大小与权重无关w₁: 梯度 1×sign(0.5) 1 → w₁_new 0.5 - 0.1×1 0.4 w₂: 梯度 1×sign(0.02) 1 → w₂_new 0.02 - 0.1×1 -0.08⚠️ 易错点把 L1 的梯度算成 λ×wᵢ跟 L2 搞混错误L1 对 w₂ 的梯度 1 × 0.02 0.02 ❌正确L1 对 w₂ 的梯度 1 × sign(0.02) 1 × 1 1✓sign() 只看正负号不看大小正数永远给 1负数永远给 -1。图解L1 vs L2 对小权重 w₂ 的不同命运w₂ 0.02 经过一步更新后的命运L2:00.02 (原值)0.016 (新值)推力0.04 (很小)L1:00.02-0.08 (穿过零!)推力1 (恒定!)穿过零 → 截断为 0L2: 推力与权重成正比越小推越轻 | L1: 推力恒定小权重直接被杀八、实际应用场景房价预测100 个特征中只有 ~10 个真正有用其余是噪声。图解训练后的权重分布训练后权重分布对比L2 正则化有用特征噪声(小但非0)100个权重全部非零所有特征都有点用全局音量旋钮L1 正则化000000有用特征噪声(全0)只剩 8-12 个非零权重自动选出重要特征自动特征选择器九、一句话总结L2 正则化 全局音量旋钮所有权重均匀缩小L1 正则化 自动特征选择器不重要的权重直接归零梯度裁剪 速度限制器梯度太大时等比缩小方向不变