6. 网络优化方法之 学习率 优化/衰减策略

6. 网络优化方法之 学习率 优化/衰减策略 1. 学习率优化如图学习率0.01时收敛速度很慢学习率0.1时收敛速度变快学习率越大 收敛速度越快学习率0.2 即学习率较大是会来回震荡学习率0.3 即学习率过大时会发生梯度爆炸即远远超出所在范围结论学习率越小梯度下降越慢学习率越大梯度下降越快可能会越过最小值造成震荡甚至不收敛(梯度爆炸)2. 学习率衰减方法 (衰减策略2.1 等间隔学习率衰减方法2.2 指定间隔学习率衰减方法2.3 指数间隔学习率衰减方法2.4 总结学习率衰减策略介绍:1️⃣ 目的:较之于AdaGradRMSPropAdam方式我们可以通过 等间隔指定间隔指数等方式来手动控制学习率的调整.2️⃣ 分类:等间隔学习率衰减指定间隔学习率衰减指数学习率衰减3️⃣ 等间隔学习率衰减:step_size:间隔的轮数即:多少轮调整一次学习率。gamma:学习率衰减系数即:Lr新Lr旧*gamma优点: 直观易于调试适用于大批量数据.缺点: 学习率变化较大可能跳过最优解.应用场景: 大型数据集较为简单的任务。4️⃣ 指定问隔学习率衰减:milestones [50, 125, 160] 里边定义的是要调整学习率的 轮数。gamma: 学习率衰减系数即:lr新 lr旧 * gamma优点:易于调试稳定训练过程.缺点: 在某些情况下可能衰减过快导致优化提前停滞.应用场景: 对训练平稳性要求较高的任务。5️⃣ 指数间隔学习率衰减:前期学习率衰减快中期慢后期更慢.更符合梯度下降规律公式:Lr新 Lr旧 * gamma ** epoch优点: 平滑且考虑历史更新收敛稳定性较强.缺点: 超参调节较为复杂可能需要更多的资源.应用场景: 高精度训练避免过快收敛.