从震荡到加速:随机梯度下降与动量变体的收敛之旅阅读地图:本文从“为什么优化器会走弯路”这一直觉出发,逐层剥开 SGD、Polyak 动量、Nesterov 加速梯度的内部机制。每节只解决一个认知疑点,全程使用 toy example 与可视化比喻。建议预留 20 分钟,按顺序阅读。1. 宏观视角:优化器在损失地形里到底在做什么?1.1 一个具体的困惑想象你站在一个山谷里,浓雾弥漫,你只能摸到脚边一小块地面的坡度。你的目标是走到最低点。每一步,你随机选一小块地面测量坡度,然后往下迈一步——这就是**随机梯度下降(SGD)**的日常。听起来简单对吧?但别急,真实地形往往是个“狭长的峡谷”:一个方向坡度极陡,另一个方向坡度极缓。如果我们画成俯视图,它大概长这样:
【人工智能核心技术详解】1 随机梯度下降与动量变体
从震荡到加速:随机梯度下降与动量变体的收敛之旅阅读地图:本文从“为什么优化器会走弯路”这一直觉出发,逐层剥开 SGD、Polyak 动量、Nesterov 加速梯度的内部机制。每节只解决一个认知疑点,全程使用 toy example 与可视化比喻。建议预留 20 分钟,按顺序阅读。1. 宏观视角:优化器在损失地形里到底在做什么?1.1 一个具体的困惑想象你站在一个山谷里,浓雾弥漫,你只能摸到脚边一小块地面的坡度。你的目标是走到最低点。每一步,你随机选一小块地面测量坡度,然后往下迈一步——这就是**随机梯度下降(SGD)**的日常。听起来简单对吧?但别急,真实地形往往是个“狭长的峡谷”:一个方向坡度极陡,另一个方向坡度极缓。如果我们画成俯视图,它大概长这样: