1. 准备前向传播结果在执行参数更新前需要先完成 LSTM 的前向传播得到各时间步的遗忘门输出、输入门输出、候选状态、输出门输出细胞状态、隐藏状态以及最终的损失值这些是反向传播求梯度的基础。2. 反向传播计算权重梯度从损失值出发根据链式法则反向计算四个门控权重的梯度遗忘门权重梯度∂L/∂Wf本实验中该梯度为 0输入门权重梯度∂L/∂Wi候选状态权重梯度∂L/∂Wc输出门权重梯度∂L/∂Wo3. 更新输入门权重 Wi采用梯度下降法更新输入门权重公式Wi_new Wi_old - 学习率 × ∂L/∂Wi学习率取 0.01更新后输入门权重在原基础上小幅调整朝着降低损失的方向优化4. 更新候选状态权重 Wc同理更新候选状态权重公式Wc_new Wc_old - 学习率 × ∂L/∂Wc由于本次实验中梯度为负值更新后的权重会在原基础上小幅上升5. 更新输出门权重 Wo最后更新输出门权重公式Wo_new Wo_old - 学习率 × ∂L/∂Wo至此完成了 LSTM 网络一轮完整的前向传播、反向传播与参数更新过程。
EXCEL文件展示LSTM计算
1. 准备前向传播结果在执行参数更新前需要先完成 LSTM 的前向传播得到各时间步的遗忘门输出、输入门输出、候选状态、输出门输出细胞状态、隐藏状态以及最终的损失值这些是反向传播求梯度的基础。2. 反向传播计算权重梯度从损失值出发根据链式法则反向计算四个门控权重的梯度遗忘门权重梯度∂L/∂Wf本实验中该梯度为 0输入门权重梯度∂L/∂Wi候选状态权重梯度∂L/∂Wc输出门权重梯度∂L/∂Wo3. 更新输入门权重 Wi采用梯度下降法更新输入门权重公式Wi_new Wi_old - 学习率 × ∂L/∂Wi学习率取 0.01更新后输入门权重在原基础上小幅调整朝着降低损失的方向优化4. 更新候选状态权重 Wc同理更新候选状态权重公式Wc_new Wc_old - 学习率 × ∂L/∂Wc由于本次实验中梯度为负值更新后的权重会在原基础上小幅上升5. 更新输出门权重 Wo最后更新输出门权重公式Wo_new Wo_old - 学习率 × ∂L/∂Wo至此完成了 LSTM 网络一轮完整的前向传播、反向传播与参数更新过程。