High-Dimensional Continuous Control Using Generalized Advantage Estimation, 2015核心贡献:提出了一种通过指数加权来估计优势函数的通用方法,在策略梯度算法中有效平衡方差与偏差的权衡。通过在 MC (高方差低偏差)和 TD(低方差和高偏差) 之间引入λ\lambdaλ指数加权平均进行折中通过(γλ)l(\gamma \lambda)^l(
[2015] [GAE] [High-Dimensional Continuous Control Using Generalized Advantage Estimation]
High-Dimensional Continuous Control Using Generalized Advantage Estimation, 2015核心贡献:提出了一种通过指数加权来估计优势函数的通用方法,在策略梯度算法中有效平衡方差与偏差的权衡。通过在 MC (高方差低偏差)和 TD(低方差和高偏差) 之间引入λ\lambdaλ指数加权平均进行折中通过(γλ)l(\gamma \lambda)^l(