Continuous control with deep reinforcement learning 2015DDPG: Deep DPGDDPG = DPG + 神经网络近似 (思想来自DQN)DQN不能处理连续动作空间,因为要最大化 Q 函数在连续动作空间中,每一步都需要进行迭代优化过程,现实中计算太慢一种解决方法是对动作空间进行离散化e.g
[2015] [DDPG] Continuous control with deep reinforcement learning
Continuous control with deep reinforcement learning 2015DDPG: Deep DPGDDPG = DPG + 神经网络近似 (思想来自DQN)DQN不能处理连续动作空间,因为要最大化 Q 函数在连续动作空间中,每一步都需要进行迭代优化过程,现实中计算太慢一种解决方法是对动作空间进行离散化e.g