在Actor-Critic方法中处理函数近似误差
在DQN中,噪音引起的函数近似误差,从而导致价值估计的高估和只能学习到次优策略。TD3作者们,表明,高估偏差和时序差分的累积误差也存在于actor-critic范式。在离散动作场景中,Double DQN通过动作选择与动作价值估计的解耦合,从而降低Q函数高估的风险。然而,在actor-critic场景下,由于策略的缓慢更新,当前和目标价值估计太相似,以至于无法避免最大化偏差。因此,作者们独立训练了两个critics。同时,为了处理因独立训练两个critics,引起方差过大而导致高估的问题,提出了clipped Double Q-learning。