分类 Actor-Critic 下的文章

在DQN中,噪音引起的函数近似误差,从而导致价值估计的高估和只能学习到次优策略。TD3作者们,表明,高估偏差和时序差分的累积误差也存在于actor-critic范式。在离散动作场景中,Double DQN通过动作选择与动作价值估计的解耦合,从而降低Q函数高估的风险。然而,在actor-critic场景下,由于策略的缓慢更新,当前和目标价值估计太相似,以至于无法避免最大化偏差。因此,作者们独立训练了两个critics。同时,为了处理因独立训练两个critics,引起方差过大而导致高估的问题,提出了clipped Double Q-learning。

- 阅读剩余部分 -

对于Actor-Critic算法,主要是on-policy,因此样本效率较低。同时,off-policy与深度神经网络结合往往会导致训练的不稳定。根据soft Q-learning,可知,最大化熵能够提升RL的探索和鲁棒性,即最大化熵策略能够对模型的误差和估计误差更具有鲁棒性,且通过获取多样的行为提升探索。SAC作者们设计了一个off-policy的最大化熵actor-critic算法,拥有样本高效学习和稳定训练的特性,可用于连续状态和动作空间。

- 阅读剩余部分 -

DQN算法利用经验回放奖励样本之间的相关性,很大的提高了算法的性能。经验回放实际上是一个提高样本效率强有力的工具。文献[1]中作者们提出了ACER(Actor Critic with Experience Replay)算法实现了与DQN相似甚至更高的性能,也优越于A3C。同时,ACER算法应该是首个可以同时应用于连续动作空间和离散动作空间的算法,主要的创新点有:带有偏差纠正的裁剪重要性采样、随机Dueling网络架构、以及高效可信区域策略优化。

- 阅读剩余部分 -

现实世界中,强化学习算法面对的往往是稀疏奖励环境。在稀疏奖励环境中,对探索产生了很大的挑战。这是因为稀疏奖励函数使智能体无法有意义的区分不同策略之间的区别。对稀疏奖励函数问题,处理该问题常见的方法是利用专家演示数据提供状态空间中高奖励区域的初始信号。然而,之前基于演示的方式往往使算法本身变得很复杂,且增加了实施以及调节超参数的难度。文献[1]作者们另辟蹊径,提出了MCAC算法了,既没有过多的增加模型复杂性,也没有增加额外的超参数。

- 阅读剩余部分 -

对于基于策略梯度算法估计梯度,常用的减少方差的方法是$Q$函数与只依赖于状态的基线做差,得到优势函数。这种方式可以明显降低方差,且不引入偏差。文献[2],[3],[4],[5],[6]对基于基线的方法进行了扩展,把依赖于状态的基线变为依赖于状态-动作的基线,实验表明其性能超越只依赖状态的基线。为了理解基于状态-动作的基线降低方差的机制,文献[1]对这类基线进行了研究。同时,也提出了一些无偏差的方差降低方法。

- 阅读剩余部分 -