ACER:基于经验回放的样本高效的Actor-Critic算法
DQN算法利用经验回放奖励样本之间的相关性,很大的提高了算法的性能。经验回放实际上是一个提高样本效率强有力的工具。文献[1]中作者们提出了ACER(Actor Critic with Experience Replay)算法实现了与DQN相似甚至更高的性能,也优越于A3C。同时,ACER算法应该是首个可以同时应用于连续动作空间和离散动作空间的算法,主要的创新点有:带有偏差纠正的裁剪重要性采样、随机Dueling网络架构、以及高效可信区域策略优化。