Evan-wyl 发布的文章

DQN算法利用经验回放奖励样本之间的相关性,很大的提高了算法的性能。经验回放实际上是一个提高样本效率强有力的工具。文献[1]中作者们提出了ACER(Actor Critic with Experience Replay)算法实现了与DQN相似甚至更高的性能,也优越于A3C。同时,ACER算法应该是首个可以同时应用于连续动作空间和离散动作空间的算法,主要的创新点有:带有偏差纠正的裁剪重要性采样、随机Dueling网络架构、以及高效可信区域策略优化。

- 阅读剩余部分 -

在自然领域高速运动是很有挑战的,这是因为不同的领域需要机器人拥有不同的运动特性。若机器人尝试以更快的速度运行,那么领域变化对控制器性能的影响越来越大。解决这种问题一种可能的方式是设计精巧的模型和设计基于模型的控制器,即基于模型的控制(Model-Based Control, MBC)。然而,基于模型的控制器使机器人的行为和鲁棒性依赖于工程师的创新和大量时间的投入。同时,也需要设计控制尽可能简单以满足实时控制的要求。另外一种方式是基于完备的物理模型优化机器人动作,也即轨迹优化问题。由于完备物理模型的复杂性导致其几乎无法实时控制机器人。最后一种方法就是强化学习,这是一种基于学习的控制器,不需要精确的建模,智能体不断与环境交互使其自身累积奖励最大化,从而学习到鲁棒性较强的策略。

- 阅读剩余部分 -

深度学习分布式训练的典型方法是基于异步随机优化,这样的方式往往以增加由异步带来的随机噪音为代价。与之相反,同步的方式常常被认为不实际,这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进,使深度学习算法可被高效的训练且性能得到提升。确切的说,缓和同步随机优化中拖后腿的方法是:只同步计算部分wokers的mini-batch梯度,其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。

- 阅读剩余部分 -

现实世界中,强化学习算法面对的往往是稀疏奖励环境。在稀疏奖励环境中,对探索产生了很大的挑战。这是因为稀疏奖励函数使智能体无法有意义的区分不同策略之间的区别。对稀疏奖励函数问题,处理该问题常见的方法是利用专家演示数据提供状态空间中高奖励区域的初始信号。然而,之前基于演示的方式往往使算法本身变得很复杂,且增加了实施以及调节超参数的难度。文献[1]作者们另辟蹊径,提出了MCAC算法了,既没有过多的增加模型复杂性,也没有增加额外的超参数。

- 阅读剩余部分 -

对于基于策略梯度算法估计梯度,常用的减少方差的方法是$Q$函数与只依赖于状态的基线做差,得到优势函数。这种方式可以明显降低方差,且不引入偏差。文献[2],[3],[4],[5],[6]对基于基线的方法进行了扩展,把依赖于状态的基线变为依赖于状态-动作的基线,实验表明其性能超越只依赖状态的基线。为了理解基于状态-动作的基线降低方差的机制,文献[1]对这类基线进行了研究。同时,也提出了一些无偏差的方差降低方法。

- 阅读剩余部分 -

PPO相较于TRPO,不是利用KL-Divergence限制策略的更新幅度,而是直接clipping的方式。在PPO论文中表明直接clipping的方式使其性能超越TRPO。然而,Logan等人表明,不是clipping导致PPO算法性能优越,而是代码级的优化使其性能优越,这些代码级优化限制策略在可信区域更新。

- 阅读剩余部分 -