标签 大规模RL 下的文章

深度学习分布式训练的典型方法是基于异步随机优化,这样的方式往往以增加由异步带来的随机噪音为代价。与之相反,同步的方式常常被认为不实际,这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进,使深度学习算法可被高效的训练且性能得到提升。确切的说,缓和同步随机优化中拖后腿的方法是:只同步计算部分wokers的mini-batch梯度,其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。

- 阅读剩余部分 -

为了使单一参数的单个智能体能够解决大量任务,IMPALA作者们提出了重要性权重Actor-Learner架构,可见图1所示。若要智能体同时掌握各种各样的技能,面对最大的挑战是可扩展性,例如:A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练,更不敢想象一次掌握数十个领域了。

- 阅读剩余部分 -