根据算法的on-policyoff-policy,理解RL的扩展。

Off-policy算法的并行化

  • Gorila:分布式DQN,每台机器均有一个局部环境、经验回放、价值学习,利用异步SGD更新一个中心化Q-learning

  • 分布式DDPG:对DDPG利用分布式异步随机梯度

  • A3C:异步随机梯度下降更新中心actor,分布在CPU核数上

  • G-A3C:基于GPUCPUA3C

  • Ape-X:并行化actor收集数据,中心化的学习线程进行策略和价值函数学习。同时,算法融合了优先级经验回放、n-steps回报、和Double-Q learning

  • R2D2Ape-X基础之上,把分布式经验回放应用到基于RNNDQN智能体

  • PQL:不仅数据收集进行了并行化,而且价值函数和策略函数学习也实现了并行化。其中,算法为DDPG

On-policy算法的并行化

  • IMPALA:引入了off-policy偏差纠正,用于缓和分布式on-policyactorlearner之间更新延时问题
  • SEED-RL:策略推理从actor移动到learner,提升了IMPALA的训练速度。

总结

总的来说,若算法为on-policy,那么数据收集与模型训练之间耦合关系可通过偏差纠正、同步数据收集、以及改变策略推理的方式;若算法为off-policy,那么并行化的灵活度更高。

标签: 大规模RL

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论