分布式RL:方法
根据算法的on-policy和off-policy,理解RL的扩展。
Off-policy算法的并行化
-
Gorila:分布式DQN,每台机器均有一个局部环境、经验回放、价值学习,利用异步SGD更新一个中心化Q-learning
-
分布式DDPG:对DDPG利用分布式异步随机梯度
-
A3C:异步随机梯度下降更新中心actor,分布在CPU核数上
-
G-A3C:基于GPU和CPU的A3C
-
Ape-X:并行化actor收集数据,中心化的学习线程进行策略和价值函数学习。同时,算法融合了优先级经验回放、n-steps回报、和Double-Q learning
-
R2D2:Ape-X基础之上,把分布式经验回放应用到基于RNN的DQN智能体
-
PQL:不仅数据收集进行了并行化,而且价值函数和策略函数学习也实现了并行化。其中,算法为DDPG
On-policy算法的并行化
- IMPALA:引入了off-policy偏差纠正,用于缓和分布式on-policy的actor与learner之间更新延时问题
- SEED-RL:策略推理从actor移动到learner,提升了IMPALA的训练速度。
总结
总的来说,若算法为on-policy,那么数据收集与模型训练之间耦合关系可通过偏差纠正、同步数据收集、以及改变策略推理的方式;若算法为off-policy,那么并行化的灵活度更高。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接