分布式RL：方法

作者: wyli

时间: 2025-03-19

232 次阅读

根据算法的on-policy和off-policy，理解RL的扩展。

Gorila：分布式DQN，每台机器均有一个局部环境、经验回放、价值学习，利用异步SGD更新一个中心化Q-learning
分布式DDPG：对DDPG利用分布式异步随机梯度
A3C：异步随机梯度下降更新中心actor，分布在CPU核数上
G-A3C：基于GPU和CPU的A3C
Ape-X：并行化actor收集数据，中心化的学习线程进行策略和价值函数学习。同时，算法融合了优先级经验回放、n-steps回报、和Double-Q learning
R2D2：Ape-X基础之上，把分布式经验回放应用到基于RNN的DQN智能体
PQL：不仅数据收集进行了并行化，而且价值函数和策略函数学习也实现了并行化。其中，算法为DDPG

总的来说，若算法为on-policy，那么数据收集与模型训练之间耦合关系可通过偏差纠正、同步数据收集、以及改变策略推理的方式；若算法为off-policy，那么并行化的灵活度更高。

引用方法

请参考：

li,wanye. "分布式RL：方法". wyli'Blog (Mar 2025). https://www.robotech.ink/index.php/archives/727.html

或BibTex方式引用：

@online{eaiStar-727, title={分布式RL：方法}, author={li,wanye}, year={2025}, month={Mar}, url="https://www.robotech.ink/index.php/archives/727.html" }