标签大规模RL 下的文章

作者: wyli

时间: 2024-02-03

877 次阅读

2 条评论

深度学习分布式训练的典型方法是基于异步随机优化，这样的方式往往以增加由异步带来的随机噪音为代价。与之相反，同步的方式常常被认为不实际，这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进，使深度学习算法可被高效的训练且性能得到提升。确切的说，缓和同步随机优化中拖后腿的方法是：只同步计算部分wokers的mini-batch梯度，其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。

- 阅读剩余部分 -

IMPALA：分布式RL框架

作者: wyli

时间: 2024-01-18

分类: 强化学习

518 次阅读

2 条评论

为了使单一参数的单个智能体能够解决大量任务，IMPALA作者们提出了重要性权重Actor-Learner架构，可见图1所示。若要智能体同时掌握各种各样的技能，面对最大的挑战是可扩展性，例如：A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练，更不敢想象一次掌握数十个领域了。

- 阅读剩余部分 -

标签大规模RL 下的文章

分布式同步SGD与异步SGD

IMPALA：分布式RL框架

最新文章

标签云 (Top20)

分类

标签 大规模RL 下的文章

分布式同步SGD与异步SGD

IMPALA：分布式RL框架

最新文章

标签云 (Top20)

分类

标签大规模RL 下的文章