标签 大规模RL 下的文章

为了使单一参数的单个智能体能够解决大量任务,IMPALA作者们提出了重要性权重Actor-Learner架构,可见图1所示。若要智能体同时掌握各种各样的技能,面对最大的挑战是可扩展性,例如:A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练,更不敢想象一次掌握数十个领域了。

- 阅读剩余部分 -