IMPALA:分布式RL框架 作者: Evan-wyl 时间: 2024-01-18 分类: 强化学习 332 次阅读 2 条评论 为了使单一参数的单个智能体能够解决大量任务,IMPALA作者们提出了重要性权重Actor-Learner架构,可见图1所示。若要智能体同时掌握各种各样的技能,面对最大的挑战是可扩展性,例如:A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练,更不敢想象一次掌握数十个领域了。- 阅读剩余部分 -