分类 强化学习 下的文章

目前,强化学习算法聚焦的范式是:当智能体思考执行什么动作时,假设环境是静态的。然而,这种假设对于真实世界是不成立的,因为智能体在处理观测和规划下一步动作时,环境的状态也在不断的发生变化。对于这种不断变化的环境,被称为并发环境。为了能够基于深度强化学习处理并发环境,文献[1]提出了一个适用于并发马尔科夫决策过程的连续时间Bellman运算。

- 阅读剩余部分 -

为了使单一参数的单个智能体能够解决大量任务,IMPALA作者们提出了重要性权重Actor-Learner架构,可见图1所示。若要智能体同时掌握各种各样的技能,面对最大的挑战是可扩展性,例如:A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练,更不敢想象一次掌握数十个领域了。

- 阅读剩余部分 -