在线深度Actor-Critic算法的关键点
RL算法虽然概念上简单,但是许多SOTA算法实施使用了许多设计决策。然而,这些设计决策很少被讨论,就导致RL算法的进步很难被归因。Andrychowicz等人基于在线深度actor-critic框架进行了大规模试验,研究了这些设计对算法性能的影响。
RL算法虽然概念上简单,但是许多SOTA算法实施使用了许多设计决策。然而,这些设计决策很少被讨论,就导致RL算法的进步很难被归因。Andrychowicz等人基于在线深度actor-critic框架进行了大规模试验,研究了这些设计对算法性能的影响。
目前,强化学习算法聚焦的范式是:当智能体思考执行什么动作时,假设环境是静态的。然而,这种假设对于真实世界是不成立的,因为智能体在处理观测和规划下一步动作时,环境的状态也在不断的发生变化。对于这种不断变化的环境,被称为并发环境。为了能够基于深度强化学习处理并发环境,文献[1]提出了一个适用于并发马尔科夫决策过程的连续时间Bellman运算。
连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。