分类强化学习下的文章

在线深度Actor-Critic算法的关键点

作者: wyli
时间: 2024-01-29
分类: 强化学习
642 次阅读
评论

RL算法虽然概念上简单，但是许多SOTA算法实施使用了许多设计决策。然而，这些设计决策很少被讨论，就导致RL算法的进步很难被归因。Andrychowicz等人基于在线深度actor-critic框架进行了大规模试验，研究了这些设计对算法性能的影响。

- 阅读剩余部分 -

Thinking-While-Moving：深度强化学习与并发控制

作者: wyli
时间: 2024-01-26
分类: 强化学习
592 次阅读
评论

目前，强化学习算法聚焦的范式是：当智能体思考执行什么动作时，假设环境是静态的。然而，这种假设对于真实世界是不成立的，因为智能体在处理观测和规划下一步动作时，环境的状态也在不断的发生变化。对于这种不断变化的环境，被称为并发环境。为了能够基于深度强化学习处理并发环境，文献[1]提出了一个适用于并发马尔科夫决策过程的连续时间Bellman运算。

- 阅读剩余部分 -