标签 RL稀疏奖励 下的文章

现实世界中,强化学习算法面对的往往是稀疏奖励环境。在稀疏奖励环境中,对探索产生了很大的挑战。这是因为稀疏奖励函数使智能体无法有意义的区分不同策略之间的区别。对稀疏奖励函数问题,处理该问题常见的方法是利用专家演示数据提供状态空间中高奖励区域的初始信号。然而,之前基于演示的方式往往使算法本身变得很复杂,且增加了实施以及调节超参数的难度。文献[1]作者们另辟蹊径,提出了MCAC算法了,既没有过多的增加模型复杂性,也没有增加额外的超参数。

- 阅读剩余部分 -