分类 Offline RL 下的文章

基于不确定性估计的离线强化学习方法允许策略在保守型离线策略与离线策略之间转换。也可以这样理解,若函数近似的不确定性被评估,那么低不确定性区域策略的约束可被松弛。其中,不确定性的估计可以是策略、价值函数、或模型;不确定性估计的可用度量有方差、标准差等。

- 阅读剩余部分 -

BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因,分别是数据不足、模型偏差、训练中的不匹配。其中,数据不足是指若数据$({s}',\pi({s}'))$不足,那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确

- 阅读剩余部分 -

为了解决由智能体学到的策略$\pi$与数据产生的行为策略$\pi_{\beta}$之间分布偏移产生的价值高估问题,CQL算法学习出保守型Q函数,使Q函数的期望值为策略$\pi$下价值函数$V(s)$真实值的下界。在理论上,证明了CQL的确产生了价值函数$V(s)$真实值的下界,且该算法可应用到策略学习迭代步骤中。

- 阅读剩余部分 -