对于基于策略梯度算法估计梯度,常用的减少方差的方法是$Q$函数与只依赖于状态的基线做差,得到优势函数。这种方式可以明显降低方差,且不引入偏差。文献[2],[3],[4],[5],[6]对基于基线的方法进行了扩展,把依赖于状态的基线变为依赖于状态-动作的基线,实验表明其性能超越只依赖状态的基线。为了理解基于状态-动作的基线降低方差的机制,文献[1]对这类基线进行了研究。同时,也提出了一些无偏差的方差降低方法。

- 阅读剩余部分 -

PPO相较于TRPO,不是利用KL-Divergence限制策略的更新幅度,而是直接clipping的方式。在PPO论文中表明直接clipping的方式使其性能超越TRPO。然而,Logan等人表明,不是clipping导致PPO算法性能优越,而是代码级的优化使其性能优越,这些代码级优化限制策略在可信区域更新。

- 阅读剩余部分 -

目前,强化学习算法聚焦的范式是:当智能体思考执行什么动作时,假设环境是静态的。然而,这种假设对于真实世界是不成立的,因为智能体在处理观测和规划下一步动作时,环境的状态也在不断的发生变化。对于这种不断变化的环境,被称为并发环境。为了能够基于深度强化学习处理并发环境,文献[1]提出了一个适用于并发马尔科夫决策过程的连续时间Bellman运算。

- 阅读剩余部分 -

为了解决由智能体学到的策略$\pi$与数据产生的行为策略$\pi_{\beta}$之间分布偏移产生的价值高估问题,CQL算法学习出保守型Q函数,使Q函数的期望值为策略$\pi$下价值函数$V(s)$真实值的下界。在理论上,证明了CQL的确产生了价值函数$V(s)$真实值的下界,且该算法可应用到策略学习迭代步骤中。

- 阅读剩余部分 -

Feature-wise Linear Modulation(FiLM)是一个神经网络通用目的的调节方法,通过特征级别的仿射变换影响神经网络计算。实验结果,表明,FiLM层对视觉推理任务非常有效,例如:回答图片相关的问题。然而,这类问题对标准深度学习方法来说很困难。

- 阅读剩余部分 -