分类 强化学习 下的文章

off-policy算法样本效率的提升,通常得益于正则化方法导致更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -

面对复杂任务时,RL算法需要与环境交互生成大量的数据用于学习,才能实现期望的性能。对于大量数据需求的挑战,有两种应对方法,分别是分布式训练和提升样本效率。其中,分布式训练是指智能体与数千个仿真环境交互以生成训练数据;样本效率提升的主要目的是提高利用有限数据的能力。

- 阅读剩余部分 -

对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

- 阅读剩余部分 -

在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:

  • 平均中心化奖励从价值估计中移除了一个独立于状态的常量,从而使价值函数近似器聚焦于状态与动作之间的相对区别。
  • 平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。

- 阅读剩余部分 -