分类强化学习下的文章

RL的正则化

作者: wyli
时间: 2025-03-23
分类: 强化学习
474 次阅读
评论

off-policy算法样本效率的提升，通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数，即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此，本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -

分布式RL：方法

作者: wyli
时间: 2025-03-19
分类: 强化学习
337 次阅读
评论

根据算法的on-policy和off-policy，理解RL的扩展。

- 阅读剩余部分 -

RL扩展：网络架构

作者: wyli
时间: 2025-03-02
分类: 强化学习
336 次阅读
评论

若要实现RL在参数量上的扩展，那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件，从而学习出泛化性较强的模型。

- 阅读剩余部分 -

分布式RL：训练框架

作者: wyli
时间: 2025-02-17
分类: 强化学习
469 次阅读
1 条评论

面对复杂任务时，RL算法需要与环境交互生成大量的数据用于学习，才能实现期望的性能。对于大量数据需求的挑战，有两种应对方法，分别是分布式训练和提升样本效率。其中，分布式训练是指智能体与数千个仿真环境交互以生成训练数据；样本效率提升的主要目的是提高利用有限数据的能力。

- 阅读剩余部分 -

RL扩展：扩展性理论

作者: wyli
时间: 2025-02-15
分类: 强化学习
376 次阅读
评论

对于神经网络，扩展性主要指随着数据量或计算量的增加，模型的性能变化情况。研究神经网络扩展性的目的是：期望通过小规模实验预测大规模实验的模型性能，从而降低大规模实验的成本。同样的，论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

- 阅读剩余部分 -

奖励中心化可大幅降低智能体样本复杂度

作者: wyli
时间: 2024-12-12
分类: 强化学习
463 次阅读
评论

在持续性问题中，智能体与环境的交互无法被分为子序列或episodes。那么，评估智能体表现的方式有两种，分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时，作者们表明奖励中心化的含义有：

平均中心化奖励从价值估计中移除了一个独立于状态的常量，从而使价值函数近似器聚焦于状态与动作之间的相对区别。
平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。

- 阅读剩余部分 -