标签大规模RL 下的文章

RL的正则化

作者: wyli
时间: 2025-03-23
分类: 强化学习
295 次阅读
评论

off-policy算法样本效率的提升，通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数，即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此，本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -

分布式RL：方法

作者: wyli
时间: 2025-03-19
分类: 强化学习
231 次阅读
评论

根据算法的on-policy和off-policy，理解RL的扩展。

- 阅读剩余部分 -

RL扩展：网络架构

作者: wyli
时间: 2025-03-02
分类: 强化学习
215 次阅读
评论

若要实现RL在参数量上的扩展，那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件，从而学习出泛化性较强的模型。

- 阅读剩余部分 -

分布式RL：训练框架

作者: wyli
时间: 2025-02-17
分类: 强化学习
324 次阅读
1 条评论

面对复杂任务时，RL算法需要与环境交互生成大量的数据用于学习，才能实现期望的性能。对于大量数据需求的挑战，有两种应对方法，分别是分布式训练和提升样本效率。其中，分布式训练是指智能体与数千个仿真环境交互以生成训练数据；样本效率提升的主要目的是提高利用有限数据的能力。

- 阅读剩余部分 -

RL扩展：扩展性理论

作者: wyli
时间: 2025-02-15
分类: 强化学习
252 次阅读
评论

对于神经网络，扩展性主要指随着数据量或计算量的增加，模型的性能变化情况。研究神经网络扩展性的目的是：期望通过小规模实验预测大规模实验的模型性能，从而降低大规模实验的成本。同样的，论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

- 阅读剩余部分 -

分布式同步SGD与异步SGD

作者: wyli
时间: 2024-02-03
分类: 强化学习
654 次阅读
2 条评论

深度学习分布式训练的典型方法是基于异步随机优化，这样的方式往往以增加由异步带来的随机噪音为代价。与之相反，同步的方式常常被认为不实际，这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进，使深度学习算法可被高效的训练且性能得到提升。确切的说，缓和同步随机优化中拖后腿的方法是：只同步计算部分wokers的mini-batch梯度，其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。

- 阅读剩余部分 -