off-policy算法样本效率的提升,通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

正则化

正则化可被分为三组,分别是:

为了探索这些正则化之间的相互影响,作者们系统的研究了所有可能组合,且相同组的方法不能组合。该研究可被分为三类:

  • 一阶边际:对于特定正则化方法,结合其它组所有组合的平均结果。
  • 二阶边际:对于固定两对正则化方法,关于第三组求边际结果。
  • 三阶边际:主要包含无正则化的表现和特定组合的表现。

同时,为了高估、过拟合、以及可塑性,作者们也制定了相应的度量方法。

相关结论

一阶边际的结论:

  • Critic正则化在提升表现方面展示了有限的有效性。在利用网络正则化和可塑性正则化时,Critic正则化会损伤性能。
  • 在性能方面,周期性重置Resets优于其它的可塑性正则化方法,且鲁棒性最好。
  • 对于四足机器人,Layer Norm是必要的。
  • layer-norm推荐用于DMC,而spectral norm有效于Meta World benchmark。对于各种各样的任务,spectral norm鲁棒性优于layer norm。对于SAC,权重衰减通常降低其性能。

二阶边际的结论:

  • 对于DMCbenchmark,高Replay-Ratio智能体与layer-norm和全参数重置相结合会使任务变得简单。
  • 对于Meta World benchmarkSpectral Normalization效果最好。权重衰减的单独使用并不能提升效果,但其与全参数重置有更好的协同作用。
  • 网络重置显著的优于其它的可塑性正则化方法。

三阶边际的结论:

  • 在各种基准测试中,可塑性损失、高估、过度拟合指标和智能体回报之间存在明显的相关性。这些强调了在评估模型性能和设计有效的正则化策略时考虑环境特定因素的重要性。
  • 与专门为此目的设计的方法相比,layer-normspectral norm和重置等技术在缓和高估方面特别有效。
  • critic的梯度范数和回报的负相关性在具有挑战性的环境中变得更加明显,并且主要是在高replay-ratio场景。

对于四足机器人任务,结论有:

  • 网络正则化技术能够找到更高性能的策略。
  • layer norm和网络重置的作用下,领域特定RLcritic正则化优很少作用。

标签: 大规模RL

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论