若要实现RL在参数量上的扩展,那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件,从而学习出泛化性较强的模型。

Simba

Simba是一个为扩展深度RL参数的网络架构,拥有三个元件,分别是:

  • RSNorm层标准化输入
  • 前向残差块
  • 层归一化

其中,RSNorm提供了运行时均值和方差以标准化输入观测,前向残差块为输入和输出提供了一个线性路径,层归一化控制特征的幅度。这三个元件都为神经网络引入了简单性偏差,可见图1所示。

图1 Simba网络架构

总结

2025年,Simba被提出,只考虑参数量过大时过拟合问题,忽略了深度RL的可塑性损失问题。在这之前,网络参数的扩展要么依赖于计算密集层spectral normalization,要么需要复杂训练方法,例如:2023年《Bigger, Better, Faster: Human-level Atari with human-level efficiency》通过扩展网络架构宽度的方式实现;2024年《Mixtures of Experts Unlock Parameter Scaling for Deep RL》通过集成的方法实现扩展;2024年《Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control》通过扩展网络深度的方式实现,需要复杂的训练方法。

深度RL中网络参数的扩展只是期望一个模型可解决多个任务。然而,现在只是处于虚拟环境阶段,距离物理AI应该还有很远。

标签: 大规模RL

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论