对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

RL扩展性研究的必要性

神经网络的扩展性无法直接应用于RL的原因如下:

扩展性特性

对于RL扩展性,论文《Value-Based Deep RL Scales Predictably》作者们研究了三种资源优化问题,分别是:

  • 最大化样本效率:在给定计算资源下,获得目标性能的最小数据量。
  • 最大化计算效率:在给定数据量下,获得目标性能的最少计算。
  • 最大化回报:给定计算和数据资源下,最大的性能。

最大化样本效率

对于最大化样本效率问题,作者们提出了一个幂律假设

$$
\begin{aligned}
\mathcal{D}_{J}(\sigma)\approx\mathcal{D}_{J}^{min}+(\frac{\beta_{J}}{\sigma})^{\alpha_{J}}
\end{aligned}\tag{1}
$$
式(1)中$\mathcal{D}_J$表示达到表现$J$所需数据量;$\sigma$为UTD(updates to data),即每个数据参与梯度计算的次数;$\alpha_J$和$\beta_J$均为常数。
最终,通过实验验证了该假设。根据式(1),可知,实现表现$J$,需要满足最小数据量,即解决特定问题所需最小数据量。随着$\sigma$的增加(可以理解为计算量的增加),所需数据量不断减少。

最大化计算效率

对于最大化计算效率问题,作者们认为计算量应等于梯度步数和网络参数量的乘积,即

$$
\begin{aligned}
\mathcal{C}_{J}(\sigma)\approx 10\cdot N\cdot B(\sigma)\cdot \sigma\cdot\mathcal{D}_{J}(\sigma)
\end{aligned}\tag{2}
$$
式(2)中$N$为参数量,$B(\sigma)$为batch-size的大小,$10$梯度计算时前向和反向过程的次数。

由此可知,$C_{J}(\sigma)$与$\sigma$之间不是简单的幂律关系,而是两个不同幂律关系的结合。根据式(2),可知,$\sigma$定义了计算量和数据量之间的妥协。若以计算量为$x$轴,而数据量为$y$轴,那么两者构成的曲线为帕雷托前沿。由于存在所需最小数据量,那么存在最小$\sigma$,计算效率也不再增加。

最大化回报

解决最大化问题,有利于推断随着资源的增加,性能的变化。其中,预算表示为$\mathcal{F}=\mathcal{C}+\delta\cdot\mathcal{D}$。作者们也发现了最小$\sigma$与预算$\mathcal{F}_0$之间的幂律关系

$$
\begin{aligned}
\sigma^{*}(\mathcal{F}_0)\approx (\frac{\beta_{\sigma}}{\mathcal{F}_0})^{\alpha_{\sigma}}
\end{aligned}\tag{3}
$$

超参数之间的关系

简单来说,作者们发现batch-size大小$B$与学习率$\eta$之间不存在相关性,它们均只与$\sigma$相关性较大。
$B$与$\sigma$之间的关系为

$$
\begin{aligned}
B^{*}(\sigma)\approx (\frac{\beta_{B}}{\sigma})^{\alpha_{B}}
\end{aligned}\tag{4}
$$

这是因为$\sigma$越大,那么$B$越大会导致数据被用于多次更新,从而导致过拟合。

$\eta$与$\sigma$之间的关系为

$$
\begin{aligned}
{\eta}^{*}(\sigma)\approx (\frac{\beta_{\phi}}{\sigma})^{\alpha_{\phi}}
\end{aligned}\tag{5}
$$

这是因为RL中不仅过拟合导致性能降低,而且可塑性损失也会导致性能降低。梯度更新步数越大,学习率也大,通常导致网络参数移动到很困难学习随后目标的状态。

总结

由于论文Value-Based Deep RL Scales Predictably中扩展性结论更重要,因此并未对公式推导深入探究。

标签: 大规模RL

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论