RL扩展:扩展性理论
对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。
RL扩展性研究的必要性
神经网络的扩展性无法直接应用于RL的原因如下:
- 与监督学习相比,RL的学习数据来自智能体与环境交互产生的,其数学模型为马尔可夫决策过程,因此数据之间不满足独立同分布的假设。
- 《Efficient Deep Reinforcement Learning Requires Regulating Overfitting》表明数据收集策略的周期性变化,使TD误差的最小化,在新策略下的数据中得不到不满足,由此产生过拟合现象。
- 《Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier》表明神经网络拟合目标的迁移导致其拥有可塑性损失的现象。
- 《Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning》表明基于价值RL中目标网络与学习网络Bootstraping,导致学习网络梯度更新步数增加,从而降低了网络的表达性,即价值网络秩的损失。实质上,就是可塑性损失。
扩展性特性
对于RL扩展性,论文《Value-Based Deep RL Scales Predictably》作者们研究了三种资源优化问题,分别是:
- 最大化样本效率:在给定计算资源下,获得目标性能的最小数据量。
- 最大化计算效率:在给定数据量下,获得目标性能的最少计算。
- 最大化回报:给定计算和数据资源下,最大的性能。
最大化样本效率
对于最大化样本效率问题,作者们提出了一个幂律假设
$$
\begin{aligned}
\mathcal{D}_{J}(\sigma)\approx\mathcal{D}_{J}^{min}+(\frac{\beta_{J}}{\sigma})^{\alpha_{J}}
\end{aligned}\tag{1}
$$
式(1)中$\mathcal{D}_J$表示达到表现$J$所需数据量;$\sigma$为UTD(updates to data),即每个数据参与梯度计算的次数;$\alpha_J$和$\beta_J$均为常数。
最终,通过实验验证了该假设。根据式(1),可知,实现表现$J$,需要满足最小数据量,即解决特定问题所需最小数据量。随着$\sigma$的增加(可以理解为计算量的增加),所需数据量不断减少。
最大化计算效率
对于最大化计算效率问题,作者们认为计算量应等于梯度步数和网络参数量的乘积,即
$$
\begin{aligned}
\mathcal{C}_{J}(\sigma)\approx 10\cdot N\cdot B(\sigma)\cdot \sigma\cdot\mathcal{D}_{J}(\sigma)
\end{aligned}\tag{2}
$$
式(2)中$N$为参数量,$B(\sigma)$为batch-size的大小,$10$梯度计算时前向和反向过程的次数。
由此可知,$C_{J}(\sigma)$与$\sigma$之间不是简单的幂律关系,而是两个不同幂律关系的结合。根据式(2),可知,$\sigma$定义了计算量和数据量之间的妥协。若以计算量为$x$轴,而数据量为$y$轴,那么两者构成的曲线为帕雷托前沿。由于存在所需最小数据量,那么存在最小$\sigma$,计算效率也不再增加。
最大化回报
解决最大化问题,有利于推断随着资源的增加,性能的变化。其中,预算表示为$\mathcal{F}=\mathcal{C}+\delta\cdot\mathcal{D}$。作者们也发现了最小$\sigma$与预算$\mathcal{F}_0$之间的幂律关系
$$
\begin{aligned}
\sigma^{*}(\mathcal{F}_0)\approx (\frac{\beta_{\sigma}}{\mathcal{F}_0})^{\alpha_{\sigma}}
\end{aligned}\tag{3}
$$
超参数之间的关系
简单来说,作者们发现batch-size大小$B$与学习率$\eta$之间不存在相关性,它们均只与$\sigma$相关性较大。
$B$与$\sigma$之间的关系为
$$
\begin{aligned}
B^{*}(\sigma)\approx (\frac{\beta_{B}}{\sigma})^{\alpha_{B}}
\end{aligned}\tag{4}
$$
这是因为$\sigma$越大,那么$B$越大会导致数据被用于多次更新,从而导致过拟合。
$\eta$与$\sigma$之间的关系为
$$
\begin{aligned}
{\eta}^{*}(\sigma)\approx (\frac{\beta_{\phi}}{\sigma})^{\alpha_{\phi}}
\end{aligned}\tag{5}
$$
这是因为RL中不仅过拟合导致性能降低,而且可塑性损失也会导致性能降低。梯度更新步数越大,学习率也大,通常导致网络参数移动到很困难学习随后目标的状态。
总结
由于论文Value-Based Deep RL Scales Predictably中扩展性结论更重要,因此并未对公式推导深入探究。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接