RL扩展：扩展性理论

对于神经网络，扩展性主要指随着数据量或计算量的增加，模型的性能变化情况。研究神经网络扩展性的目的是：期望通过小规模实验预测大规模实验的模型性能，从而降低大规模实验的成本。同样的，论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。

RL扩展性研究的必要性

神经网络的扩展性无法直接应用于RL的原因如下：

与监督学习相比，RL的学习数据来自智能体与环境交互产生的，其数学模型为马尔可夫决策过程，因此数据之间不满足独立同分布的假设。
《Efficient Deep Reinforcement Learning Requires Regulating Overfitting》表明数据收集策略的周期性变化，使TD误差的最小化，在新策略下的数据中得不到不满足，由此产生过拟合现象。
《Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier》表明神经网络拟合目标的迁移导致其拥有可塑性损失的现象。
《Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning》表明基于价值RL中目标网络与学习网络Bootstraping，导致学习网络梯度更新步数增加，从而降低了网络的表达性，即价值网络秩的损失。实质上，就是可塑性损失。

扩展性特性

对于RL扩展性，论文《Value-Based Deep RL Scales Predictably》作者们研究了三种资源优化问题，分别是：

最大化样本效率：在给定计算资源下，获得目标性能的最小数据量。
最大化计算效率：在给定数据量下，获得目标性能的最少计算。
最大化回报：给定计算和数据资源下，最大的性能。

最大化样本效率

对于最大化样本效率问题，作者们提出了一个幂律假设

$$
\begin{aligned}
\mathcal{D}_{J}(\sigma)\approx\mathcal{D}_{J}^{min}+(\frac{\beta_{J}}{\sigma})^{\alpha_{J}}
\end{aligned}\tag{1}
$$
式(1)中$\mathcal{D}_J$表示达到表现$J$所需数据量；$\sigma$为UTD(updates to data)，即每个数据参与梯度计算的次数；$\alpha_J$和$\beta_J$均为常数。
最终，通过实验验证了该假设。根据式(1)，可知，实现表现$J$，需要满足最小数据量，即解决特定问题所需最小数据量。随着$\sigma$的增加(可以理解为计算量的增加)，所需数据量不断减少。

最大化计算效率

对于最大化计算效率问题，作者们认为计算量应等于梯度步数和网络参数量的乘积，即

$$
\begin{aligned}
\mathcal{C}_{J}(\sigma)\approx 10\cdot N\cdot B(\sigma)\cdot \sigma\cdot\mathcal{D}_{J}(\sigma)
\end{aligned}\tag{2}
$$
式(2)中$N$为参数量，$B(\sigma)$为batch-size的大小，$10$梯度计算时前向和反向过程的次数。

由此可知，$C_{J}(\sigma)$与$\sigma$之间不是简单的幂律关系，而是两个不同幂律关系的结合。根据式(2)，可知，$\sigma$定义了计算量和数据量之间的妥协。若以计算量为$x$轴，而数据量为$y$轴，那么两者构成的曲线为帕雷托前沿。由于存在所需最小数据量，那么存在最小$\sigma$，计算效率也不再增加。

最大化回报

解决最大化问题，有利于推断随着资源的增加，性能的变化。其中，预算表示为$\mathcal{F}=\mathcal{C}+\delta\cdot\mathcal{D}$。作者们也发现了最小$\sigma$与预算$\mathcal{F}_0$之间的幂律关系

$$
\begin{aligned}
\sigma^{*}(\mathcal{F}_0)\approx (\frac{\beta_{\sigma}}{\mathcal{F}_0})^{\alpha_{\sigma}}
\end{aligned}\tag{3}
$$

超参数之间的关系

简单来说，作者们发现batch-size大小$B$与学习率$\eta$之间不存在相关性，它们均只与$\sigma$相关性较大。
$B$与$\sigma$之间的关系为

$$
\begin{aligned}
B^{*}(\sigma)\approx (\frac{\beta_{B}}{\sigma})^{\alpha_{B}}
\end{aligned}\tag{4}
$$

这是因为$\sigma$越大，那么$B$越大会导致数据被用于多次更新，从而导致过拟合。

$\eta$与$\sigma$之间的关系为

$$
\begin{aligned}
{\eta}^{*}(\sigma)\approx (\frac{\beta_{\phi}}{\sigma})^{\alpha_{\phi}}
\end{aligned}\tag{5}
$$

这是因为RL中不仅过拟合导致性能降低，而且可塑性损失也会导致性能降低。梯度更新步数越大，学习率也大，通常导致网络参数移动到很困难学习随后目标的状态。

总结

由于论文Value-Based Deep RL Scales Predictably中扩展性结论更重要，因此并未对公式推导深入探究。

RL扩展：扩展性理论

RL扩展性研究的必要性

扩展性特性

最大化样本效率

最大化计算效率

最大化回报

超参数之间的关系

总结

引用方法

添加新评论

最新文章

标签云 (Top20)

分类