基于稀疏率缩减的白盒Transformer (一)
深度学习的黑盒特性赋予了AI的神秘面纱,有种“巫术”感。在过去数10年的快速发展下,黑盒神经网络展现了惊人的能力,也使研究人员对神经网络有了更深的理解。为了破除神经网络的神秘感,论文White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?的作者们表明表示学习的目标是把数据的分布变为一个非连续子空间支持的低维混合高斯。这种表示的性能可被稀疏率缩减度量,它不仅最大化表示的内在信息增益,也最的外部稀疏性。根据此理论,推导出了CREATE网络架构,不仅在数学上可被完全解释,也弥补了深度学习理论与实践之间的间隔。
表示学习问题
Ma等人表示深度学习的成功,主要是由于深度网络在高效学习数据分布中可压缩低维结构,再把分布变为简洁表示的能力。
对于给定数据集为随机变量$\mathbf{x}\in\mathbb{R}^D$的样本集,其随机变量的分布用于更低的内在维度。通俗来讲,可学习一个连续映射$f(\cdot)$,把$\mathbf{x}$变为低维度空间的特征向量$\mathbf{z}\in\mathbb{R}^d$,即
$$
\begin{aligned}
\mathbf{x}\in\mathbb{R}^D\xrightarrow{f(x)}\mathbf{z}\in\mathbb{R}^d
\end{aligned}\tag{1}
$$
$\mathbf{x}$的低维内在结构被$\mathbf{z}$以一种更压缩和结构化的方式表示,从而有助于下游任务。由此,$f$可被称为编码器。进一步的,表示学习的基础问题是
What is a principled and effective measure for the goodness of representations?
概念上,表示$\mathbf{z}$质量的取决于识别可用于下游任务的相关和足够信息的能力,以及如何高效表示信息。为了便于在表示学习中理解深度学习或深度网络的角色,Tishby and Zaslavsky提出了信息瓶颈框架,表明度量特征质量是最大化$\mathbf{z}$与$\mathbf{y}$之间的互信息,同时最小化$\mathbf{z}$与$\mathbf{x}$之间的互信息。
然而,对于任务不可知的表示,表示$\mathbf{z}$需要编码关于$\mathbf{x}$分布的所有基本信息。换句话说,表示$\mathbf{z}$不仅是$\mathbf{x}$内在结构一个压缩的和结构化的表示,也在一个特定的置信度下恢复$\mathbf{x}$。那么,对于不可知任务的情况,表示质量的度量方式如何定义?
概念上,验证表示$\mathbf{z}$是否编码$\mathbf{x}$充分信息有效且唯一的方式是:如何通过一个映射,也可称为解码器,从$\mathbf{z}$恢复$\mathbf{x}$
$$
\begin{aligned}
\mathbf{x}\in\mathbb{R}^D\xrightarrow{f(x)}\mathbf{z}\in\mathbb{R}^d\xrightarrow{g(z)}\hat{\mathbf{x}}\in\mathbb{R}^D
\end{aligned}\tag{2}
$$
以上过程,被称为压缩编码与解码或压缩自编码。概念上,解码器为编码器的“逆”,实际上编码器与解码器网络架构如何产生联系仍不清楚。在许多情况下,解码器的架构设计与编码器之间几乎无任何关系。与之不同,作者们认为表示学习一个好的理论框架应能够清晰揭示编码器与解码器架构之间的关系。这也是作者们的工作内容之一。
通过压缩打开深度网络的黑盒
近期,Yu等人与Chan等人尝试提供一个原理性框架,从优化“信息增益”的方面解释ResNet和CNNs架构。若结构化表示为低维高斯的混合,那么信息增益可被编码率
精确度量,被表示为$\Delta R(\mathbf{z})$,其为整个特征集编码率与结构化元件编码率之间的差。根据该原理,Chan等人推导出了ReduNet,该网络架构与ResNets和CNNs之间拥有很大的相似之处。ReduNet层可完全被解释为实现了一个迭代式梯度下降方法,用于优化编码率缩减的目标$\Delta R(\mathbf{z})$。
$$
\begin{aligned}
f:\mathbf{x}\xrightarrow{f^{pre}}\mathbf{z}^1\rightarrow\cdots\rightarrow\mathbf{z}^l\xrightarrow{f^l}\mathbf{z}^{l+1}\rightarrow\cdots\xrightarrow{f^L}\mathbf{z}^{L+1}=\mathbf{z}
\end{aligned}\tag{3}
$$
式(3)中$f^{pre}$为数据预处理映射,且
$$
\begin{aligned}
\mathbf{z}^{l+1}=f^{l}(\mathbf{z}^l)\approx\mathbf{z}^{l}+\eta\nabla[\Delta R(\mathbf{z}^l)]
\end{aligned}\tag{4}
$$
即:每层$l$被构建以通过采取步长为$\eta$的近似梯度上升的方式,增量的优化$\Delta R(\mathbf{z}^L)$。作者们把这种数学上可解释的网络为“白盒”深度网络。虽然率缩减为理解深度网络提供了一个好的框架,但是ReduNet直接实现还不能产生竞争性实际的表示。作者们为了弥补理论与现实的间隔,提出了一个类似transformer的网络架构。
稀疏性与率衰减
在transformer与扩散模型中,一个表示被隐式的学习,其属于下游任务的副产品。因此,对于学习的表示,除了通过trail and error的方式,很困难确定和施加需要的特性。然而,与这些广泛采用的实验准则不同,一个研究路线尝试确切的学习一个被期望的数据分布表示。这种方式往往通过确切的识别与表示输入数据的低维结构。这种范式经典的例子,包含基于模型的方式,例如:稀疏编码和字典学习,主要尝试设计和解释深度网络架构为学习一个稀疏表示。最近,从一个免模型的视角,通过充足信息的预定义任务,例如:对比学习,学习一个表示。与黑盒深度学习方式相比,这种基于模型和免模型的表示学习方式均有可解释的优势,允许用户可确切的设计学习表示的期望特性。在很大程度上,率缩减框架在基于模型和免模型方式之间保持一个平衡。与对比学习相似,主要目的为通过压缩相似或相关数据与区分不相似或不相关数据的方式识别数据分布。同时,与基于模型的方法相似,主动映射数据分布到期望表示族,也就是低维混合高斯。
网络解释与设计的统一范式
如上所述,低维促进策略,例如:稀疏性或编码率缩减,使用户以一种前向构建的方式,构建白盒深度网络架构。其中,前向构建为通过展开选定表示目标优化策略的方式实现,从而导致构建网络的每层实现一个优化算法的迭代。近期,Hinton也开始架设深度网络可能以层级别的方式优化特定特征。那么,挑战性问题为:
What fundamental measure of goodness for the representations is a deep network trying to optimize in its forward pass?
在展开的优化范式下,若期望目标只被定义为稀疏性,实际上很难找到可以在大规模数据集上实现竞争性表示的网络架构。另外,其它工作尝试通过展开优化的一个逆工程学习的目标,驱动实验设计的网络架构。这种情况下网络的性能可能仍保持,但是逆工程表示学习目标通常高度复杂和不可解释,最优表示的特性仍不清楚。这些方式均没有保持展开优化的关键益处。
作者们认为,为了在内部压缩性和外部简洁性方面度量一个学习表示的质量,结合稀疏性度量和编码率缩减度量是很重要的。这种结合极大的解决了只依靠稀疏性或编码率衰减方法的有限性。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接