信息瓶颈方法
信息瓶颈方法是信息论的一种技术。确切的说,给定随机变量$\mathbf{X}$和观测相关变量$\mathbf{Y}$之间联合分布$p(\mathbf{X},\mathbf{Y})$,在总结随机变量$\mathbf{X}$时,找到精确性和复杂性(压缩)之间最好平衡的方法。
信息瓶颈也可视为率失真问题,其失真函数度量的是从压缩表示$\mathbf{T}$预测$\mathbf{Y}$与直接从$\mathbf{X}$预测$\mathbf{Y}$相比,其性能差别。
若利用随机变量$\mathbf{T}$作为压缩表示,那么该方法对应的算法为最小化条件分布$p(t\vert x)$:
$$
\begin{aligned}
\underset{p(t\vert x)}{inf}(I(\mathbf{X};\mathbf{T})-\beta I(\mathbf{T};\mathbf{Y}))
\end{aligned}\tag{1}
$$
式中$I(\mathbf{X};\mathbf{T})$与$I(\mathbf{T};\mathbf{Y})$分别表两个随机变量之间互信息。
深度学习的学习理论
数学上已经证明,深度学习中控制信息瓶颈是控制泛化误差的一种方法。确切的说,被证明泛化误差的规模为$\tilde{O}(\sqrt{\frac{I(\mathbf{X},\mathbf{T})+1}{n}})$,其中$n$为训练样本数量、$\mathbf{X}$为深度神经网络的输入、以及$\mathbf{T}$为隐藏层输出。
深度学习的信息论
最近,信息瓶颈理论被用于研究深度神经网络。若$\mathbf{X}$和$\mathbf{Y}$分别为DNN的输入层和输出层,且$\mathbf{T}$网络的隐藏层维度。那么,信息瓶颈表达的是$I(\mathbf{X};\mathbf{T})$与$I(\mathbf{T};\mathbf{Y})$之间互信息的平衡。同时,相关研究人员表明DNN训练过程分为两个阶段,分别是初始拟合阶段$I(\mathbf{T},\mathbf{Y})$增加和压缩阶段$I(\mathbf{T},\mathbf{X})$减少。然而,也有研究人员指出观测到的压缩现象是几何的结果,不是信息论的现象。笔者猜测:“几何”的说法应来源于DNN属于图模型。
引用方法
请参考:
li,wanye. "信息瓶颈方法". wyli'Blog (May 2025). https://www.robotech.ink/index.php/archives/735.html
或BibTex方式引用:
@online{eaiStar-735,
title={信息瓶颈方法},
author={li,wanye},
year={2025},
month={May},
url="https://www.robotech.ink/index.php/archives/735.html"
}