论深度学习的信息瓶颈理论
深度学习的信息瓶颈理论,表明:
- 深度神经网络经历两个显著阶段,分别是初始拟合阶段和随后的压缩阶段。
- 压缩阶段与神经网络的泛化性之间有直接的因果关系。
- 由于随机梯度下降的类似扩散行为,往往导致压缩阶段的产生。
然而,根据On the Information Bottleneck Theory of Deep Learning,可知,在通常情况下这些声明是不存在的。通过仿真与分析,作者们发现:
- 信息平面的轨迹主要受到神经网络非线性函数的影响:双边饱和的非线性激活函数会产生压缩阶段,而单边饱和的非线性函数不会产生。
- 压缩阶段不来自于训练中的随机性,这是因为bach梯度下降也会产生压缩阶段。
- 网络的隐藏层确实会压缩任务不相关的信息,而这种压缩过程与拟合过程同步发生。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接