论深度学习的信息瓶颈理论
深度学习的信息瓶颈理论,表明:
- 深度神经网络经历两个显著阶段,分别是初始拟合阶段和随后的压缩阶段。
- 压缩阶段与神经网络的泛化性之间有直接的因果关系。
- 由于随机梯度下降的类似扩散行为,往往导致压缩阶段的产生。
然而,根据On the Information Bottleneck Theory of Deep Learning,可知,在通常情况下这些声明是不存在的。通过仿真与分析,作者们发现:
- 信息平面的轨迹主要受到神经网络非线性函数的影响:双边饱和的非线性激活函数会产生压缩阶段,而单边饱和的非线性函数不会产生。
- 压缩阶段不来自于训练中的随机性,这是因为bach梯度下降也会产生压缩阶段。
- 网络的隐藏层确实会压缩任务不相关的信息,而这种压缩过程与拟合过程同步发生。
引用方法
请参考:
li,wanye. "论深度学习的信息瓶颈理论". wyli'Blog (May 2024). https://www.robotech.ink/index.php/archives/503.html
或BibTex方式引用:
@online{eaiStar-503,
title={论深度学习的信息瓶颈理论},
author={li,wanye},
year={2024},
month={May},
url="https://www.robotech.ink/index.php/archives/503.html"
}