EAI猩球

Sharing knowledge, Acquiring technology.

论深度学习的信息瓶颈理论

作者: wyli
时间: 2024-05-27
分类: 理论,信息论,AI理论
750 次阅读

深度学习的信息瓶颈理论，表明：

深度神经网络经历两个显著阶段，分别是初始拟合阶段和随后的压缩阶段。
压缩阶段与神经网络的泛化性之间有直接的因果关系。
由于随机梯度下降的类似扩散行为，往往导致压缩阶段的产生。

然而，根据On the Information Bottleneck Theory of Deep Learning，可知，在通常情况下这些声明是不存在的。通过仿真与分析，作者们发现：

信息平面的轨迹主要受到神经网络非线性函数的影响：双边饱和的非线性激活函数会产生压缩阶段，而单边饱和的非线性函数不会产生。
压缩阶段不来自于训练中的随机性，这是因为bach梯度下降也会产生压缩阶段。
网络的隐藏层确实会压缩任务不相关的信息，而这种压缩过程与拟合过程同步发生。

引用方法

请参考：

            
                li,wanye. "论深度学习的信息瓶颈理论". wyli'Blog (May 2024). https://www.robotech.ink/index.php/archives/503.html

或BibTex方式引用：

            
                @online{eaiStar-503,

                   title={论深度学习的信息瓶颈理论},

                   author={li,wanye},

                   year={2024},

                   month={May},

                   url="https://www.robotech.ink/index.php/archives/503.html"

                }

标签: 神经网络特性

添加新评论

上一篇: Beta-VAE：利用一个受约束的变分框架学习基本的视觉概念
下一篇: 变分下界与重参数化原理