从信息论和矩阵计算的角度理解神经网络
根据通用近似定理,深度神经网络是万能函数拟合器。然而,这种视角无法解释RNN、LSTM、GRU、以及Transformer等网络架构存在的原因。本篇文章尝试站在信息论和矩阵计算的角度理解深度神经网络。
根据通用近似定理,深度神经网络是万能函数拟合器。然而,这种视角无法解释RNN、LSTM、GRU、以及Transformer等网络架构存在的原因。本篇文章尝试站在信息论和矩阵计算的角度理解深度神经网络。
变分推断属于贝叶斯模型中近似后验的方法,其构成了《VAE:自动编码变分贝叶斯》的数学原理。接下来,基于论文《Variational Inference: A Review for Statisticians》理解其理论。
在概率论和统计中,自然指数族分布是指数族分布的特殊情况。
在信息几何中,Fisher信息度量是一个定义在平滑统计流形上的黎曼度量。其中,统计流形是一个点为概率分布的平滑流形。由此,该信息度量通常被用于计算两个概率分布之间的距离。
率失真是信息论的一个主要分支,为有损数据压缩提供了理论基础。它处理了每个符号由多少位$R$决定的问题,,以便于源可被接受者重建,且不超过期望的失真$D$。
信息瓶颈方法是信息论的一种技术。确切的说,给定随机变量$\mathbf{X}$和观测相关变量$\mathbf{Y}$之间联合分布$p(\mathbf{X},\mathbf{Y})$,在总结随机变量$\mathbf{X}$时,找到精确性和复杂性(压缩)之间最好平衡的方法。