基于稀疏率缩减的白盒Transformer (一)
深度学习的黑盒特性赋予了AI的神秘面纱,有种“巫术”感。在过去数10年的快速发展下,黑盒神经网络展现了惊人的能力,也使研究人员对神经网络有了更深的理解。为了破除神经网络的神秘感,论文White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?的作者们表明表示学习的目标是把数据的分布变为一个非连续子空间支持的低维混合高斯。这种表示的性能可被稀疏率缩减度量,它不仅最大化表示的内在信息增益,也最的外部稀疏性。根据此理论,推导出了CREATE网络架构,不仅在数学上可被完全解释,也弥补了深度学习理论与实践之间的间隔。