通过最大编码率缩减原则学习多样化和有区别的表征
机器学习中最基本的问题是:如何有效地且高效地从有限独立同分布的样本集中学习数据分布?对于该问题,可转化为寻求捕获了样本内在结构的表示的问题。
对于表示学习,在有监督学习中把样本标签表示为one-hot编码,以交叉熵为损失函数学习表示。尽管这种方式很常用,但是它的学习方式与标签有关。由于标签的准确性无法保证,那么也无法保证学习的准确性。同时,该有监督学习的方式无法清楚的知晓表示捕获数据内在结构的程度,即可解释性很差。
在信息瓶颈中,把深度网络的中间层输出视为选择特定隐式特征的过程。其中,输出可理解为表示。进一步来说,信息瓶颈假设网络为学习预测标签的最小充分统计,可把该统计量理解为数据的表示。在形式上,通过最大化表示与标签之间的互信息和最小化样本与表示之间互信息的方式实现,例如:VAE。由于只是针对特定标签$\mathbf{y}$,因此这种方式的泛化性、鲁棒性、以及迁移性不佳。