机器学习中最基本的问题是:如何有效地且高效地从有限独立同分布的样本集中学习数据分布?对于该问题,可转化为寻求捕获了样本内在结构的表示的问题。

对于表示学习,在有监督学习中把样本标签表示为one-hot编码,以交叉熵为损失函数学习表示。尽管这种方式很常用,但是它的学习方式与标签有关。由于标签的准确性无法保证,那么也无法保证学习的准确性。同时,该有监督学习的方式无法清楚的知晓表示捕获数据内在结构的程度,即可解释性很差。

信息瓶颈中,把深度网络的中间层输出视为选择特定隐式特征的过程。其中,输出可理解为表示。进一步来说,信息瓶颈假设网络为学习预测标签的最小充分统计,可把该统计量理解为数据的表示。在形式上,通过最大化表示与标签之间的互信息和最小化样本与表示之间互信息的方式实现,例如:VAE。由于只是针对特定标签$\mathbf{y}$,因此这种方式的泛化性、鲁棒性、以及迁移性不佳。

- 阅读剩余部分 -

深度学习的黑盒特性赋予了AI的神秘面纱,有种“巫术”感。在过去数10年的快速发展下,黑盒神经网络展现了惊人的能力,也使研究人员对神经网络有了更深的理解。为了破除神经网络的神秘感,论文White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?的作者们表明表示学习的目标是把数据的分布变为一个非连续子空间支持的低维混合高斯。这种表示的性能可被稀疏率缩减度量,它不仅最大化表示的内在信息增益,也最的外部稀疏性。根据此理论,推导出了CREATE网络架构,不仅在数学上可被完全解释,也弥补了深度学习理论与实践之间的间隔。

- 阅读剩余部分 -

完全信息的博弈或游戏均有最优的价值函数${v}^{*}(s)$,例如:象棋、围棋、西洋双陆棋、以及拼字游戏,也均可迭代地计算最优价值函数解决。然而,由于游戏的搜索空间差别很大,从而导致解决的难度不同。若利用$b$表示游戏的宽度(每个位置可移动的方向)和$f$表示深度(游戏的长度),那么象棋$b\approx35,d\approx80$与围棋$b\approx250,d\approx150$,对应的搜索空间均为$b^d$。为了降低搜索空间,有两种办法,第一种通过位置评估减少搜索的深度,即把搜索树中状态$s$的子树利用价值函数$v(s)\approx {v}^{*}(s)$替换。这种方法很好的解决了象棋和西洋跳棋问题,但对搜索空间巨大的围棋问题没有得到很好的解决。第二种方法是减少搜索的广度可通过从策略$p(a\vert s)$中采样动作的方式实现,这种方式在西洋双陆棋和拼字游戏中实现了卓越性能,在围棋Go游戏只达到了弱初级选择级别。

- 阅读剩余部分 -

深度学习网络基于随机梯度下降方法训练后,把网络权重冻结,再进行模型部署推理。然而,世界处于动态变化的,每天都有新的数据产生,从而导致数据分布发生变化。那么,若每次重新训练模型会产生很大的成本,而模型在新的数据上训练往往性能不如重新训练,这是因为学习过程中神经网络的可塑性降低。然而,深度学习在持续学习场景下有效性仍不清楚。Loss of plasticity in deep continual learning论文作者表明标准深度学习方法在持续学习环境中逐渐失去可塑性,直到其性能比浅层网络还要低。他们主要在ImageNet数据集和RL问题中研究了可塑性的损失,且提出了持续反向传播算法以提高算法的可塑性。

- 阅读剩余部分 -

可塑性是指神经网络快速改变预测应对新信息的能力。可塑性损失常发生在输入和预测目标随时间发生改变的环境,其神经网络需要“重写”之前的预测。这种场景对于DRL是常见的。因此,理解可塑性损失,损失是否可被缓和,对开发能够应对复杂且常变化环境的DRL智能体,非常重要。对缓解可塑性损失,常见机制是层重置激活单元重置、以及特征正则化。虽然这些方法观测到表现的提升,但是无法得到导致提升的机制。Lyle等人根据可塑性发生的情况,识别了该机制。

- 阅读剩余部分 -