分类 基础理论 下的文章

VAE相比,VQ-VAE的编码器输出是离散的编码。同时,利用向量量化(VQ)不仅可拥有方差小的特性,也可克服“后验坍塌”问题。其中,“后验坍塌”是指VAE的编码器若为性能优越的自回归解码器,那么隐式编码会被忽视。若隐式表示与可学习的自回归先验相结合,模型可生成高质量的样本,那么证明了学习到表示是高效用。

- 阅读剩余部分 -

机器学习理论中关键词生硬难懂,因此对部分关键词进行解析。
假设空间:学习任务的设定决定假设空间,从而也决定了可学性、复杂度。
概念类:假设空间中一个可解决任务的模式,也可以理解为函数。
泛化误差是指全量数据的误差,而经验误差是指采样数据的误差。

- 阅读剩余部分 -

深度神经网络对自然数据泛化上的成功与经典的模型复杂性概念不一致,且实验表明可拟合任意随机数据。论文On the Spectral Bias of Neural Networks通过傅立叶分析,研究深度神经网络的表达性,发现深度神经网络倾向于学习低频函数,也即是函数全局的变化无局部浮动。该特性与过参数化网络优先学习简单模式而泛化性强的特点一致。这种现象被称为场域偏差,不仅仅表现在学习过程,也表现在模型的参数化。

- 阅读剩余部分 -

CLIP对比学习损失,需要计算两次softmax标准化。同时,softmax的实现数值不稳定,通常在softmax计算之前减去最大输入,从而稳定化计算。与之不同,sigmoid损失属于对称的,只需要在图片-文本对上计算,不需要计算所有对的相似度用于标准化。若把该损失函数与CLIP相结合,那么模型被称为SigLIP。与LiT相结合,只需要利用4张TPUv4芯片,训练SigLiT模型两天可在ImageNet上实现84.5%的零样本准确率。同时,这种batch size与损失的解耦合,从而可使作者们研究正负样本比例的影响,即batch size对性能的影响。

- 阅读剩余部分 -

在自然语言处理领域,基于Transformer为网络架构的自监督预训练为任务提供了丰富的学习信号,从而实现了突破性进展。在视觉领域,ViT基于标签作为监督信号进行预训练,性能超过了基于ConvNets的模型。DINO作者们质疑ViT拥有优越性能是由监督信号导致的。由此,研究了基于ViT特征的自监督预训练的影响。

- 阅读剩余部分 -

Rich Sutton
March 13, 2019

The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available.

- 阅读剩余部分 -