wyli 发布的文章

深度神经网络对自然数据泛化上的成功与经典的模型复杂性概念不一致,且实验表明可拟合任意随机数据。论文On the Spectral Bias of Neural Networks通过傅立叶分析,研究深度神经网络的表达性,发现深度神经网络倾向于学习低频函数,也即是函数全局的变化无局部浮动。该特性与过参数化网络优先学习简单模式而泛化性强的特点一致。这种现象被称为场域偏差,不仅仅表现在学习过程,也表现在模型的参数化。

- 阅读剩余部分 -

CLIP对比学习损失,需要计算两次softmax标准化。同时,softmax的实现数值不稳定,通常在softmax计算之前减去最大输入,从而稳定化计算。与之不同,sigmoid损失属于对称的,只需要在图片-文本对上计算,不需要计算所有对的相似度用于标准化。若把该损失函数与CLIP相结合,那么模型被称为SigLIP。与LiT相结合,只需要利用4张TPUv4芯片,训练SigLiP模型两天可在ImageNet上实现84.5%的零样本准确率。同时,这种batch size与损失的解耦合,从而可使作者们研究正负样本比例的影响,即batch size对性能的影响。

- 阅读剩余部分 -

在自然语言处理领域,基于Transformer为网络架构的自监督预训练为任务提供了丰富的学习信号,从而实现了突破性进展。在视觉领域,ViT基于标签作为监督信号进行预训练,性能超过了基于ConvNets的模型。DINO作者们质疑ViT拥有优越性能是由监督信号导致的。由此,研究了基于ViT特征的自监督预训练的影响。

- 阅读剩余部分 -

Transformer在自然语言处理、视觉、以及许多其它领域得到了广泛的应用。然而,在图像相关的生成模型领域很少采用Transformer网络架构,例如:扩散模型利用卷积U-Net作为网络架构。对于基于U-Net的扩散模型,ADM作者们分析了网络扩展性与网络复杂性度量Gflop的特性。与之不同,DiT作者们揭开了扩散模型的网络架构选择的重要性,且对未来生成模型研究提供了经验。确切的说,在隐式扩散模型LDMs框架下,构建了基于Transformer扩散模型的设计空间,研究了网络复杂度与样本质量之间的关系,即模型的扩展性。

- 阅读剩余部分 -

扩散模型的理论密度、采样调度器的推导、训练动力学、以及噪音级别参数化确保了模型在一个坚实的理论基础。然而,这种方式往往模糊了设计空间,即一个模型由紧的耦合包构成。EDM作者们关注了“有型”的对象和训练与采样中的算法,很少关注统计过程,从而在整个系统的设计空间中对元件的连接方式和自由度有了更好的洞见。此外,还有如下贡献:

  • 研究了基于扩散模型合成图片的采样过程。
  • 研究了基于分数建模神经网络的训练。

- 阅读剩余部分 -

由于空间、重量、以及电量的约束,大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而,扩散策略的推理速度较慢,需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间,Consistency Policy作者们通过对扩散策略的蒸馏,得到了一致性策略。

- 阅读剩余部分 -