EAI猩球

简论机器学习基石

作者: wyli
时间: 2024-07-18
分类: 理论,AI理论
评论
594 次阅读

机器学习理论中关键词生硬难懂，因此对部分关键词进行解析。
假设空间：学习任务的设定决定假设空间，从而也决定了可学性、复杂度。
概念类：假设空间中一个可解决任务的模式，也可以理解为函数。
泛化误差是指全量数据的误差，而经验误差是指采样数据的误差。

- 阅读剩余部分 -

论神经网络的光谱偏差

作者: wyli
时间: 2024-07-18
分类: 理论,AI理论
评论
642 次阅读

深度神经网络对自然数据泛化上的成功与经典的模型复杂性概念不一致，且实验表明可拟合任意随机数据。论文On the Spectral Bias of Neural Networks通过傅立叶分析，研究深度神经网络的表达性，发现深度神经网络倾向于学习低频函数，也即是函数全局的变化无局部浮动。该特性与过参数化网络优先学习简单模式而泛化性强的特点一致。这种现象被称为场域偏差，不仅仅表现在学习过程，也表现在模型的参数化。

- 阅读剩余部分 -

SigLIP：语言图片预训练的Sigmoid损失

作者: wyli
时间: 2024-07-17
分类: 理论,AI理论
评论
3206 次阅读

CLIP中对比学习损失，需要计算两次softmax标准化。同时，softmax的实现数值不稳定，通常在softmax计算之前减去最大输入，从而稳定化计算。与之不同，sigmoid损失属于对称的，只需要在图片-文本对上计算，不需要计算所有对的相似度用于标准化。若把该损失函数与CLIP相结合，那么模型被称为SigLIP。与LiT相结合，只需要利用4张TPUv4芯片，训练SigLiP模型两天可在ImageNet上实现84.5%的零样本准确率。同时，这种batch size与损失的解耦合，从而可使作者们研究正负样本比例的影响，即batch size对性能的影响。

- 阅读剩余部分 -

DINO：自监督视觉Transformer的新特性

作者: wyli
时间: 2024-07-12
分类: 基础模型
评论
1616 次阅读

在自然语言处理领域，基于Transformer为网络架构的自监督预训练为任务提供了丰富的学习信号，从而实现了突破性进展。在视觉领域，ViT基于标签作为监督信号进行预训练，性能超过了基于ConvNets的模型。DINO作者们质疑ViT拥有优越性能是由监督信号导致的。由此，研究了基于ViT特征的自监督预训练的影响。

- 阅读剩余部分 -

DiT：基于Transformer可扩展的扩散模型

作者: wyli
时间: 2024-07-07
分类: 生成模型,基础模型
2 条评论
1847 次阅读

Transformer在自然语言处理、视觉、以及许多其它领域得到了广泛的应用。然而，在图像相关的生成模型领域很少采用Transformer网络架构，例如：扩散模型利用卷积U-Net作为网络架构。对于基于U-Net的扩散模型，ADM作者们分析了网络扩展性与网络复杂性度量Gflop的特性。与之不同，DiT作者们揭开了扩散模型的网络架构选择的重要性，且对未来生成模型研究提供了经验。确切的说，在隐式扩散模型LDMs框架下，构建了基于Transformer扩散模型的设计空间，研究了网络复杂度与样本质量之间的关系，即模型的扩展性。

- 阅读剩余部分 -

EDM：阐明基于扩散生成模型的设计空间

作者: wyli
时间: 2024-07-06
分类: 生成模型,基础模型
3 条评论
2054 次阅读

扩散模型的理论密度、采样调度器的推导、训练动力学、以及噪音级别参数化确保了模型在一个坚实的理论基础。然而，这种方式往往模糊了设计空间，即一个模型由紧的耦合包构成。EDM作者们关注了“有型”的对象和训练与采样中的算法，很少关注统计过程，从而在整个系统的设计空间中对元件的连接方式和自由度有了更好的洞见。此外，还有如下贡献：

研究了基于扩散模型合成图片的采样过程。
研究了基于分数建模神经网络的训练。

- 阅读剩余部分 -

简论机器学习基石

论神经网络的光谱偏差

SigLIP：语言图片预训练的Sigmoid损失

DINO：自监督视觉Transformer的新特性

DiT：基于Transformer可扩展的扩散模型

EDM：阐明基于扩散生成模型的设计空间

最新文章

标签云 (Top20)

分类