wyli 发布的文章

MAE：掩码自编码是可扩展的视觉学习器

作者: wyli
时间: 2024-03-10
分类: 基础模型,视觉模型
1028 次阅读
评论

深度学习在硬件的发展下，模型越做越大，但也需要越来越多的数据。然而，标注数据的成本是很高的。在自然语言处理领域，基于自回归和自编码无监督训练的方式，解决数据少的问题。与之相对的，计算机视觉领域的掩码自编码技术发展的很缓慢。MAE作者们对这种不同的原因进行了分析，结果如下：

语言与视觉的信息密度不同。语言是人类创造的，拥有高度的语义和信息密度。在训练模型预测句子中丢失单词时，该任务似乎已到模型学习复杂的语言理解。然而，图片来自于自然界，拥有很强的冗余性，例如：丢失的部分可被邻居部分再次恢复，甚至直接都能被识别。
自编码器的解码器映射隐式表示到输入，对于图片来说这种映射输出是低语义的，对语言来说这种映射输出是有丰富语义的。然而，BERT基于编码器就能学习到很丰富的语义信息，MAE需要编码器和解码器才能学习到丰富的语义。

- 阅读剩余部分 -

PaLI-X：多语言的视觉-语言模型扩展

作者: wyli
时间: 2024-03-09
分类: 基础模型,多模态模型
1676 次阅读
1 条评论

Flamingo研究的动机是实现视觉语言模型的少样本学习；BLIP-2研究的动机是视觉与语言更精细的对齐；PaLM-E研究的动机是多模态模型适应机器人操纵任务的方法及视觉信息的编码方法。PaLI-X在PaLI模型基础之上研究视觉-语言模型的扩展和训练方法。如图1中左图所示，随着模型的扩展，PaLI模型在不同任务上性能都得到了提升，甚至超越了专业模型。同时，PaLI-X也提升了少样本微调和微调在Pareto边界上SOTA的结果，可见图1中右图所示。与PaLI相比，PaLI-X不仅扩展到更大的模型，还在多任务上同时微调。

- 阅读剩余部分 -

PaLM-E：一个Embodied多模态语言模型

作者: wyli
时间: 2024-03-08
分类: 基础模型,多模态模型
1329 次阅读
2 条评论

PaLM-E架构的核心思想是把连续的观测，例如：图片、状态估计、传感器数据，注入到预训练语言模型的embedding空间。这种注入的实现方式为把连续观测编码为与语言token的embedding维度相同embedding。PaLM-E是语言模型PaLM与视觉编码器的整合。如图1所示，PaLM-E的架构。

- 阅读剩余部分 -

BLIP-2：基于视觉编码器和大语言模型的语言-视觉预训练

作者: wyli
时间: 2024-03-07
分类: 基础模型,多模态模型
1808 次阅读
2 条评论

多模态模型的预训练成本越来越高，且之前的模型在对齐模态上的能力不足够，例如：Flamingo利用以视觉为条件的文本生成损失，仍不足以弥合模态之间的间隔。BLIP-2通过轻量级的Quering Transformer弥合模态之间的间隔，且经历两个阶段的预训练。第一阶段基于frozen视觉编码器进行视觉-语言表示学习，第二阶段基于frozen语言模态进行视觉语言生成学习。在性能，BLIP-2拥有少于Flamingo54倍的参数，且在VQAv2数据集表现高于Flamingo80B 8.7%。如图1所示，BLIP-2架构。

- 阅读剩余部分 -

Flamingo：少样本学习的视觉语言模型

作者: wyli
时间: 2024-03-05
分类: 基础模型,多模态模型
1356 次阅读
2 条评论

在Flamingo之前，多模态模型主要的范式是预训练-微调。然而，有效的微调需要大量的标注数据，也需要精细的超参数微调，且微调需要更新全部参数，这种成本是很高的。虽然基于对比目标的多模态模型能够实现新任务上的少样本学习，但是只能应对有限的情况，无法应用于开放任务，例如：视觉问题回答、看图说话。大语言模型GPT3只需要根据新任务少量的提示-输入-输出的数据就能够实现较强的表示，这种范式被称为少样本学习。FLamingo在这一背景下被提出，它利用一个视觉模型感知视觉场景和语言模型执行推理。新的架构元件连接视觉模型和语言模型，且只有新元件参与训练。基于Perceiver视觉感知模型，Flamingo能够处理高分辨率图片和视频。如图1所示，Flamingo的网络架构。

- 阅读剩余部分 -

大语言模型的低秩适应技术LoRA的原理

作者: wyli
时间: 2024-03-04
分类: 基础模型
844 次阅读
1 条评论

自然语言处理领域许多应用需要微调大规模预训练语言模型，使其适应多个下游任务。然而，这种方式需要更新整个预训练模型的参数，造成微调大模型和部署大模型的成本很高。根据Li和Aghajanyan等人的研究，可知，参数量大的模型的性能实际上依赖于低的固有维度。因此，LoRA作者们假设模型在微调时，权重的改变也有一个低的“内在秩”。如图1所示，LoRA的重参数化方法。

- 阅读剩余部分 -