分类 多模态模型 下的文章

多模态模型的预训练成本越来越高,且之前的模型在对齐模态上的能力不足够,例如:Flamingo利用以视觉为条件的文本生成损失,仍不足以弥合模态之间的间隔。BLIP-2通过轻量级的Quering Transformer弥合模态之间的间隔,且经历两个阶段的预训练。第一阶段基于frozen视觉编码器进行视觉-语言表示学习,第二阶段基于frozen语言模态进行视觉语言生成学习。在性能,BLIP-2拥有少于Flamingo54倍的参数,且在VQAv2数据集表现高于Flamingo80B 8.7%。如图1所示,BLIP-2架构。

- 阅读剩余部分 -

Flamingo之前,多模态模型主要的范式是预训练-微调。然而,有效的微调需要大量的标注数据,也需要精细的超参数微调,且微调需要更新全部参数,这种成本是很高的。虽然基于对比目标的多模态模型能够实现新任务上的少样本学习,但是只能应对有限的情况,无法应用于开放任务,例如:视觉问题回答、看图说话。大语言模型GPT3只需要根据新任务少量的提示-输入-输出的数据就能够实现较强的表示,这种范式被称为少样本学习。FLamingo在这一背景下被提出,它利用一个视觉模型感知视觉场景和语言模型执行推理。新的架构元件连接视觉模型和语言模型,且只有新元件参与训练。基于Perceiver视觉感知模型,Flamingo能够处理高分辨率图片和视频。如图1所示,Flamingo的网络架构。

- 阅读剩余部分 -

MLLM发展遵循着LLM的相似路径,Flamingo是第一个大规模探索上下文学习的视觉语言模型。之后,visual instruction-tuning很快成为了最重要的训练范式。如图1所示,MLLM至少包含三个元件:一个LLM backbone为用户提供接口、一个视觉编码器、以及一个或多个视觉语言自适应模块。

- 阅读剩余部分 -

自然语言处理领域基于原始文本的预训练模型已经可以实现零样本泛化到下游任务,且性能优越于基于高质量标签数据的模型。然而,在计算机视觉领域基于图片预测标签的SOTA模型,要么是有监督的训练,要么是预训练-微调的方式,且模型的规模也无法与GPT3这样的模型相比。作者们提出了CLIP(Contrastive Lanuage-Image Pre-training),该模型利用自然语言监督的方式在图片分类任务上大规模的训练模型。

- 阅读剩余部分 -