wyli 发布的文章

Flamingo研究的动机是实现视觉语言模型的少样本学习;BLIP-2研究的动机是视觉与语言更精细的对齐;PaLM-E研究的动机是多模态模型适应机器人操纵任务的方法及视觉信息的编码方法。PaLI-XPaLI模型基础之上研究视觉-语言模型的扩展和训练方法。如图1中左图所示,随着模型的扩展,PaLI模型在不同任务上性能都得到了提升,甚至超越了专业模型。同时,PaLI-X也提升了少样本微调和微调在Pareto边界上SOTA的结果,可见图1中右图所示。与PaLI相比,PaLI-X不仅扩展到更大的模型,还在多任务上同时微调。

- 阅读剩余部分 -

PaLM-E架构的核心思想是把连续的观测,例如:图片、状态估计、传感器数据,注入到预训练语言模型的embedding空间。这种注入的实现方式为把连续观测编码为与语言token的embedding维度相同embedding。PaLM-E是语言模型PaLM与视觉编码器的整合。如图1所示,PaLM-E的架构。

- 阅读剩余部分 -

多模态模型的预训练成本越来越高,且之前的模型在对齐模态上的能力不足够,例如:Flamingo利用以视觉为条件的文本生成损失,仍不足以弥合模态之间的间隔。BLIP-2通过轻量级的Quering Transformer弥合模态之间的间隔,且经历两个阶段的预训练。第一阶段基于frozen视觉编码器进行视觉-语言表示学习,第二阶段基于frozen语言模态进行视觉语言生成学习。在性能,BLIP-2拥有少于Flamingo54倍的参数,且在VQAv2数据集表现高于Flamingo80B 8.7%。如图1所示,BLIP-2架构。

- 阅读剩余部分 -

Flamingo之前,多模态模型主要的范式是预训练-微调。然而,有效的微调需要大量的标注数据,也需要精细的超参数微调,且微调需要更新全部参数,这种成本是很高的。虽然基于对比目标的多模态模型能够实现新任务上的少样本学习,但是只能应对有限的情况,无法应用于开放任务,例如:视觉问题回答、看图说话。大语言模型GPT3只需要根据新任务少量的提示-输入-输出的数据就能够实现较强的表示,这种范式被称为少样本学习。FLamingo在这一背景下被提出,它利用一个视觉模型感知视觉场景和语言模型执行推理。新的架构元件连接视觉模型和语言模型,且只有新元件参与训练。基于Perceiver视觉感知模型,Flamingo能够处理高分辨率图片和视频。如图1所示,Flamingo的网络架构。

- 阅读剩余部分 -

自然语言处理领域许多应用需要微调大规模预训练语言模型,使其适应多个下游任务。然而,这种方式需要更新整个预训练模型的参数,造成微调大模型和部署大模型的成本很高。根据Li和Aghajanyan等人的研究,可知,参数量大的模型的性能实际上依赖于低的固有维度。因此,LoRA作者们假设模型在微调时,权重的改变也有一个低的“内在秩”。如图1所示,LoRA的重参数化方法。

- 阅读剩余部分 -

大语言模型在上下文学习思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。

- 阅读剩余部分 -