EAI猩球

BLIP-2：基于视觉编码器和大语言模型的语言-视觉预训练

作者: wyli
时间: 2024-03-07
分类: 基础模型,多模态模型
2 条评论
1163 次阅读

多模态模型的预训练成本越来越高，且之前的模型在对齐模态上的能力不足够，例如：Flamingo利用以视觉为条件的文本生成损失，仍不足以弥合模态之间的间隔。BLIP-2通过轻量级的Quering Transformer弥合模态之间的间隔，且经历两个阶段的预训练。第一阶段基于frozen视觉编码器进行视觉-语言表示学习，第二阶段基于frozen语言模态进行视觉语言生成学习。在性能，BLIP-2拥有少于Flamingo54倍的参数，且在VQAv2数据集表现高于Flamingo80B 8.7%。如图1所示，BLIP-2架构。

- 阅读剩余部分 -

Flamingo：少样本学习的视觉语言模型

作者: wyli
时间: 2024-03-05
分类: 基础模型,多模态模型
2 条评论
903 次阅读

在Flamingo之前，多模态模型主要的范式是预训练-微调。然而，有效的微调需要大量的标注数据，也需要精细的超参数微调，且微调需要更新全部参数，这种成本是很高的。虽然基于对比目标的多模态模型能够实现新任务上的少样本学习，但是只能应对有限的情况，无法应用于开放任务，例如：视觉问题回答、看图说话。大语言模型GPT3只需要根据新任务少量的提示-输入-输出的数据就能够实现较强的表示，这种范式被称为少样本学习。FLamingo在这一背景下被提出，它利用一个视觉模型感知视觉场景和语言模型执行推理。新的架构元件连接视觉模型和语言模型，且只有新元件参与训练。基于Perceiver视觉感知模型，Flamingo能够处理高分辨率图片和视频。如图1所示，Flamingo的网络架构。

- 阅读剩余部分 -

大语言模型的低秩适应技术LoRA的原理

作者: wyli
时间: 2024-03-04
分类: 基础模型
1 条评论
516 次阅读

自然语言处理领域许多应用需要微调大规模预训练语言模型，使其适应多个下游任务。然而，这种方式需要更新整个预训练模型的参数，造成微调大模型和部署大模型的成本很高。根据Li和Aghajanyan等人的研究，可知，参数量大的模型的性能实际上依赖于低的固有维度。因此，LoRA作者们假设模型在微调时，权重的改变也有一个低的“内在秩”。如图1所示，LoRA的重参数化方法。

- 阅读剩余部分 -

基于GPT-4的指令微调

作者: wyli
时间: 2024-02-29
分类: 基础模型
评论
499 次阅读

大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务，研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型，要么利用开源benchmarks和datasets有监督微调。在这些方法中，自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能，基于GPT-4的微调利用GPT-4作为teacher生成数据，用于自主指令微调。

- 阅读剩余部分 -

符号微调增强语言模型的上下文学习

作者: wyli
时间: 2024-02-29
分类: 基础模型
2 条评论
391 次阅读

符号微调利用上下文输入-标签对进行语言模型的微调，其中标签为任意符号。这种微调方式背后的直觉是：若指令和相关标签不可获取，那么模型必须使用上下文样本学习任务。DeepMind研究人员也对符号进行了研究，表明符号是人类赋予其含义，若定义一套机器的符号，那么语义将被重新定义，进而可以评估人工智能模型遵循特定的标准。如图1所示，指令微调与符号微调的对比。

- 阅读剩余部分 -

LLaVA：视觉指令微调

作者: wyli
时间: 2024-02-28
分类: 基础模型
评论
524 次阅读

利用机器生成的跟随指令数据调优大语言模型，提升了模型的零样本泛化能力。与之对应的，LLaVA是第一个尝试利用多模态语言-视觉指令跟随数据调优的多模态大模型。其中，多模态指令跟随数据主要由GPT-4产生的。实验结果表明，LLaVA拥有多模态聊天能力和零样本泛化能力。在Science QA数据集上微调，实现了92.53%的准确率。

- 阅读剩余部分 -

BLIP-2：基于视觉编码器和大语言模型的语言-视觉预训练

Flamingo：少样本学习的视觉语言模型

大语言模型的低秩适应技术LoRA的原理

基于GPT-4的指令微调

符号微调增强语言模型的上下文学习

LLaVA：视觉指令微调

最新文章

标签云 (Top20)

分类