分类多模态模型下的文章

Chameleon：混合模态early-fusion基础模型

作者: wyli
时间: 2024-10-13
分类: 基础模型,多模态模型
556 次阅读
评论

多模态基础模型通常利用特定的编码器或解码器独立的对不同模态建模。然而，这种方式限制了整合模态之间信息的能力，以及生成多模态文本的能力。Chameleon是一系列混合模态基础模型，能够生成和推理文本-图片交织的内容，即该模型以端到端的统一架构处理混合模态数据。

- 阅读剩余部分 -

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

作者: wyli
时间: 2024-03-21
分类: 基础模型,多模态模型
399 次阅读
评论

在LL3DA之前，3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间，作为3D场景的表示，例如：3D-LLM。然而，这种方式需要大量的计算资源。与之不同，LL3DA以3D点云数据为输入，对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾，也能够抽取交互意识的3D场景embedding，用于高效指令跟随。

- 阅读剩余部分 -

MobileVLM V2：视觉语言模型进阶

作者: wyli
时间: 2024-03-13
分类: 基础模型,多模态模型
592 次阅读
评论

MobileVLM-v2的主要贡献，如下：

设计了可利用高质量多模态数据潜力的训练方法。
提出了一个非常轻量级的投射器，不仅显著减少了视觉tokens的数量，而且性能几乎不变。
在许多视觉语言benchmark实现了表现与推理速度新的SOTA。

- 阅读剩余部分 -

MobileVLM：移动设备的视觉语言助手

作者: wyli
时间: 2024-03-11
分类: 基础模型,多模态模型
634 次阅读
评论

MobileVLM是第一个开放的、移动规模的视觉语言模型，且模型是基于开放数据集训练的。该篇论文主要贡献如下：

第一个详细的、可复制的、性能优越的视觉语言模型，应用于移动设备场景。
在视觉编解码器设计和系统性评估视觉语言模型对训练范式、输入分辨率、以及模型大小敏感性的消融实验。
在视觉与文本特征之间设计了高效投射器，不仅更好的对齐了多模态特征，且减少了推理成本。
MobileVLM可在移动和低成本设备上高效运行，其在Qualcomm移动CPU上推理速度21.5token/s，在Jetson Orin GPU上推理速度为65.3 token/s。

- 阅读剩余部分 -

PaLI-X：多语言的视觉-语言模型扩展

作者: wyli
时间: 2024-03-09
分类: 基础模型,多模态模型
1095 次阅读
1 条评论

Flamingo研究的动机是实现视觉语言模型的少样本学习；BLIP-2研究的动机是视觉与语言更精细的对齐；PaLM-E研究的动机是多模态模型适应机器人操纵任务的方法及视觉信息的编码方法。PaLI-X在PaLI模型基础之上研究视觉-语言模型的扩展和训练方法。如图1中左图所示，随着模型的扩展，PaLI模型在不同任务上性能都得到了提升，甚至超越了专业模型。同时，PaLI-X也提升了少样本微调和微调在Pareto边界上SOTA的结果，可见图1中右图所示。与PaLI相比，PaLI-X不仅扩展到更大的模型，还在多任务上同时微调。

- 阅读剩余部分 -

PaLM-E：一个Embodied多模态语言模型

作者: wyli
时间: 2024-03-08
分类: 基础模型,多模态模型
861 次阅读
2 条评论

PaLM-E架构的核心思想是把连续的观测，例如：图片、状态估计、传感器数据，注入到预训练语言模型的embedding空间。这种注入的实现方式为把连续观测编码为与语言token的embedding维度相同embedding。PaLM-E是语言模型PaLM与视觉编码器的整合。如图1所示，PaLM-E的架构。

- 阅读剩余部分 -