标签 MobileVLMs 下的文章 - EAI猩球

EAI猩球

Sharing knowledge, Acquiring technology.

标签 MobileVLMs 下的文章

MobileVLM V2：视觉语言模型进阶

作者: wyli
时间: 2024-03-13
分类: 基础模型,多模态模型
611 次阅读
评论

MobileVLM-v2的主要贡献，如下：

设计了可利用高质量多模态数据潜力的训练方法。
提出了一个非常轻量级的投射器，不仅显著减少了视觉tokens的数量，而且性能几乎不变。
在许多视觉语言benchmark实现了表现与推理速度新的SOTA。

- 阅读剩余部分 -

MobileVLM：移动设备的视觉语言助手

作者: wyli
时间: 2024-03-11
分类: 基础模型,多模态模型
658 次阅读
评论

MobileVLM是第一个开放的、移动规模的视觉语言模型，且模型是基于开放数据集训练的。该篇论文主要贡献如下：

第一个详细的、可复制的、性能优越的视觉语言模型，应用于移动设备场景。
在视觉编解码器设计和系统性评估视觉语言模型对训练范式、输入分辨率、以及模型大小敏感性的消融实验。
在视觉与文本特征之间设计了高效投射器，不仅更好的对齐了多模态特征，且减少了推理成本。
MobileVLM可在移动和低成本设备上高效运行，其在Qualcomm移动CPU上推理速度21.5token/s，在Jetson Orin GPU上推理速度为65.3 token/s。

- 阅读剩余部分 -