MobileVLM V2:视觉语言模型进阶
MobileVLM-v2的主要贡献,如下:
- 设计了可利用高质量多模态数据潜力的训练方法。
- 提出了一个非常轻量级的投射器,不仅显著减少了视觉tokens的数量,而且性能几乎不变。
在许多视觉语言benchmark实现了表现与推理速度新的SOTA。
MobileVLM-v2的主要贡献,如下:
在许多视觉语言benchmark实现了表现与推理速度新的SOTA。
MobileVLM是第一个开放的、移动规模的视觉语言模型,且模型是基于开放数据集训练的。该篇论文主要贡献如下:
MobileVLM可在移动和低成本设备上高效运行,其在Qualcomm移动CPU上推理速度21.5token/s,在Jetson Orin GPU上推理速度为65.3 token/s。