标签 MobileVLMs 下的文章

MobileVLM是第一个开放的、移动规模的视觉语言模型,且模型是基于开放数据集训练的。该篇论文主要贡献如下:

  • 第一个详细的、可复制的、性能优越的视觉语言模型,应用于移动设备场景。
  • 在视觉编解码器设计和系统性评估视觉语言模型对训练范式、输入分辨率、以及模型大小敏感性的消融实验。
  • 在视觉与文本特征之间设计了高效投射器,不仅更好的对齐了多模态特征,且减少了推理成本。
  • MobileVLM可在移动和低成本设备上高效运行,其在Qualcomm移动CPU上推理速度21.5token/s,在Jetson Orin GPU上推理速度为65.3 token/s。

- 阅读剩余部分 -