MobileVLM V2:视觉语言模型进阶 作者: Evan-wyl 时间: 2024-03-13 分类: 多模态模型,基础模型 473 次阅读 评论 MobileVLM-v2的主要贡献,如下: 设计了可利用高质量多模态数据潜力的训练方法。 提出了一个非常轻量级的投射器,不仅显著减少了视觉tokens的数量,而且性能几乎不变。 在许多视觉语言benchmark实现了表现与推理速度新的SOTA。- 阅读剩余部分 -
MobileVLM:移动设备的视觉语言助手 作者: Evan-wyl 时间: 2024-03-11 分类: 多模态模型,基础模型 457 次阅读 评论 MobileVLM是第一个开放的、移动规模的视觉语言模型,且模型是基于开放数据集训练的。该篇论文主要贡献如下: 第一个详细的、可复制的、性能优越的视觉语言模型,应用于移动设备场景。 在视觉编解码器设计和系统性评估视觉语言模型对训练范式、输入分辨率、以及模型大小敏感性的消融实验。 在视觉与文本特征之间设计了高效投射器,不仅更好的对齐了多模态特征,且减少了推理成本。 MobileVLM可在移动和低成本设备上高效运行,其在Qualcomm移动CPU上推理速度21.5token/s,在Jetson Orin GPU上推理速度为65.3 token/s。- 阅读剩余部分 -