MobileVLM V2:视觉语言模型进阶
MobileVLM-v2的主要贡献,如下:
- 设计了可利用高质量多模态数据潜力的训练方法。
- 提出了一个非常轻量级的投射器,不仅显著减少了视觉tokens的数量,而且性能几乎不变。
- 在许多视觉语言benchmark实现了表现与推理速度新的SOTA。
MobileVLM-v2的主要贡献,如下:
MobileVLM是第一个开放的、移动规模的视觉语言模型,且模型是基于开放数据集训练的。该篇论文主要贡献如下:
深度学习在硬件的发展下,模型越做越大,但也需要越来越多的数据。然而,标注数据的成本是很高的。在自然语言处理领域,基于自回归和自编码无监督训练的方式,解决数据少的问题。与之相对的,计算机视觉领域的掩码自编码技术发展的很缓慢。MAE作者们对这种不同的原因进行了分析,结果如下: