wyli 发布的文章

一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务,这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品,也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标,构建了一个预训练视觉embedding为基础的系统,可见图1所示。

- 阅读剩余部分 -

与LLaMA相比,LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比,且模型开源。作者释放了两个版本的模型,分别是:

  • LLaMA2, 在LLAMA1基础之上,模型预训练数据增加了40%,上下文长度增加了两倍。模型参数有7B,13B,70B,34B。
  • LLaMA2-CHAT, LLAMA2的微调版本,主要优化了对话能力。

- 阅读剩余部分 -

LLaMA是一系列开源的基础语言模型,模型大小从7B到65B。其中,13B参数的LLaMA性能优越于175B参数的GPT3,65B参数量的LLaMA与Chinchilla-70B和PaLM-540B的模型性能一致。语言模型扩展到足够的尺寸,可拥有少样本泛化的能力。然而,Hoffmann等人表明:在给定计算资源下,最优的性能不是最大的模型实现的,而是小模型在大量数据上训练实现的。经过实验发现,模型的大小与tokens的数量应该同比例的扩展,才能使模型的性能发挥到极致。然而,Hoffmann等人研究没有考虑推理成本,只考虑了训练成本。由此,LLaMA作者们希望能够在各种各样推理预算下能够训练出最优性能的模型。

- 阅读剩余部分 -

MobileVLM是第一个开放的、移动规模的视觉语言模型,且模型是基于开放数据集训练的。该篇论文主要贡献如下:

  • 第一个详细的、可复制的、性能优越的视觉语言模型,应用于移动设备场景。
  • 在视觉编解码器设计和系统性评估视觉语言模型对训练范式、输入分辨率、以及模型大小敏感性的消融实验。
  • 在视觉与文本特征之间设计了高效投射器,不仅更好的对齐了多模态特征,且减少了推理成本。
  • MobileVLM可在移动和低成本设备上高效运行,其在Qualcomm移动CPU上推理速度21.5token/s,在Jetson Orin GPU上推理速度为65.3 token/s。

- 阅读剩余部分 -

深度学习在硬件的发展下,模型越做越大,但也需要越来越多的数据。然而,标注数据的成本是很高的。在自然语言处理领域,基于自回归和自编码无监督训练的方式,解决数据少的问题。与之相对的,计算机视觉领域的掩码自编码技术发展的很缓慢。MAE作者们对这种不同的原因进行了分析,结果如下:

  • 语言与视觉的信息密度不同。语言是人类创造的,拥有高度的语义和信息密度。在训练模型预测句子中丢失单词时,该任务似乎已到模型学习复杂的语言理解。然而,图片来自于自然界,拥有很强的冗余性,例如:丢失的部分可被邻居部分再次恢复,甚至直接都能被识别。
  • 自编码器的解码器映射隐式表示到输入,对于图片来说这种映射输出是低语义的,对语言来说这种映射输出是有丰富语义的。然而,BERT基于编码器就能学习到很丰富的语义信息,MAE需要编码器和解码器才能学习到丰富的语义。

- 阅读剩余部分 -