SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。

- 阅读剩余部分 -

LL3DA之前,3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间,作为3D场景的表示,例如:3D-LLM。然而,这种方式需要大量的计算资源。与之不同,LL3DA以3D点云数据为输入,对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾,也能够抽取交互意识的3D场景embedding,用于高效指令跟随。

- 阅读剩余部分 -

一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务,这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品,也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标,构建了一个预训练视觉embedding为基础的系统,可见图1所示。

- 阅读剩余部分 -

与LLaMA相比,LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比,且模型开源。作者释放了两个版本的模型,分别是:

  • LLaMA2, 在LLAMA1基础之上,模型预训练数据增加了40%,上下文长度增加了两倍。模型参数有7B,13B,70B,34B。
  • LLaMA2-CHAT, LLAMA2的微调版本,主要优化了对话能力。

- 阅读剩余部分 -