标签 3D多模态下的文章

EAI猩球

Sharing knowledge, Acquiring technology.

标签 3D多模态下的文章

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

作者: wyli
时间: 2024-03-21
分类: 基础模型,多模态模型
538 次阅读
评论

在LL3DA之前，3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间，作为3D场景的表示，例如：3D-LLM。然而，这种方式需要大量的计算资源。与之不同，LL3DA以3D点云数据为输入，对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾，也能够抽取交互意识的3D场景embedding，用于高效指令跟随。

- 阅读剩余部分 -

标签 3D多模态下的文章

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

最新文章

标签云 (Top20)

分类

标签 3D多模态 下的文章

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

最新文章

标签云 (Top20)

分类

标签 3D多模态下的文章