LL3DA:Omini-3D理解-推理-规划的视觉交互指令微调 作者: Evan-wyl 时间: 2024-03-21 分类: 多模态模型,基础模型 303 次阅读 评论 在LL3DA之前,3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间,作为3D场景的表示,例如:3D-LLM。然而,这种方式需要大量的计算资源。与之不同,LL3DA以3D点云数据为输入,对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾,也能够抽取交互意识的3D场景embedding,用于高效指令跟随。- 阅读剩余部分 -