EAI猩球

SAM：分割任何事物

作者: wyli
时间: 2024-03-24
分类: 基础模型,视觉模型
评论
323 次阅读

SAM是一个图像分割的基础模型，该模型在大规模数据集上预训练，也属于可提示的模型。为了构建SAM模型，作者们定义了一个可提示的分割任务，创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时，为了训练模型，构建了一个数据引擎，可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示，构建SAM的三大元件：任务、模型、数据。

- 阅读剩余部分 -

Diffuser：敏捷行为合成的扩散规划器

作者: wyli
时间: 2024-03-23
分类: 模仿学习,Robot学习
1 条评论
496 次阅读

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。

- 阅读剩余部分 -

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

作者: wyli
时间: 2024-03-21
分类: 基础模型,多模态模型
评论
423 次阅读

在LL3DA之前，3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间，作为3D场景的表示，例如：3D-LLM。然而，这种方式需要大量的计算资源。与之不同，LL3DA以3D点云数据为输入，对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾，也能够抽取交互意识的3D场景embedding，用于高效指令跟随。

- 阅读剩余部分 -

DP3：3D扩散策略

作者: wyli
时间: 2024-03-20
分类: 模仿学习,Robot学习
评论
455 次阅读

扩散策略算法需要大量的演示数据才能实现较强的泛化性。然而，模仿学习算法收集任务相关的数据耗时很长。为了应对该挑战，DP3把3D视觉表示与扩散策略相整合。

- 阅读剩余部分 -

F3RM：在复杂3D环境中实现Robot操作的方法

作者: wyli
时间: 2024-03-19
分类: 基础模型,VLA模型,Robot学习
评论
486 次阅读

一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务，这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品，也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标，构建了一个预训练视觉embedding为基础的系统，可见图1所示。

- 阅读剩余部分 -

LLaMA2：开源的Chat模型

作者: wyli
时间: 2024-03-16
分类: 基础模型,大语言模型
1 条评论
392 次阅读

与LLaMA相比，LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比，且模型开源。作者释放了两个版本的模型，分别是：

LLaMA2， 在LLAMA1基础之上，模型预训练数据增加了40%，上下文长度增加了两倍。模型参数有7B,13B,70B,34B。
LLaMA2-CHAT， LLAMA2的微调版本，主要优化了对话能力。

- 阅读剩余部分 -

SAM：分割任何事物

Diffuser：敏捷行为合成的扩散规划器

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

DP3：3D扩散策略

F3RM：在复杂3D环境中实现Robot操作的方法

LLaMA2：开源的Chat模型

最新文章

标签云 (Top20)

分类