分类 VLA模型 下的文章

大语言模拥有大量来自互联网文本语料的知识。然而,这些知识无法直接被具身智能体所使用。这是因为大语言模型不是建立在物理世界之上的,也无法观测它的生成对物理世界的影响。SayCan作者研究了为机器人从大语言模型中抽取知识,从而跟随指令的方法。其中,机器人拥有完成低级控制任务的技能库。具体来说,不仅利用LLMs解释指令,而且用于估计单个技能对完成高级别指令的可能性。若每个技能都有一个affordance函数,用于描述每个技能成功的概率,那么LLMs与affordance函数的相结合可估计每个技能完成指令成功的概率。其中,affordance函数使LLM意识到当前场景,也意识到机器人的能力边界。同时,这种方式可产生一个可解释的机器人完成指令执行的序列步骤。

- 阅读剩余部分 -

语言是一个被压缩的媒介,人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式,通过把世界投射到语言空间从而学习表示世界。同时,大语言模型非常擅长推断语言为条件的affordance和约束。由此,VoxPoser作者们利用大语言模型的写代码能力,创建了稠密的3D体素网格地图,且通过协调感知模块把这些信息放入到视觉空间。然后,再把价值地图视作直接合成机器人轨迹的规划器的目标函数。

- 阅读剩余部分 -

一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务,这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品,也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标,构建了一个预训练视觉embedding为基础的系统,可见图1所示。

- 阅读剩余部分 -

机器人任务的表述有三种形式,分别是模仿one-shot演示、跟随语言指令、以及实现视觉目标。然而,这三种方式处理的任务不同,且模型也不同。基于提示的学习在自然语言处理领域展现了通用能力,单个模型可以处理各种各样的任务。VIMA是一个机器人领域的通用智能体,基于多模态提示学习的transformer架构。

- 阅读剩余部分 -

RoboFlamingo是一款新颖的视觉-语言操纵框架,建立在开源的视觉-语言模型OpenFlamingo基础之上。与之前的框架不同,它利用预训练的VLMs作为视觉-语言理解,基于明确的策略head建模序列历史信息,且只是在语言为条件的模仿学习操纵数据集上微调。最终,RoboFlamingo能够灵活的使用开环控制,且能够部署在低成本的设备上,模型的训练与评估也只是基于单个GPU的服务器实现。

- 阅读剩余部分 -

RT-1关注模型的泛化能力相比,RT-2的目标是训练一个学习机器人观测到动作端到端的模型,且能够利用大规模预训练视觉语言模型的益处。最终,提出了一个在机器人轨迹数据和互联网级别的视觉语言任务联合微调视觉语言SOTA模型的学习方式。这类学习方法产生的模型被称为vision-language-action(VLA)模型。经过评估,发现,该类模型获得了涌现能力,包括泛化到新对象的能力、解释命令的能力、根据用户指令思维推理的能力。

- 阅读剩余部分 -