根据综述论文简单介绍了一个基础模型在机器人中的应用,以及可赋予机器人的能力。同时,对各种任务进行简单的说明。

图1 任务概览

基础模型的作用

先理解一下,大语言模型与多模态模型为机器人能力带来的前景。

  • LLMs有助于理解任务,从而允许机器人接受和解释高级别的人类指令。
  • VLMs善于分析视觉数据,视觉理解对于明智的决策和复杂任务执行非常重要。
  • 机器人可以利用自然语言线索提升操作、导航、以及交互任务的能力。
  • Vision-Language goal-conditioned策略学习通过模仿学习或强化学习范式,利用基础模型为模型架构,从而提升机器人决策的能力。
  • 大语言模型也为策略学习技术扮演反馈的角色,从而为机器人决策带来持续的提升。

任务概览

机器人领域的基础模型可分为:机器人策略学习、语言-图片-目标为条件的价值学习、高级别任务规划、基于LLM的代码生成、Robotic Transformer。

机器人策略学习:分为语言为条件的模仿学习和语言为助手的强化学习。其中,语言为条件的模仿学习以当前状态和语言指令为条件输出动作,其损失函数为最大似然;语言为助手的强化学习需要智能体在仿真环境里面交互,不断获得奖励,提升策略。

语言-图片-目标为条件的价值学习:主要目的是构建一个在不同模态中对齐目标的价值函数。同时,由于价值函数递归的本质,保护了时序的连续性。

高级别任务规划:利用LLMs做任务规划,对高级别指令的任务进行拆解。其中,NL2TL把自然语言转换成时序逻辑,从而赋予机器人系统时序逻辑。

基于LLM的代码生成:利用LLMs生成机器人策略代码。这部分研究不仅仅利用大语言模型写策略代码,而且可用于调用原始控制器的API。

Robotic Transformer:利用基础模型实现端到端的控制,主要方式为提供一个结合感知、决策、以及动作生成的整合框架。

Open-Vocabulary导航:处理未看见过环境的导航任务。开放词表的能力表示机器人拥有理解非限定数据集中语言线索、指令、或语义信息的能力,且能够响应。

Open-Vocabulary操作:在之前未见过的环境中,实现操作物品的能力。

挑战

存在的挑战:机器人相关训练数据的稀缺性、安全性保障、不确定性量化、多模态表示的局限性、以及实时执行。

标签: none

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论