机器人中的基础模型:应用、挑战、以及未来
根据综述论文简单介绍了一个基础模型在机器人中的应用,以及可赋予机器人的能力。同时,对各种任务进行简单的说明。

图1 任务概览
基础模型的作用
先理解一下,大语言模型与多模态模型为机器人能力带来的前景。
- LLMs有助于理解任务,从而允许机器人接受和解释高级别的人类指令。
- VLMs善于分析视觉数据,视觉理解对于明智的决策和复杂任务执行非常重要。
- 机器人可以利用自然语言线索提升操作、导航、以及交互任务的能力。
- Vision-Language goal-conditioned策略学习通过模仿学习或强化学习范式,利用基础模型为模型架构,从而提升机器人决策的能力。
- 大语言模型也为策略学习技术扮演反馈的角色,从而为机器人决策带来持续的提升。
任务概览
机器人领域的基础模型可分为:机器人策略学习、语言-图片-目标为条件的价值学习、高级别任务规划、基于LLM的代码生成、Robotic Transformer。
机器人策略学习:分为语言为条件的模仿学习和语言为助手的强化学习。其中,语言为条件的模仿学习以当前状态和语言指令为条件输出动作,其损失函数为最大似然;语言为助手的强化学习需要智能体在仿真环境里面交互,不断获得奖励,提升策略。
语言-图片-目标为条件的价值学习:主要目的是构建一个在不同模态中对齐目标的价值函数。同时,由于价值函数递归的本质,保护了时序的连续性。
高级别任务规划:利用LLMs做任务规划,对高级别指令的任务进行拆解。其中,NL2TL把自然语言转换成时序逻辑,从而赋予机器人系统时序逻辑。
基于LLM的代码生成:利用LLMs生成机器人策略代码。这部分研究不仅仅利用大语言模型写策略代码,而且可用于调用原始控制器的API。
Robotic Transformer:利用基础模型实现端到端的控制,主要方式为提供一个结合感知、决策、以及动作生成的整合框架。
Open-Vocabulary导航:处理未看见过环境的导航任务。开放词表的能力表示机器人拥有理解非限定数据集中语言线索、指令、或语义信息的能力,且能够响应。
Open-Vocabulary操作:在之前未见过的环境中,实现操作物品的能力。
挑战
存在的挑战:机器人相关训练数据的稀缺性、安全性保障、不确定性量化、多模态表示的局限性、以及实时执行。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接