机器人中的基础模型：应用、挑战、以及未来

根据综述论文简单介绍了一个基础模型在机器人中的应用，以及可赋予机器人的能力。同时，对各种任务进行简单的说明。

图1 任务概览

先理解一下，大语言模型与多模态模型为机器人能力带来的前景。

机器人领域的基础模型可分为：机器人策略学习、语言-图片-目标为条件的价值学习、高级别任务规划、基于LLM的代码生成、Robotic Transformer。

机器人策略学习：分为语言为条件的模仿学习和语言为助手的强化学习。其中，语言为条件的模仿学习以当前状态和语言指令为条件输出动作，其损失函数为最大似然；语言为助手的强化学习需要智能体在仿真环境里面交互，不断获得奖励，提升策略。

语言-图片-目标为条件的价值学习：主要目的是构建一个在不同模态中对齐目标的价值函数。同时，由于价值函数递归的本质，保护了时序的连续性。

高级别任务规划：利用LLMs做任务规划，对高级别指令的任务进行拆解。其中，NL2TL把自然语言转换成时序逻辑，从而赋予机器人系统时序逻辑。

基于LLM的代码生成：利用LLMs生成机器人策略代码。这部分研究不仅仅利用大语言模型写策略代码，而且可用于调用原始控制器的API。

Robotic Transformer：利用基础模型实现端到端的控制，主要方式为提供一个结合感知、决策、以及动作生成的整合框架。

Open-Vocabulary导航：处理未看见过环境的导航任务。开放词表的能力表示机器人拥有理解非限定数据集中语言线索、指令、或语义信息的能力，且能够响应。

Open-Vocabulary操作：在之前未见过的环境中，实现操作物品的能力。

存在的挑战：机器人相关训练数据的稀缺性、安全性保障、不确定性量化、多模态表示的局限性、以及实时执行。