一文看懂基础模型在机器人领域的应用与机器人的基础模型的研究进展

图1 内容概览
Paper: Real-World Robot Applications of Foundation Models: A Review
Links: https://arxiv.org/abs/2402.05741
如图1所示,本篇综述的第2部分,根据模态描绘了基础模型,可见图2所示,且介绍了可应用的下游任务。在第3部分,根据当前应用描述了基础模型应用到机器人的方法。总的来说,机器人需要拥有感知模块、规划模块、以及控制模块。从这个视角,基础模型可作为机器人的低层感知、高层感知、高层规划、低层规划。除此之外,作者们还解释了直接训练一个连接低层感知与低层规划映射的数据增强。在第4部分,描述了包含机器人具身的基础模型与机器人的基础模型。对于机器人的基础模型,还讨论了在模型架构、数据集、以及学习目标中创建这些基础模型的方法。在第5部分,介绍了基础模型可应用的机器人、任务、以及环境。其中,任务被分类为导航、操作、基于导航的操作、运动、以及通信。最后,作者们还讨论了结论以及面临的挑战。与其它综述论文相比,该论文主要从基础模型的Input-Output之间关系以及机器人的感知、运动规划与控制方面,总结了利用基础模型替换机器人系统中特定元件的方法。

图2 基础模型概览。根据模态与网络的输入-输出对基础模型进行分类。
基础模型在机器人领域的应用

图3 基础模型在机器人领域应用概览
如图3所示,基础模型在机器人领域不同利用方式之间的关系。对于低层感知,基础模型主要用于语义分割与图片或3D表示的有界box抽取,以及各种模态的特征抽取。对于高层感知,基础模型主要用于对低层感知结果的变形与利用,例如:把低层感知转换为地图、奖励、以及运动约束。对于高层规划,基础模型主要用于抽象的任务规划,不进行直接的控制。对于低层规划,基础模型主要用于执行低层运动控制,包含关节与末端执行其的控制。对于数据增强,基础模型主要通过数据增强的方式提升低层感知到低层规划之间连接学习的鲁棒性。

图4 基础模型在机器人领域不同利用方式的四种组合类型
如图4所示,5种利用方式的不同组合方式形成的4种应用。确切的说,这4种应用为
- 执行低层感知,然后利用高层规划执行控制。
- 通过低层感知与高层感知抽取奖励与运动约束,再把它用于RL与轨迹优化。
- 通过低层感知与高层感知生成地图、场景图等,再把它们用作任务规划。
- 通过数据增强的方式提升端到端学习的鲁棒性,该学习直接关联低层感知与控制输入中抽取的特征。
机器人的基础模型进展
不仅有基础模型用于机器人的感知和规划,也有机器人的基础模型。与LLM或VLM相比,开发机器人的基础模型需要特别注意机器人的应用领域。这是因为收集各种各样的数据成本很高且扩展性差,同时机器人需要处理的数据不止是图片或文字。如表1所示,机器人的基础模型示例。
表1 机器人的基础模型示例

机器人的基础模型,主要有三类,分别是预训练视觉表示、机器人的视觉语言模型、端到端的控制策略VLA与动力学模型。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接