机器人操作是一个时间演化动力系统,需要精细实时控制才能引导机械臂成功完成各种任务。近几年,虽然基于学习的控制表现出优越的性能,但是也存在许多挑战:

  • 人类演示的数据与机器产生的数据呈现的模式不同。
  • 人类不只依赖当前观测采取行动,从而呈现非马尔可夫决策过程。
  • 不同人演示产生的数据质量和解决方案有明显的不同。
  • BC监督学习范式下训练目标与评估目标的不一致,导致选择最终策略很有挑战。
  • 离线学习对数据集中覆盖的状态、动作空间范围和算法的设计决策很敏感。

基于机器行为数据和人类演示数据集研究这些挑战,是解决机器人与人类操作能力之间间隔的垫脚石。为了研究这些挑战,文献[1]作者们收集了各种任务由人类远程操作演示的数据。

研究方法

任务

为了进行研究,作者们执行了5个仿真实验和3个真实世界任务。

Lift(sim+real):机器人必须举起一个小立方体,这是最简单的任务。

Can(sim+real):机器人必须将可乐罐从大垃圾箱放入较小的目标垃圾箱中。 轻微地比举起更具挑战性,因为拾取罐子比拾取立方体更难,并且罐子必须
也可放入垃圾箱。

Square(sim):机器人必须拾起一个方螺母并将其放在一根杆上。 由于拾取螺母并将其插入杆上所需的精度,因此比提升和拾取放置罐要困难得多。

Transport(sim):两个机器人手臂必须将锤子从架子上的封闭容器转移到另一个架子上的目标箱中。 一个机器人手臂必须从容器中取出锤子,而另一只手臂必须通过将一块垃圾移至附近的容器来清理目标垃圾箱。 最后,一 一方必须将锤子交给另一方,另一方必须将锤子放入目标箱中。

Tool Hang(sim+real):机器人手臂必须通过将钩子插入底座来组装由底座件和钩件组成的框架,并将扳手挂在钩子上。 这是最困难的任务,因为有多个阶段,每个阶段都需要精确、灵巧的旋转动作。

算法选择

作者们选择了6个算法用于研究,分别是Behavioral Cloning (BC), BC with an RNN policy(BC-RNN), Hierarchical Behavioral Cloning (HBC), Batch-Constrained Q-Learning (BCQ),Conservative Q-Learning (CQL), and IRIS.

实验结果分析

基于单人与多人演示数据学习的算法比较

作者们在专家数据和多人演示数据上训练和评估了所有算法,其效果可见表1所示。其中,低维观测数据与高维观测数据之间主要的区别是真实操作对象的信息是否被图片代替。

表1 各种算法在低维观测数据上的结果

low-dim Machine-Generated (MG), Proficient-Human (PH), and Multi-Human (MH) datasets.

根据表1,可得如下结论:

  • 根据BC-RNN算法与BC算法的比较,可知,观测历史对算法性能的提升很重要。
  • Offline RL在人类演示数据上表现很差。

基于人类次优演示数据学习的比较

为了研究人类次优数据对算法性能的影响,作者们根据操作员的熟练程度把数据集划分为三类,分别是MH-Better,MH-Ok和MH-Worse。其中,MH Worse-Okay,MH Worse-Better,MH Okay-Better为混合数据。如表2所示,算法的性能。

表2 各种算法在次优演示数据上的结果

根据表2,可得如下结论:

  • BC-RNN的性能最好,但是没有可提升的空间。
  • Offline RL即使在简单任务中也有困难。

观测空间产生的影响

根据表3,可知,基于图片为观测空间的学习能够实现与基于真实对象位置数据学习相当的性能。

表3 在图片数据为观测空间上的效果

根据图1.a,可知,机器人的外部感知特征对算法的性能很重要。同时,图片随机化和腕处观测数据对操作任务很重要。

图1 不同观测空间和超参数选择对算法的影响

根据图1.b和图1.c,可得:

  • 增加学习率会降低基于视觉智能体的性能。
  • 增加MLP网络大小会降低算法性能。
  • 利用浅层卷积代替ResNet会降低算法性能。

作者们建议:仔细调节学习率和MLP网络大小,选择GMM策略和ResNet编码器能够提升算法性能。

策略选择的评估准则

图2 策略选择准则对算法性能的影响

根据图2可知,无论是选择模型训练时最好的模型,还是选择最后的模型,性能都差不多。因此,算法选择的标准是一个需要研究的方向。

数据集大小产生的影响

图3 数据集大小对算法的影响

根据图3,可知,任务越复杂,需要的数据也越多。

参考文献

  1. https://arxiv.org/abs/2108.03298

标签: RL关键点

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论