Consistency Policy:通过一致性蒸馏加速视觉运动策略
由于空间、重量、以及电量的约束,大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而,扩散策略的推理速度较慢,需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间,Consistency Policy作者们通过对扩散策略的蒸馏,得到了一致性策略。
由于空间、重量、以及电量的约束,大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而,扩散策略的推理速度较慢,需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间,Consistency Policy作者们通过对扩散策略的蒸馏,得到了一致性策略。
The meaning or value of a thing consists of what it affords... what we perceive when we look at objects are their affordances, not their qualities.
-J.J. Gibson
在一个新的厨房环境中,采取动作之前,人类已经对大部分物品可以怎么操作有了很好的理解。这种理解不仅仅停留在语义层面,还知道对象哪里可以握住和往哪个方向移动。虽然这些理解不总是有效,有时可能需要探索,但是人类非常依赖物品的这种视觉affordances,从而在不同的环境中高效的执行日常任务。随着深度学习技术的发展,视觉技术不断的发展,不仅仅可以从图片中标记大部分对象,甚至可以知道其位置。
机器人操作是一个时间演化动力系统,需要精细实时控制才能引导机械臂成功完成各种任务。
IBC(Implicit Behavior Cloning)在原理上很简单,就是把行为克隆视作基于能量建模的问题。在推理阶段执行通过采样或梯度下降寻找最优动作$\hat{\mathbf{a}}$的方式执行隐式回归,可见式(1)。
行为克隆算法的前提假设是数据来自于解决特定任务单一模式的专家演示。然而,真实世界的预先收集的数据包含行为的多个模式,即使是同一个人对同样的行为也会展示多种模式。另一方面,Transformer模型容量足够大,且拥有建模多种token的能力。因此,BeT把Transofmer与Behavior Cloning相结合以能够预测多峰分布的动作。