Consistency Policy:通过一致性蒸馏加速视觉运动策略
由于空间、重量、以及电量的约束,大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而,扩散策略的推理速度较慢,需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间,Consistency Policy作者们通过对扩散策略的蒸馏,得到了一致性策略。
由于空间、重量、以及电量的约束,大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而,扩散策略的推理速度较慢,需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间,Consistency Policy作者们通过对扩散策略的蒸馏,得到了一致性策略。
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。
基于演示的策略学习是学习观测到动作映射的监督学习任务。然而,现实中机器人动作具有多峰分布、序列相关、以及高精度要求的特点,与其它监督学习任务相比具有很大的挑战。扩散策略是一个新形式的机器人视觉运动策略。与直接预测动作不同,它以视觉观测为条件推断动作-分数的梯度。这种方式学习到的策略继承了扩散模型许多关键特性: