分类模仿学习下的文章 - EAI猩球

EAI猩球

Sharing knowledge, Acquiring technology.

分类模仿学习下的文章

如何从数据中估计出泛化性较强的奖励函数？

作者: wyli
时间: 2024-12-15
分类: 模仿学习
440 次阅读
评论

IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身，这是因为演示数据可被许多最优策略解释，且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理，而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战，AIRL算法在最大熵框架下可学习出真实奖励函数，拥有较强的泛化性。

- 阅读剩余部分 -

Consistency Policy：通过一致性蒸馏加速视觉运动策略

作者: wyli
时间: 2024-07-04
分类: 模仿学习,Robot学习
802 次阅读
评论

由于空间、重量、以及电量的约束，大部分机器人系统无法配备高端GPUs。扩散策略在机器人控制的模仿学习领域实现了惊人的性能。然而，扩散策略的推理速度较慢，需要多步迭代才能生成动作。这种推理速度慢的约束限制了扩散策略的应用范围。为了保留扩散策略的性能且减少推理时间，Consistency Policy作者们通过对扩散策略的蒸馏，得到了一致性策略。

- 阅读剩余部分 -

Diffuser：敏捷行为合成的扩散规划器

作者: wyli
时间: 2024-03-23
分类: 模仿学习,Robot学习
483 次阅读
1 条评论

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。

- 阅读剩余部分 -

DP3：3D扩散策略

作者: wyli
时间: 2024-03-20
分类: 模仿学习,Robot学习
437 次阅读
评论

扩散策略算法需要大量的演示数据才能实现较强的泛化性。然而，模仿学习算法收集任务相关的数据耗时很长。为了应对该挑战，DP3把3D视觉表示与扩散策略相整合。

- 阅读剩余部分 -

从离线演示数据中学习的关键点

作者: wyli
时间: 2024-02-17
分类: 模仿学习,Robot学习
632 次阅读
1 条评论

机器人操作是一个时间演化动力系统，需要精细实时控制才能引导机械臂成功完成各种任务。

- 阅读剩余部分 -

IBC：隐式行为克隆

作者: wyli
时间: 2024-02-16
分类: 模仿学习,Robot学习
638 次阅读
1 条评论

IBC(Implicit Behavior Cloning)在原理上很简单，就是把行为克隆视作基于能量建模的问题。在推理阶段执行通过采样或梯度下降寻找最优动作$\hat{\mathbf{a}}$的方式执行隐式回归，可见式(1)。

- 阅读剩余部分 -