EAI猩球

从离线演示数据中学习的关键点

作者: wyli
时间: 2024-02-17
分类: 模仿学习,Robot学习
1 条评论
1165 次阅读

机器人操作是一个时间演化动力系统，需要精细实时控制才能引导机械臂成功完成各种任务。

- 阅读剩余部分 -

IBC：隐式行为克隆

作者: wyli
时间: 2024-02-16
分类: 模仿学习,Robot学习
1 条评论
1265 次阅读

IBC(Implicit Behavior Cloning)在原理上很简单，就是把行为克隆视作基于能量建模的问题。在推理阶段执行通过采样或梯度下降寻找最优动作$\hat{\mathbf{a}}$的方式执行隐式回归，可见式(1)。

- 阅读剩余部分 -

BeT：一次克隆K个模式

作者: wyli
时间: 2024-02-15
分类: 模仿学习,Robot学习
1 条评论
858 次阅读

行为克隆算法的前提假设是数据来自于解决特定任务单一模式的专家演示。然而，真实世界的预先收集的数据包含行为的多个模式，即使是同一个人对同样的行为也会展示多种模式。另一方面，Transformer模型容量足够大，且拥有建模多种token的能力。因此，BeT把Transofmer与Behavior Cloning相结合以能够预测多峰分布的动作。

- 阅读剩余部分 -

ABS：学习无碰撞高速运动

作者: wyli
时间: 2024-02-13
分类: Robot学习
评论
710 次阅读

ABS是一款四足机器人在杂乱环境中敏捷且高速运动的全新框架。与利用线上系统识别和迁移学习方式实现快速运动的方式不同，该框架有两个策略：敏捷策略以实现执行敏捷电动机技能和恢复策略以保护机器人安全。训练过程包含敏捷策略学习、避碰价值网络、恢复策略学习、以及外部感知表示网络，这些网络在仿真环境中训练完成之后，直接部署到真实机器人上。其中，避碰价值网络主要作用是管理策略的切换。最终，该机器人能够实现高速运动，且可以躲避静态和动态障碍物的能力。

- 阅读剩余部分 -

GAN：生成式对抗网络

作者: wyli
时间: 2024-02-11
分类: 基础模型,生成模型
5 条评论
957 次阅读

生成式对抗网络虽然概念上直接，但是其背后的理论值得深究。简单来说，GAN定义了两个网络，分别是生成网络$G(z;\theta_g)$和判别网络$D(x;\theta_d)$。生成网络基于先验分布$p_z(z)$生成数据$x$的分布$p_g$。判别网络用于判别样本来自于训练数据$x$而不是$p_g$的概率。

- 阅读剩余部分 -

GAIL：生成式对抗模仿学习

作者: wyli
时间: 2024-02-09
分类: 模仿学习
1 条评论
2041 次阅读

模仿学习主要有两种形式，分别是行为克隆和逆强化学习。其中，行为克隆把学习一个策略视作关于状态-动作的监督学习问题；逆强化学习是先找到专家策略奖励最大的奖励函数，然后基于奖励函数学习出策略。行为克隆算法虽然简单，但是该类算法很容易受到分布偏移造成的复合误差影响。逆强化学习与之相反，不仅需要计算奖励函数，还需要在内循环中进行强化学习，所以计算成本很高。

- 阅读剩余部分 -

从离线演示数据中学习的关键点

IBC：隐式行为克隆

BeT：一次克隆K个模式

ABS：学习无碰撞高速运动

GAN：生成式对抗网络

GAIL：生成式对抗模仿学习

最新文章

标签云 (Top20)

分类