面对未知:学习一个具有线上系统识别的通用策略
简单来说,UP-OSI作者们提出了一个学习框架(可见图1),用于解决机器人领域"Reality Gap"的问题。该学习框架的核心思想是:通过仿真探索“虚拟世界”,提前计算机器人能够遇到的许多可能情况。为了该方法可行,作者们提出了两个假设,分别是
- 假设存在一种方法可提前计算每种动力学模型的最优策略。
- 假设存在一种快速方法可知道哪种动力学模型适合观测序列。
简单来说,UP-OSI作者们提出了一个学习框架(可见图1),用于解决机器人领域"Reality Gap"的问题。该学习框架的核心思想是:通过仿真探索“虚拟世界”,提前计算机器人能够遇到的许多可能情况。为了该方法可行,作者们提出了两个假设,分别是
Mobile ALOHA是一款可移动的双臂操纵机器人,用于处理日常家务。日常的家务往往需要机器人移动能力和操纵能力协作才能完成,例如:机器人把锅放在冰箱内,机器人先要移动到冰箱前,然后打开冰箱,最后把物品放入冰箱。在打开冰箱的时候,甚至需要机器人底座倒车。然而,前人工作只是移动能力或操纵能力单方面的研究,这与现实相差很大。
如图1所示,ViT整体架构很简单,由Transformer的Encoder构成,非双向。首先,图片分成$N$块patch,作为输入序列的token。然后,$N$token被打平,再输入线性映射层得到embedding。接下来,patch embedding与position embedding相加输入Encoder。与Bert的class token一样,也有一个可学习类别embedding的token $z_0^0$,其在Encoder对应输出$z_L^0$是整个图片的表示。最后,$z_L^0$输入到MLP网络预测类别,即在图片分类任务上预训练。
基于强化学习范式的足式机器人能够在复杂的领域运动。然而,复杂的行为很难生成。同时,奖励设计和参数调节都需要花费很长的时间设计。
在RMA足式机器人中,主要希望智能体学习到快速适应环境的策略。虽然RMA表现出性能较好,但是没有利用视觉信息。文献[1],在RMA的基础上增加视觉信息,机器人更能适应挑战的领域上运动。