分类 Robot学习 下的文章
基于ACT算法与ALOHA实现精细的双臂操作任务
精细的操作任务包含精确的闭环反馈,需要高度的手眼协调从而对环境的变换做出调整和规划。以打开调料杯为例,初始化在桌面上的杯子:先用右手把它拿起,再把它推入到左夹抓。然后,左夹抓慢慢闭上。接下来,右手的手指接近杯子,打开调料杯。这些步骤需要高度的精确性,精细的手眼协调,且丰富的接触。毫米的误差就会导致任务失败。对于这种精细的操作任务,存在的系统需要利用昂贵的机器人和高端传感器用于精确的状态估计。与之相比,ALOHA是一个低成本的灵活远程操作系统,可用于收集数据。然而,低成本硬件不可避免与高端系统相比缺少精确性。
VRB:从人类视频中获得Affordances作为机器人的多用途表示
The meaning or value of a thing consists of what it affords... what we perceive when we look at objects are their affordances, not their qualities.
-J.J. Gibson
在一个新的厨房环境中,采取动作之前,人类已经对大部分物品可以怎么操作有了很好的理解。这种理解不仅仅停留在语义层面,还知道对象哪里可以握住和往哪个方向移动。虽然这些理解不总是有效,有时可能需要探索,但是人类非常依赖物品的这种视觉affordances,从而在不同的环境中高效的执行日常任务。随着深度学习技术的发展,视觉技术不断的发展,不仅仅可以从图片中标记大部分对象,甚至可以知道其位置。
Diffuser:敏捷行为合成的扩散规划器
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。
DP3:3D扩散策略
F3RM:在复杂3D环境中实现Robot操作的方法
一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务,这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品,也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标,构建了一个预训练视觉embedding为基础的系统,可见图1所示。