分类 Robot学习下的文章

ALOHA2：一个增强的双臂操作低成本硬件

作者: wyli
时间: 2024-04-20
分类: Robot学习
1199 次阅读
评论

与ALOHA相比，ALOHA2拥有更强的表现、更友好的人体工程学、以及更强的鲁棒性。同时，作者们还开源它的MuJoCo模型。如图1所示，ALOHA2拥有重力补偿，重新设计了leader与follower夹抓。

基于ACT算法与ALOHA实现精细的双臂操作任务

作者: wyli
时间: 2024-04-20
分类: Robot学习
1695 次阅读
1 条评论

精细的操作任务包含精确的闭环反馈，需要高度的手眼协调从而对环境的变换做出调整和规划。以打开调料杯为例，初始化在桌面上的杯子：先用右手把它拿起，再把它推入到左夹抓。然后，左夹抓慢慢闭上。接下来，右手的手指接近杯子，打开调料杯。这些步骤需要高度的精确性，精细的手眼协调，且丰富的接触。毫米的误差就会导致任务失败。对于这种精细的操作任务，存在的系统需要利用昂贵的机器人和高端传感器用于精确的状态估计。与之相比，ALOHA是一个低成本的灵活远程操作系统，可用于收集数据。然而，低成本硬件不可避免与高端系统相比缺少精确性。

- 阅读剩余部分 -

VRB：从人类视频中获得Affordances作为机器人的多用途表示

作者: wyli
时间: 2024-04-12
分类: Robot学习
1025 次阅读
评论

The meaning or value of a thing consists of what it affords... what we perceive when we look at objects are their affordances, not their qualities.
-J.J. Gibson

在一个新的厨房环境中，采取动作之前，人类已经对大部分物品可以怎么操作有了很好的理解。这种理解不仅仅停留在语义层面，还知道对象哪里可以握住和往哪个方向移动。虽然这些理解不总是有效，有时可能需要探索，但是人类非常依赖物品的这种视觉affordances，从而在不同的环境中高效的执行日常任务。随着深度学习技术的发展，视觉技术不断的发展，不仅仅可以从图片中标记大部分对象，甚至可以知道其位置。

- 阅读剩余部分 -

Diffuser：敏捷行为合成的扩散规划器

作者: wyli
时间: 2024-03-23
分类: 模仿学习,Robot学习
817 次阅读
1 条评论

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。

- 阅读剩余部分 -

DP3：3D扩散策略

作者: wyli
时间: 2024-03-20
分类: 模仿学习,Robot学习
836 次阅读
评论

扩散策略算法需要大量的演示数据才能实现较强的泛化性。然而，模仿学习算法收集任务相关的数据耗时很长。为了应对该挑战，DP3把3D视觉表示与扩散策略相整合。

- 阅读剩余部分 -

F3RM：在复杂3D环境中实现Robot操作的方法

作者: wyli
时间: 2024-03-19
分类: 基础模型,VLA模型,Robot学习
796 次阅读
评论

一个仓库机器人从杂乱的储物箱中分拣物品从而完成订单任务，这不仅仅需要拥有视觉和语言的语义理解能力从而识别正确的物品，也需要理解物品的几何形状的能力从而稳定的抓取物品。F3RM作者以机器人能够根据少量抓取演示或文本描述从而抓取新物品为研究目标，构建了一个预训练视觉embedding为基础的系统，可见图1所示。

- 阅读剩余部分 -