wyli 发布的文章

精细的操作任务包含精确的闭环反馈,需要高度的手眼协调从而对环境的变换做出调整和规划。以打开调料杯为例,初始化在桌面上的杯子:先用右手把它拿起,再把它推入到左夹抓。然后,左夹抓慢慢闭上。接下来,右手的手指接近杯子,打开调料杯。这些步骤需要高度的精确性,精细的手眼协调,且丰富的接触。毫米的误差就会导致任务失败。对于这种精细的操作任务,存在的系统需要利用昂贵的机器人和高端传感器用于精确的状态估计。与之相比,ALOHA是一个低成本的灵活远程操作系统,可用于收集数据。然而,低成本硬件不可避免与高端系统相比缺少精确性。

- 阅读剩余部分 -

FlashAttention利用非对称GPU显存层级的特性不仅提高了内存效率,也提高了训练速度。然而,随着上下文长度的增加,它没有优化的GEMM运算一样快,且只达到了理论最大FLOPs/s的25-40%。这种不高效主要是由GPU中不同线程块与线程束之间次优的work分片导致的低显存占有率或不必要的共享内存读写所引起的。为了处理这些问题,FlashAttention-2设计了更好的woker分片。

- 阅读剩余部分 -

标准自注意力计算的时间复杂度与空间复杂度与序列长度呈现2次方关系,因此Transformer在长序列上处理速度很慢且需要大量内存。同时,随着硬件的进步,计算能力已经超过了内存的读写能力,即内存的读写限制了注意力的计算。FlashAttention是一个考虑内存读写的精确注意力计算算法,通过分片的方式减少了GPU中HBM与SRAM之间的读写次数,从而提高注意力计算的速度与内存效率。

- 阅读剩余部分 -

The meaning or value of a thing consists of what it affords... what we perceive when we look at objects are their affordances, not their qualities.
-J.J. Gibson

在一个新的厨房环境中,采取动作之前,人类已经对大部分物品可以怎么操作有了很好的理解。这种理解不仅仅停留在语义层面,还知道对象哪里可以握住和往哪个方向移动。虽然这些理解不总是有效,有时可能需要探索,但是人类非常依赖物品的这种视觉affordances,从而在不同的环境中高效的执行日常任务。随着深度学习技术的发展,视觉技术不断的发展,不仅仅可以从图片中标记大部分对象,甚至可以知道其位置。

- 阅读剩余部分 -