wyli 发布的文章

动物通过多个渠道感知世界,例如:眼睛接受光波较长的光渠道和耳朵接受高频的振动驱动。每个渠道都是有噪音的和不完备的,但是所有视角共享相同的重要因素,例如:物理、几何、以及语义。CMC作者提出了一个假设:一个表达力较强的表示应能够建模多视角不变的因素。因此,作者们在多视角对比学习框架下研究该假设,主要方式是最大化相同场景不同视角之间的互信息,反之最小化。最终,该方法可以扩展到任何数量的视角。如图1所示,CMC框架。

- 阅读剩余部分 -

高效的视觉表示主流的方法可分为两类,分别是生成方式和判别方式。其中,生成方式需要像素级别的生成,产生很多不必要的计算量;判别方式是基于监督学习相似的目标函数学习视觉表示,因此需要设计监督学习的替代任务,这种方式会限制视觉表示的泛化性。SimCLR是一个简单的视觉表示对比学习框架,如图1所示。与之前的对比学习相比,SimCLR即不需要特别的架构,也不需要更多的内存,但是性能优越。

- 阅读剩余部分 -

行为克隆算法的前提假设是数据来自于解决特定任务单一模式的专家演示。然而,真实世界的预先收集的数据包含行为的多个模式,即使是同一个人对同样的行为也会展示多种模式。另一方面,Transformer模型容量足够大,且拥有建模多种token的能力。因此,BeT把Transofmer与Behavior Cloning相结合以能够预测多峰分布的动作。

- 阅读剩余部分 -

ABS是一款四足机器人在杂乱环境中敏捷且高速运动的全新框架。与利用线上系统识别和迁移学习方式实现快速运动的方式不同,该框架有两个策略:敏捷策略以实现执行敏捷电动机技能和恢复策略以保护机器人安全。训练过程包含敏捷策略学习、避碰价值网络、恢复策略学习、以及外部感知表示网络,这些网络在仿真环境中训练完成之后,直接部署到真实机器人上。其中,避碰价值网络主要作用是管理策略的切换。最终,该机器人能够实现高速运动,且可以躲避静态和动态障碍物的能力。

- 阅读剩余部分 -