wyli 发布的文章

如图1所示,ViT整体架构很简单,由Transformer的Encoder构成,非双向。首先,图片分成$N$块patch,作为输入序列的token。然后,$N$token被打平,再输入线性映射层得到embedding。接下来,patch embedding与position embedding相加输入Encoder。与Bert的class token一样,也有一个可学习类别embedding的token $z_0^0$,其在Encoder对应输出$z_L^0$是整个图片的表示。最后,$z_L^0$输入到MLP网络预测类别,即在图片分类任务上预训练。

- 阅读剩余部分 -

经典的控制器是针对特定任务设计的,很难使机器人拥有敏捷的动作和多样的动作,运动呈现不灵活性,且很难应用到户外任务。同时,控制器的设计需要丰富经验的工程师,耗费大量时间才能设计出来,时间成本很高。与之相对的,最近基于强化学习的控制器在仿真环境中能够表现出良好的性能,它的缺点就是仿真与现实之间的gap很难处理,常见有两种处理方法,分别是提高仿真的可信度和提高策略的鲁棒性。

- 阅读剩余部分 -

经典的足式机器人主要是基于物理动力学和控制理论实现,这种方法需要大量的专家设计才能有效果。然而,这种方式仍然无法应对不确定性的环境。最近,基于强化学习和模仿学习的范式取得了很大的成功。然而,强化学习用于机器人存在Sim2Real Gap的问题,阻碍了发展。对于该问题经典的解决方案是利用Sim2Real技术把算法模型从虚拟环境迁移到真实环境,仍然具有很大的挑战。

- 阅读剩余部分 -