机器人模仿动物的方式学习敏捷技能
基于强化学习范式的足式机器人能够在复杂的领域运动。然而,复杂的行为很难生成。同时,奖励设计和参数调节都需要花费很长的时间设计。
基于强化学习范式的足式机器人能够在复杂的领域运动。然而,复杂的行为很难生成。同时,奖励设计和参数调节都需要花费很长的时间设计。
在RMA足式机器人中,主要希望智能体学习到快速适应环境的策略。虽然RMA表现出性能较好,但是没有利用视觉信息。文献[1],在RMA的基础上增加视觉信息,机器人更能适应挑战的领域上运动。
经典的控制器是针对特定任务设计的,很难使机器人拥有敏捷的动作和多样的动作,运动呈现不灵活性,且很难应用到户外任务。同时,控制器的设计需要丰富经验的工程师,耗费大量时间才能设计出来,时间成本很高。与之相对的,最近基于强化学习的控制器在仿真环境中能够表现出良好的性能,它的缺点就是仿真与现实之间的gap很难处理,常见有两种处理方法,分别是提高仿真的可信度和提高策略的鲁棒性。
经典的足式机器人主要是基于物理动力学和控制理论实现,这种方法需要大量的专家设计才能有效果。然而,这种方式仍然无法应对不确定性的环境。最近,基于强化学习和模仿学习的范式取得了很大的成功。然而,强化学习用于机器人存在Sim2Real Gap的问题,阻碍了发展。对于该问题经典的解决方案是利用Sim2Real技术把算法模型从虚拟环境迁移到真实环境,仍然具有很大的挑战。
R-CNN是第一篇把CNN用于目标检测的算法。在把CNN用于目标检测时,有两大问题需要解决,分别是利用深度网络定位目标和利用少量的标注数据训练高容量模型。
对于目标定位,若把定位问题当作回归问题来处理,有研究结果表明基于DNN方式的效果并不好;若采用滑动窗口的方式,探测器很难处理不同尺寸的对象。
因此,R-CNN没有利用CNN定位对象,只是利用CNN算法提取特征。该算法主要分为四步,分别是: