在物理世界构建可快速响应智能体的方法
第一人称视角的无人机比赛需要专业的飞行队员远程操作高速无人机穿过3D环,可见图1所示。在比赛中,无人机承受的力超过自身重力的5倍多,达到的速度$100km/h$,加速度为重力加速度的许多倍。

图1 无人机比赛
为了构建可与冠军级选手竞争的自主智能体,Champion-level drone racing using deep reinforcement learning作者们设计了一个Swif系统,可见图2所示。该系统由两个模块构成,分别是感知系统和控制策略。其中,感知系统把高维视觉和惯性信息转化为低维表示,控制策略整合低维表示以产出控制命令。控制策略利用免模型的on-policy RL算法在仿真环境中训练得到,其网络架构为全连接神经网络。同时,为了解决环境仿真与物理世界的差异,作者们基于物理系统收集了真实数据,并用真实数据估计了非参数实验噪音模型。经过实验表明,该实验噪音模型对控制策略的sim-to-real很重要。

图2 Swif系统
Swif系统
感知系统
感知系统,也被称为观测策略,由视觉-惯性估计器(VIO)和门检测器构成,两者网络架构均为卷积网络架构。门检测器用于估计无人机在赛道上的位置和方向,估计算法为camera-resectioning算法。全局位姿估计与视觉-惯性估计器通过Kalman滤波形成全局位姿估计,从而产生机器人状态的精确表示。
控制策略
控制策略就是PPO算法在仿真环境训练。奖励函数有两项,分别是奖励无人机向下一个门前进、奖励下一个门在相机视野内。其中,奖励下一个门在相机视野,有利于增加位姿估计的准确性。
为了缓解真实与仿真之间的差异,作者们利用真实世界的数据增强仿真器的真实性。确切的说,作者们记录了机器人的传感器观测和运动捕捉系统的精确位姿估计。该数据可用于构建感知残差模型和动力学残差模型。其中,感知残差模型利用高斯过程建模,动力学残差模型利用KNN建模。最终,残差模型整合到仿真器中,用于提高仿真的真实性,进行模型的再训练。
总结
总的来说,在高速无人机比赛中,作者们利用了类似于电机噪音估计模型缓解仿真与真实之间的间隔。这表明了基于这种方式的sim-to-real能够实现卓越性能。
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接
怎么收藏这篇文章?
可以通过收藏公众号对应文章的方式收藏,谢谢支持