在机器人领域,为了降低学习成本,往往需要在仿真环境中训练RL智能体。然而,仿真与现实之间存在很大的GAP。目前,主要通过电机建模自适应领域随机化系统识别特权信息重力补偿、以及GAP建模的方式减少sim-to-real之间的GAP

电机建模

为了使仿真环境中电机表现出真实电机的动力学,从而使仿真环境更精确,根据真实数据对电机建模,学习出其动力学特性。真实数据来自于基于经典控制理论设计的控制器对电机转动进行控制而得到。

自适应

自适应的方法是基于算法进行线上系统识别的方法,在线上近似系统动力学参数。然后,把近似结果输入到策略模型,从而调整策略以适应环境。

电机自适应

电机自适应类方法是希望机器人能够学习到适应环境变化的能力,从而类似动物一样在真实世界运动,不需要对特定任务规划特定步态。

领域自适应

领域自适应又称潜在空间自适应,其核心思想是智能体的策略对环境变化具有鲁棒性,且随着环境的变化能够修改自己的策略。

领域随机化

Domain Randomization是迁移学习中的概念,它假设目标环境与模型训练环境相接近,通过随机化环境种子训练的方式使策略能够迁移到目标环境。简单来说,智能体不是在单一的环境中训练,而是在参数被随机化的多个环境中训练。通过随机化使策略能够对环境的变化具有鲁棒性。另外,领域随机化包含动力学参数随机化、观测随机化、以及episode随机化。

系统识别

简单来说,系统识别就是识别出重力、摩擦系数、摩擦力、惯性矩、被操作物品的质量等环境参数。传统的系统识别是识别出特定系统,而现在系统识别的目标是:给定轨迹识别出模型参数。

重力补偿

重力补偿常发生于灵巧手,这是因为每根手指都会受到重力的影响。因此,为了提升执行的精确度,均会计算每个手指的质量分布和质心位置,再计算重力产生的力矩。

GAP建模

仿真与现实之间存在GAP,那么对该部分建模,学习出一个残差模型,例如:感知残差和动力学残差。

标签: none

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论