UP-OSI中,通过函数拟合器近似系统参数,策略函数在给定系统参数的情况下预测动作,从而让策略能够迁移到真实环境。与UP-OSI方式不同,PTSO在策略集中搜寻最好的策略以适应环境。与UP-OSI相同的是,该方式分为两部:

  • 训练策略集合:每个rollout开始,随机采样物理参数集合$\mu$,基于该参数训练策略$\pi:(o,\mu)\to a$。由于在动力学相似的环境中学习策略,所以可基于一个神经网络学习策略。
  • 搜寻最优策略:基于协方差矩阵自适应(Covariance Matrix Adaption,简称CMA)算法线上寻找奖励最大化的策略。

CMA算法的每次迭代,执行以下步骤:

  • 从动力学参数的高斯分布中采样出$\mu$
  • 输入到策略网络取得策略$\pi_{\mu}$。
  • 计算动力学参数$\mu$下的累积奖励$J_{\mathcal{M}^t}$
  • 根据累积奖励修正高斯分布的均值与协方差矩阵

标签: none

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论