策略迁移与策略优化
在UP-OSI中,通过函数拟合器近似系统参数,策略函数在给定系统参数的情况下预测动作,从而让策略能够迁移到真实环境。与UP-OSI方式不同,PTSO在策略集中搜寻最好的策略以适应环境。与UP-OSI相同的是,该方式分为两部:
- 训练策略集合:每个rollout开始,随机采样物理参数集合$\mu$,基于该参数训练策略$\pi:(o,\mu)\to a$。由于在动力学相似的环境中学习策略,所以可基于一个神经网络学习策略。
- 搜寻最优策略:基于协方差矩阵自适应(Covariance Matrix Adaption,简称CMA)算法线上寻找奖励最大化的策略。
CMA算法的每次迭代,执行以下步骤:
- 从动力学参数的高斯分布中采样出$\mu$
- 输入到策略网络取得策略$\pi_{\mu}$。
- 计算动力学参数$\mu$下的累积奖励$J_{\mathcal{M}^t}$
- 根据累积奖励修正高斯分布的均值与协方差矩阵
版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接