策略迁移与策略优化
在UP-OSI中,通过函数拟合器近似系统参数,策略函数在给定系统参数的情况下预测动作,从而让策略能够迁移到真实环境。与UP-OSI方式不同,PTSO在策略集中搜寻最好的策略以适应环境。与UP-OSI相同的是,该方式分为两部:
- 训练策略集合:每个rollout开始,随机采样物理参数集合$\mu$,基于该参数训练策略$\pi:(o,\mu)\to a$。由于在动力学相似的环境中学习策略,所以可基于一个神经网络学习策略。
- 搜寻最优策略:基于协方差矩阵自适应(Covariance Matrix Adaption,简称CMA)算法线上寻找奖励最大化的策略。
CMA算法的每次迭代,执行以下步骤:
- 从动力学参数的高斯分布中采样出$\mu$
- 输入到策略网络取得策略$\pi_{\mu}$。
- 计算动力学参数$\mu$下的累积奖励$J_{\mathcal{M}^t}$
- 根据累积奖励修正高斯分布的均值与协方差矩阵
引用方法
请参考:
li,wanye. "策略迁移与策略优化". wyli'Blog (Jan 2024). https://www.robotech.ink/index.php/archives/107.html
或BibTex方式引用:
@online{eaiStar-107,
title={策略迁移与策略优化},
author={li,wanye},
year={2024},
month={Jan},
url="https://www.robotech.ink/index.php/archives/107.html"
}