EvoRL(二):EPO算法
之前,《EvoRL(一):为什么要演化算法与RL结合?》描述了演化算法与RL的结合是为了提升智能体的探索能力。接下来,介绍一下两者结合的《Evolutionary Policy Optimization》算法。
之前,《EvoRL(一):为什么要演化算法与RL结合?》描述了演化算法与RL的结合是为了提升智能体的探索能力。接下来,介绍一下两者结合的《Evolutionary Policy Optimization》算法。
对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?