EvoRL(一):为什么要演化算法与RL结合?
对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?
对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?
off-policy算法样本效率的提升,通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。
根据算法的on-policy和off-policy,理解RL的扩展。
若要实现RL在参数量上的扩展,那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件,从而学习出泛化性较强的模型。
面对复杂任务时,RL算法需要与环境交互生成大量的数据用于学习,才能实现期望的性能。对于大量数据需求的挑战,有两种应对方法,分别是分布式训练和提升样本效率。其中,分布式训练是指智能体与数千个仿真环境交互以生成训练数据;样本效率提升的主要目的是提高利用有限数据的能力。
对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。