RL中表示(二):表示的评估与提取方法
在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?
在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?
深度强化学习的网络深度通常不超过4层,这是因为实验发现过深导致模型无法收敛。然而,深度神经网络可提取抽象表示,从而降低问题的求解难度,这在计算机视觉和自然语言处理领域属于常见的现象。然而,智能体面对的状态空间和动作空间大小是指数级的,那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。
off-policy算法样本效率的提升,通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。
根据算法的on-policy和off-policy,理解RL的扩展。
若要实现RL在参数量上的扩展,那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件,从而学习出泛化性较强的模型。
面对复杂任务时,RL算法需要与环境交互生成大量的数据用于学习,才能实现期望的性能。对于大量数据需求的挑战,有两种应对方法,分别是分布式训练和提升样本效率。其中,分布式训练是指智能体与数千个仿真环境交互以生成训练数据;样本效率提升的主要目的是提高利用有限数据的能力。