RL扩展:扩展性理论
对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。
对于神经网络,扩展性主要指随着数据量或计算量的增加,模型的性能变化情况。研究神经网络扩展性的目的是:期望通过小规模实验预测大规模实验的模型性能,从而降低大规模实验的成本。同样的,论文《Value-Based Deep RL Scales Predictably》研究了基于价值RL的扩展性和性能可预测性。
在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:
为了使RL智能体能够部署到真实世界环境,必须要能够泛化到未观察到的环境。然而,RL很困难实现分布外的泛化,这是由于智能体往往过拟合于训练环境的细节。虽然监督学习的正则化技术可以被用于避免过拟合,但是RL与监督学习之间的差别限制了它们的应用。为了处理泛化性问题,SNR PUN作者们提出了信噪比正则化参数不确定性网络。
在DQN中,噪音引起的函数近似误差,从而导致价值估计的高估和只能学习到次优策略。TD3作者们,表明,高估偏差和时序差分的累积误差也存在于actor-critic范式。在离散动作场景中,Double DQN通过动作选择与动作价值估计的解耦合,从而降低Q函数高估的风险。然而,在actor-critic场景下,由于策略的缓慢更新,当前和目标价值估计太相似,以至于无法避免最大化偏差。因此,作者们独立训练了两个critics。同时,为了处理因独立训练两个critics,引起方差过大而导致高估的问题,提出了clipped Double Q-learning。
对于Actor-Critic算法,主要是on-policy,因此样本效率较低。同时,off-policy与深度神经网络结合往往会导致训练的不稳定。根据soft Q-learning,可知,最大化熵能够提升RL的探索和鲁棒性,即最大化熵策略能够对模型的误差和估计误差更具有鲁棒性,且通过获取多样的行为提升探索。SAC作者们设计了一个off-policy的最大化熵actor-critic算法,拥有样本高效学习和稳定训练的特性,可用于连续状态和动作空间。