分类 强化学习 下的文章

可塑性是指神经网络快速改变预测应对新信息的能力。可塑性损失常发生在输入和预测目标随时间发生改变的环境,其神经网络需要“重写”之前的预测。这种场景对于DRL是常见的。因此,理解可塑性损失,损失是否可被缓和,对开发能够应对复杂且常变化环境的DRL智能体,非常重要。对缓解可塑性损失,常见机制是层重置激活单元重置、以及特征正则化。虽然这些方法观测到表现的提升,但是无法得到导致提升的机制。Lyle等人根据可塑性发生的情况,识别了该机制。

- 阅读剩余部分 -

为了使RL智能体能够部署到真实世界环境,必须要能够泛化到未观察到的环境。然而,RL很困难实现分布外的泛化,这是由于智能体往往过拟合于训练环境的细节。虽然监督学习的正则化技术可以被用于避免过拟合,但是RL与监督学习之间的差别限制了它们的应用。为了处理泛化性问题,SNR PUN作者们提出了信噪比正则化参数不确定性网络。

- 阅读剩余部分 -

在DQN中,噪音引起的函数近似误差,从而导致价值估计的高估和只能学习到次优策略。TD3作者们,表明,高估偏差和时序差分的累积误差也存在于actor-critic范式。在离散动作场景中,Double DQN通过动作选择与动作价值估计的解耦合,从而降低Q函数高估的风险。然而,在actor-critic场景下,由于策略的缓慢更新,当前和目标价值估计太相似,以至于无法避免最大化偏差。因此,作者们独立训练了两个critics。同时,为了处理因独立训练两个critics,引起方差过大而导致高估的问题,提出了clipped Double Q-learning。

- 阅读剩余部分 -

对于Actor-Critic算法,主要是on-policy,因此样本效率较低。同时,off-policy与深度神经网络结合往往会导致训练的不稳定。根据soft Q-learning,可知,最大化熵能够提升RL的探索和鲁棒性,即最大化熵策略能够对模型的误差和估计误差更具有鲁棒性,且通过获取多样的行为提升探索。SAC作者们设计了一个off-policy的最大化熵actor-critic算法,拥有样本高效学习和稳定训练的特性,可用于连续状态和动作空间。

- 阅读剩余部分 -

首要偏见是指智能体对早期的交互数据过拟合,而对新的交互数据无法学习到新知识。这种现象也存在于人类的认知过程中,例如:人类在学习弹吉他时,一开始基于简单的曲子学习,但是由于过于熟悉之前的经验,进而形成无意识的习惯,从而导致无法根据新经验学习。

- 阅读剩余部分 -

DQN算法利用经验回放奖励样本之间的相关性,很大的提高了算法的性能。经验回放实际上是一个提高样本效率强有力的工具。文献[1]中作者们提出了ACER(Actor Critic with Experience Replay)算法实现了与DQN相似甚至更高的性能,也优越于A3C。同时,ACER算法应该是首个可以同时应用于连续动作空间和离散动作空间的算法,主要的创新点有:带有偏差纠正的裁剪重要性采样、随机Dueling网络架构、以及高效可信区域策略优化。

- 阅读剩余部分 -