RL中表示(一):样本效率和模型性能的提升方法
深度强化学习的网络深度通常不超过4层,这是因为实验发现过深导致模型无法收敛。然而,深度神经网络可提取抽象表示,从而降低问题的求解难度,这在计算机视觉和自然语言处理领域属于常见的现象。然而,智能体面对的状态空间和动作空间大小是指数级的,那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。
表示有效的原因
奖励稀疏性:论文《Reinforcement Learning with Unsupervised Auxiliary Tasks》中表示奖励稀疏性会导致智能体不知道如何学习,由此无法充分利用状态-动作轨迹的有效信息,即无法学习到很好的表示。即使奖励不稀疏,轨迹仍存在大量有效的信息。
价值函数秩坍塌:论文《Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning》表示价值网络学习到的特征存在秩坍塌的现象,即价值网络的表达能力在降低。在智能体学习过程中,价值网络critic更新会引导策略网络更新,有利于critic本身的目标。
有效表示的提取方法
表示通常通过辅助任务的方式获取,而这些辅助任务的损失函数可被视作隐式奖励。这些辅助任务与长期目标越接近,其提取的表示越有利于解决主要任务。与之不同的方式是:通过学习Disentangled表示,用于智能体的输入,也可提高策略的表达能力和泛化能力。
引用方法
请参考:
li,wanye. "RL中表示(一):样本效率和模型性能的提升方法". wyli'Blog (Jul 2025). https://www.robotech.ink/index.php/archives/744.html
或BibTex方式引用:
@online{eaiStar-744,
title={RL中表示(一):样本效率和模型性能的提升方法},
author={li,wanye},
year={2025},
month={Jul},
url="https://www.robotech.ink/index.php/archives/744.html"
}