深度强化学习的网络深度通常不超过4层,这是因为实验发现过深导致模型无法收敛。然而,深度神经网络可提取抽象表示,从而降低问题的求解难度,这在计算机视觉和自然语言处理领域属于常见的现象。然而,智能体面对的状态空间和动作空间大小是指数级的,那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。

表示有效的原因

奖励稀疏性:论文《Reinforcement Learning with Unsupervised Auxiliary Tasks》中表示奖励稀疏性会导致智能体不知道如何学习,由此无法充分利用状态-动作轨迹的有效信息,即无法学习到很好的表示。即使奖励不稀疏,轨迹仍存在大量有效的信息。
价值函数秩坍塌:论文《Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning》表示价值网络学习到的特征存在秩坍塌的现象,即价值网络的表达能力在降低。在智能体学习过程中,价值网络critic更新会引导策略网络更新,有利于critic本身的目标。

有效表示的提取方法

表示通常通过辅助任务的方式获取,而这些辅助任务的损失函数可被视作隐式奖励。这些辅助任务与长期目标越接近,其提取的表示越有利于解决主要任务。与之不同的方式是:通过学习Disentangled表示,用于智能体的输入,也可提高策略的表达能力泛化能力

引用方法

请参考:

            
                li,wanye. "RL中表示(一):样本效率和模型性能的提升方法". wyli'Blog (Jul 2025). https://www.robotech.ink/index.php/archives/744.html            
        

或BibTex方式引用:

            
                @online{eaiStar-744,
   title={RL中表示(一):样本效率和模型性能的提升方法},
   author={li,wanye},
   year={2025},
   month={Jul},
   url="https://www.robotech.ink/index.php/archives/744.html"
}

标签: none

添加新评论