RL中表示(一)：样本效率和模型性能的提升方法

作者: wyli

时间: 2025-07-10

246 次阅读

深度强化学习的网络深度通常不超过4层，这是因为实验发现过深导致模型无法收敛。然而，深度神经网络可提取抽象表示，从而降低问题的求解难度，这在计算机视觉和自然语言处理领域属于常见的现象。然而，智能体面对的状态空间和动作空间大小是指数级的，那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。

表示有效的原因

奖励稀疏性：论文《Reinforcement Learning with Unsupervised Auxiliary Tasks》中表示奖励稀疏性会导致智能体不知道如何学习，由此无法充分利用状态-动作轨迹的有效信息，即无法学习到很好的表示。即使奖励不稀疏，轨迹仍存在大量有效的信息。
价值函数秩坍塌：论文《Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning》表示价值网络学习到的特征存在秩坍塌的现象，即价值网络的表达能力在降低。在智能体学习过程中，价值网络critic更新会引导策略网络更新，有利于critic本身的目标。

有效表示的提取方法

表示通常通过辅助任务的方式获取，而这些辅助任务的损失函数可被视作隐式奖励。这些辅助任务与长期目标越接近，其提取的表示越有利于解决主要任务。与之不同的方式是：通过学习Disentangled表示，用于智能体的输入，也可提高策略的表达能力和泛化能力。

引用方法

请参考：

li,wanye. "RL中表示(一)：样本效率和模型性能的提升方法". wyli'Blog (Jul 2025). https://www.robotech.ink/index.php/archives/744.html

或BibTex方式引用：

@online{eaiStar-744, title={RL中表示(一)：样本效率和模型性能的提升方法}, author={li,wanye}, year={2025}, month={Jul}, url="https://www.robotech.ink/index.php/archives/744.html" }

标签: none

RL中表示(一)：样本效率和模型性能的提升方法

表示有效的原因

有效表示的提取方法

引用方法

添加新评论

最新文章

标签云 (Top20)

分类