EAI猩球

RL中表示(二)：表示的评估与提取方法

作者: wyli
时间: 2025-07-13
分类: 强化学习
评论
472 次阅读

在《RL中表示(一)：样本效率和模型性能的提升方法》中提到：表示可提高RL的性能和样本效率。在RL训练过程中，表示的提取方式有两种，一种是把无监督损失作为辅助目标；另一种是预训练离线数据，作为Online RL的先验。那么，表示的对下游任务影响的评估方法是什么呢？两种表示提取方法都有哪些方法呢？

- 阅读剩余部分 -

MoE(一)：网络架构演进与特性

作者: wyli
时间: 2025-07-12
分类: 基础模型
评论
524 次阅读

MoE拥有很强的表达能力，在深度学习领域取得显著成果。同时，根据论文《Mixtures of Experts Unlock Parameter Scaling for Deep RL》，可知，MoE可解锁深度RL的参数扩展。那么，混合专家模型MoE究竟是什么呢？

- 阅读剩余部分 -

RL中表示(一)：样本效率和模型性能的提升方法

作者: wyli
时间: 2025-07-10
分类: 强化学习
1 条评论
399 次阅读

深度强化学习的网络深度通常不超过4层，这是因为实验发现过深导致模型无法收敛。然而，深度神经网络可提取抽象表示，从而降低问题的求解难度，这在计算机视觉和自然语言处理领域属于常见的现象。然而，智能体面对的状态空间和动作空间大小是指数级的，那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。

- 阅读剩余部分 -