RL中表示(二):表示的评估与提取方法
在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?
在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?
MoE拥有很强的表达能力,在深度学习领域取得显著成果。同时,根据论文《Mixtures of Experts Unlock Parameter Scaling for Deep RL》,可知,MoE可解锁深度RL的参数扩展。那么,混合专家模型MoE究竟是什么呢?
深度强化学习的网络深度通常不超过4层,这是因为实验发现过深导致模型无法收敛。然而,深度神经网络可提取抽象表示,从而降低问题的求解难度,这在计算机视觉和自然语言处理领域属于常见的现象。然而,智能体面对的状态空间和动作空间大小是指数级的,那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。
变分推断属于贝叶斯模型中近似后验的方法,其构成了《VAE:自动编码变分贝叶斯》的数学原理。接下来,基于论文《Variational Inference: A Review for Statisticians》理解其理论。
在概率论和统计中,自然指数族分布是指数族分布的特殊情况。
在信息几何中,Fisher信息度量是一个定义在平滑统计流形上的黎曼度量。其中,统计流形是一个点为概率分布的平滑流形。由此,该信息度量通常被用于计算两个概率分布之间的距离。