玻尔兹曼分布与基于能量的模型
基于能量的模型通常为以$e$为底的指数函数,这是什么原因呢?
基于能量的模型通常为以$e$为底的指数函数,这是什么原因呢?
IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身,这是因为演示数据可被许多最优策略解释,且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理,而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战,AIRL算法在最大熵框架下可学习出真实奖励函数,拥有较强的泛化性。
在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:
深度学习中反向传播算法利用导数优化网络权重,因此理解矩阵求导会对其理论会有茅塞顿开的感受。然而,由于矩阵乘法无交换性等因素,造成求导法则不一定一直起作用。
一个范数是实数或复数向量空间到非负实数映射的函数,有点像与坐标原点的距离。