空间认知在认知科学以及其他相关学科中用于表示对空间内容的思考,例如:环境中物体的位置或物体的形状。鉴于世界本质上是空间的,该术语还涵盖了各种异质心理活动。一个关于空间思维的实用区分是:导航相关认知和以对象为中心的认知。每种认知都需要环境或对象的表征,以及被表征信息的内在变化的表示。导航涉及寻找世界各地的路线以收集食物和饮料、寻找社交伙伴、避开危险并返回家园,这是所有移动生物生存的先决条件。为了找到路,需要环境特征(非自我中心的框架: allocentric framework)和自我运动(惯性导航: inertial navigation)相对位置的表示。以对象为中心的认知涉及表征物体的形状和结构,并预测它们在物理或心理转变(例如旋转、切割或折叠)后的外观。以对象为中心的思维与工具的发明和使用密切相关,并且可能比导航更专属于人类的认知活动,尽管在灵长类动物和鸦科动物中也有使用工具的记录。

- 阅读剩余部分 -

IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身,这是因为演示数据可被许多最优策略解释,且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理,而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战,AIRL算法在最大熵框架下可学习出真实奖励函数,拥有较强的泛化性。

- 阅读剩余部分 -

在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:

  • 平均中心化奖励从价值估计中移除了一个独立于状态的常量,从而使价值函数近似器聚焦于状态与动作之间的相对区别。
  • 平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。

- 阅读剩余部分 -

深度学习中反向传播算法利用导数优化网络权重,因此理解矩阵求导会对其理论会有茅塞顿开的感受。然而,由于矩阵乘法无交换性等因素,造成求导法则不一定一直起作用。

- 阅读剩余部分 -