在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:

  • 平均中心化奖励从价值估计中移除了一个独立于状态的常量,从而使价值函数近似器聚焦于状态与动作之间的相对区别。
  • 平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。

- 阅读剩余部分 -

一致性模型已经成为了生成模型的新家族,该模型可以在不需要对抗训练的情况下实现单步高质量数据采样。

一致性模型的训练有两种方式,分别是一致性蒸馏和一致性训练。其中,一致性蒸馏需要预训练一个扩散模型,再把知识蒸馏到一致性模型;一致性训练直接从数据中训练一致性模型,把其视为独立的生成模型家族。对于一致性蒸馏,因其需要预训练扩散模型而导致计算量的增加,且蒸馏方式限制了一致性模型的能力。对于一致性训练所依赖的度量函数LPIPS,主要存在两个缺点,一个是由于LPIPSFID均在ImageNet数据集上训练,会因特征泄漏产生潜在的评估偏差;另一个是该度量需要需要预训练辅助网络用于特征抽取,从而增加了计算预算。

- 阅读剩余部分 -