EAI猩球

如何从数据中估计出泛化性较强的奖励函数？

作者: wyli
时间: 2024-12-15
分类: 模仿学习
评论
481 次阅读

IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身，这是因为演示数据可被许多最优策略解释，且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理，而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战，AIRL算法在最大熵框架下可学习出真实奖励函数，拥有较强的泛化性。

- 阅读剩余部分 -

奖励中心化可大幅降低智能体样本复杂度

作者: wyli
时间: 2024-12-12
分类: 强化学习
评论
435 次阅读

在持续性问题中，智能体与环境的交互无法被分为子序列或episodes。那么，评估智能体表现的方式有两种，分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时，作者们表明奖励中心化的含义有：

平均中心化奖励从价值估计中移除了一个独立于状态的常量，从而使价值函数近似器聚焦于状态与动作之间的相对区别。
平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。

- 阅读剩余部分 -

求导法则与矩阵微分

作者: wyli
时间: 2024-12-01
分类: 理论,数学
评论
371 次阅读

深度学习中反向传播算法利用导数优化网络权重，因此理解矩阵求导会对其理论会有茅塞顿开的感受。然而，由于矩阵乘法无交换性等因素，造成求导法则不一定一直起作用。

- 阅读剩余部分 -

范数

作者: wyli
时间: 2024-12-01
分类: 理论,数学
1 条评论
420 次阅读

一个范数是实数或复数向量空间到非负实数映射的函数，有点像与坐标原点的距离。

- 阅读剩余部分 -

一致性模型训练的提升方法

作者: wyli
时间: 2024-11-24
分类: 生成模型,基础模型
评论
799 次阅读

一致性模型已经成为了生成模型的新家族，该模型可以在不需要对抗训练的情况下实现单步高质量数据采样。

一致性模型的训练有两种方式，分别是一致性蒸馏和一致性训练。其中，一致性蒸馏需要预训练一个扩散模型，再把知识蒸馏到一致性模型；一致性训练直接从数据中训练一致性模型，把其视为独立的生成模型家族。对于一致性蒸馏，因其需要预训练扩散模型而导致计算量的增加，且蒸馏方式限制了一致性模型的能力。对于一致性训练所依赖的度量函数LPIPS，主要存在两个缺点，一个是由于LPIPS和FID均在ImageNet数据集上训练，会因特征泄漏产生潜在的评估偏差；另一个是该度量需要需要预训练辅助网络用于特征抽取，从而增加了计算预算。

- 阅读剩余部分 -

相似性度量FID的原理

作者: wyli
时间: 2024-11-24
分类: 理论,数学
评论
708 次阅读

Fr'echet Inception Distance是一种利用Fr'echet Distance计算生成图片与真实图片相似度的度量工具。

- 阅读剩余部分 -

如何从数据中估计出泛化性较强的奖励函数？

奖励中心化可大幅降低智能体样本复杂度

求导法则与矩阵微分

范数

一致性模型训练的提升方法

相似性度量FID的原理

最新文章

标签云 (Top20)

分类