标签 IRL 下的文章

EAI猩球

Sharing knowledge, Acquiring technology.

标签 IRL 下的文章

如何从数据中估计出泛化性较强的奖励函数？

作者: wyli
时间: 2024-12-15
分类: 模仿学习
379 次阅读
评论

IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身，这是因为演示数据可被许多最优策略解释，且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理，而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战，AIRL算法在最大熵框架下可学习出真实奖励函数，拥有较强的泛化性。

- 阅读剩余部分 -

标签 IRL 下的文章

如何从数据中估计出泛化性较强的奖励函数？

最新文章

标签云 (Top20)

分类