如何从数据中估计出泛化性较强的奖励函数?
IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身,这是因为演示数据可被许多最优策略解释,且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理,而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战,AIRL算法在最大熵框架下可学习出真实奖励函数,拥有较强的泛化性。
IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身,这是因为演示数据可被许多最优策略解释,且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理,而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战,AIRL算法在最大熵框架下可学习出真实奖励函数,拥有较强的泛化性。