IRL(Inverse Reinforcement Learning)的部分挑战来自于定义本身,这是因为演示数据可被许多最优策略解释,且一个最优策略可被许多奖励函数解释。前者的模糊性可被最大化熵IRL框架所处理,而后者的模糊性主要来自于算法很难从奖励中区分出真实奖励和环境塑造的奖励。为了应对IRL的挑战,AIRL算法在最大熵框架下可学习出真实奖励函数,拥有较强的泛化性。

最大熵IRL

熵正则化的马尔可夫决策过程被定义为$(\mathcal{S},\mathcal{A},\mathcal{T},r,\gamma,\rho_0)$。其中,$\mathcal{S},\mathcal{A}$分别为状态和动作空间,$\gamma\in(0,1)$为折扣因子。对于标准RL,环境动力学$\mathcal{T}({s}'\vert a,s)$、初始状态分布为$\rho_0(s)$、以及奖励函数$r(s,a)$属于不可知的,只能通过与环境交互获取。

最大熵RL的学习目标为:
$$
\begin{aligned}
{\pi}^{*}=argmax_{\pi}E_{\tau\sim\pi}[\sum_{t=0}^T\gamma^t(r(s_t,a_t)+H(\pi(\cdot\vert s_t)))]
\end{aligned}
$$
式中$\tau=(s_0,a_0,\ldots,s_T,a_T)$表示由策略和动力学产生的状态与动作序列。

根据《Reinforcement Learning with Deep Energy-Based Policies》可知,最优策略${\pi}^{*}(a\vert s)\propto exp\{Q^{*}_{soft}(s_t,a_t)\}$,且$Q^{*}_{soft}(s_t,a_t)=r_t(s,a)+E_{(s_{t+1},\ldots)\sim\pi}[\sum_{{t}'=t}^T\gamma^{{t}'}(r(s_{{t}'},a_{{t}'})+H(\pi(\cdot\vert s_{{t}'})))]$

Plus:最大熵RL的经典算法,可见SAC

与之不同,IRL寻求从专家策略生成的演示数据集$\mathcal{D}=\{\tau_1,\ldots,\tau_N\}$中推断奖励函数$r(s,a)$。IRL问题可被转换为求解最大似然问题:
$$
\begin{aligned}
\underset{\theta}{max} E_{\tau\sim\mathcal{D}}[logp_{\theta}(\tau)]
\end{aligned}\tag{1}
$$
式中$p_{\theta}(\tau)\propto p(s_0)\prod_{t=0}^T p(s_{t+1}\vert s_t,a_t)e^{\gamma^tr_{\theta}(s_t,a_t)}$参数化奖励函数$r_{\theta}(s,a)$,且MDP的动力学和初始状态分布为固定的。同时,在确定性动力学下,可被简化为基于能量的模型$p_{\theta}(\tau)\propto e^{\sum_{t=0}^T\gamma^tr_{\theta}(s_t,a_t)}$

同时,论文《A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models》作者们证明了GANs确切的优化了最大熵IRL问题,且构建了GAN-GCL算法。该算法的判别器为
$$
\begin{aligned}
D_{\theta}(\tau)=\frac{exp(f_{\theta}(\tau))}{exp(f_{\theta}(\tau))+\pi(\tau)}
\end{aligned}\tag{2}
$$
策略$\pi$的目标是最大化$R(\tau)=logD(\tau)-log(1-D(\tau))$。该范式与GAIL算法相似,但GAIL算法没有直接建模奖励。

奖励模糊问题

奖励变形是IRL无法学习出鲁棒性较强奖励函数的主要原因,其描述了一类拥有最优策略的奖励变换。其中,奖励变换为
$$
\begin{aligned}
\hat{r}(s,a,{s}')=r(s,a,{s}')+\gamma\Phi({s}')-\Phi(s)
\end{aligned}\tag{3}
$$
对于任何函数$\Phi:\mathcal{S}\to\mathbb{R}$,最优策略保持不变。在不知环境动力学的情况下,该奖励变换属于唯一一个展示策略不变的变换。其中,策略不变体现在真实奖励$r(s,a,{s}')$。由于IRL算法只是从最优智能体的演示中推断奖励,因此它无法从变换类中区分奖励函数。

然而,变形的奖励函数对环境动力学的变换呈现出鲁棒性不足。若环境动力学发生变化,那么即使$r(s,a,{s}')$不发生变化,$\Phi({s}')$也将发生变化。

解动力学与奖励之间的耦合

奖励$r$和动力学$T$下最优$Q$函数表示为$Q^{*}_{r,T}(s,a)$,对应的最优策略为$\pi^{*}_{r,T}(a\vert s)$。那么,“解耦合”的奖励对应的最优策略应与真实奖励的最优策略一致。

在最大熵RL下,由于$Q$函数与策略拥有同等的表示,因此两个最优策略一致的等价条件为
$$
\begin{aligned}
Q^{*}_{{r}',T}(s,a)=Q^{*}_{r,T}(s,a)-f(s)
\end{aligned}
$$
若动力学满足当前状态$f(s)$和下一个状态$g({s}')$的分解条件,那么奖励的变换就拥有一定的鲁棒性。同时,这种分解的满足只需要对环境的每个状态增加一个自转换,使MDP变为ergodic MDP。同时,真实奖励也应该只取决于当前状态,才能使学习出的奖励函数与环境动力学解耦合。

对抗逆强化学习(AIRL)

GAN-GCL中,与单个状态动作对相比,利用整条轨迹会产生较高的方差。那么,式(2)可变为
$$
\begin{aligned}
D_{\theta}(s,a)=\frac{exp\{f_{\theta}(s,a)\}}{exp\{f_{\theta}(s,a)\}+\pi(a\vert s)}
\end{aligned}
$$
同时,作者们证明了$f^{*}(s,a)=log\pi^{*}(a\vert s)=A^{*}(s,a)$

由此可见,优势函数属于一个有效的最优奖励函数。然而,它属于一个严重纠缠的奖励,这是因为其需要基于最优策略的动作监督每个动作。

为了解优势和奖励函数之间的耦合,那么判别器变为:
$$
\begin{aligned}
D_{\theta,\phi}(s,a,{s}')=\frac{exp\{f_{\theta,\phi}(s,a,{s}')\}}{exp\{f_{\theta,\phi}(s,a,{s}')\}+\pi(a\vert s)}
\end{aligned}
$$
式中$f_{\theta,\phi}$由奖励近似项$g_{\theta}$和变形项构成$h_{\phi}$
$$
\begin{aligned}
f_{\theta,\phi}(s,a,{s}')=g_{\theta}(s,a)+\gamma h_{\phi}({s}')-h_{\phi}(s)
\end{aligned}
$$
变形项有助于缓和奖励近似器不期望变形产生的影响。由此,构成了AIRL算法,可见伪代码1。

进一步的,若期望奖励函数与环境动力学解耦合,那么只需要参数化真实奖励函数为$g_{\theta}(s)$。最终,作者们证明了在确定性环境动力学下
$$
\begin{aligned}
g^{*}(s)=r^{*}(s)+const \\
h^{*}(s)=V^{*}(s)+const
\end{aligned}
$$
那么,在确定性环境动力学下$f_{\theta,\phi}$可被视为
$$
\begin{aligned}
f^{*}(s,a,{s}')=r^{*}(s)+\gamma V^{*}({s}')-V^{*}(s)=A^{*}(s,a)
\end{aligned}
$$
在随机性环境中,$f(s,a,{s}')$为$A^{*}(s,a)$的单样本估计。估计出的最优奖励与最优策略下的优势函数是一致,这是必须成立的。这种方式只是不用最优策略下的优势函数作为奖励函数进行学习,但估计的奖励函数最终收敛到优势函数。

由此,可知确定性环境中单个样本就可以获得优势函数的真实值,而随机性环境需要通过蒙特卡洛等方法估计。

标签: IRL

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论