时下,RL主要处理episode任务或单一episode的持续任务,论文《Discounted Reinforcement Learning Is Not an Optimization Problem》分析了该范式的技术有哪些不适用于显著不同episode的持续任务的呢?

函数近似是很必要的

表格型RL便于构建算法和分析其特性。然而,真实的世界很大,无法用表格表示价值或动作的概率。因此,函数近似有利于智能体表示复杂世界以及认识其复杂性。

折扣是不必要的

由于智能体与环境的不断交互最终会产生无穷大的奖励和,因此可利用时序折扣的方式平衡即时奖励与未来奖励。然而,折扣不适用于持续任务。

折扣RL不是一个优化问题

一个标准的优化问题被一个可行解集合和可利用一个实数描述每个可行解质量的目标函数所定义。对于RL来说,可行解是策略,目标函数为一个episode的奖励和。然而,折扣下的最优性并不被定义为最大化目标函数。相反的,若策略在每个状态均能实现更高的折扣未来奖励和,那么该策略被认为最优,即
$$
\begin{aligned}
v^{\gamma}_{{\pi}^{*}}(s)\ge v^{\gamma}_{\pi}(s)
\end{aligned}\tag{1}
$$
由此,该不等式在策略集合上产生了一个偏序。对于持续型任务,偏序可能使两个策略无法法比较,这是因为策略可能在一些状态实现更高的价值而其它状态价值低。然而,对于表格型任务,该偏序可找到最优策略。同时,对于函数近似,偏序无法识别出最优策略。

持续型任务的优化目标

对于持续型任务,最大化整个生命周期的奖励。那么,可$v_{\pi}^{\gamma}(s)$的加权平均可作为最终目标函数,即最大化$\sum_{s}\mu(s)v_{\pi}^{\gamma}(s)$。由此可知,$\mu$的选择决定智能体偏好的状态。

若要使该目标函数有意义,那么有两种方式,一种是$\mu$能够表示整个生命周期智能体所遇到的状态;另一种是折扣因子$\gamma\to1$。

若$\gamma\to1$,那么$\mu$可以为状态的任意权重。然而,作者们表明优化极限下目标函数而得到的策略,被称为Blackwell-optimal策略,其属于很困难的问题。同时,利用该方法有两个障碍,一个是随着$\gamma\to1$折扣价值函数越来越不稳定,另一个是关键折扣因子的估计很困难。

$\mu$的选择

在特定温和条件下,马尔可夫决策过程有一个关于状态的静态分布$d_{\pi}(s)$,即
$$
\begin{aligned}
d_{\pi}({s}')=\sum_{s\in\mathcal{S}}d_{\pi}(s)P_{\pi}(s,{s}')
\end{aligned}\tag{2}
$$
可以理解为,若智能体的状态服从静态分布,那么根据它的策略行动,下一时刻的状态分布也遵从静态分布。此外,在更多的温和条件下,无论初始状态$s_0$,状态分布收敛至$d_{\pi}(s)$,即
$$
\begin{aligned}
d_{\pi}(s)=\underset{T\to\infty}{lim}Pr(S_T=s)
\end{aligned}\tag{3}
$$
式中$S_0=s_0$且$S_{t+1}\sim P_{\pi}(S_t,\cdot)$

对于持续型任务,$d_{\pi}(s)$度量智能体在状态$s$上花费的时间。频繁访问的状态,其$d_{\pi}$值越高。若$d_{\pi}(s)=0$,那么状态$s$被称为转换状态,即该状态很少访问或从不访问。

若$\mu=d_{\pi}$,那么$\sum_{s}\mu(s)v_{\pi}^{\gamma}(s)$就可为持续型任务的目标函数。同时,作者们表明该目标函数等价于平均奖励函数,即
$$
\begin{aligned}
\underset{\pi\in{\Pi}}{argmax}\sum_{s\in\mathcal{S}}d_{\pi}(s)r_{\pi}(s)\equiv\underset{\pi\in{\Pi}}{argmax}~\bar{r}(\pi)
\end{aligned}\tag{4}
$$
该目标函数RL的核心目标:智能体的动作应能够使它访问获得奖励最大的状态。

其中,策略的平均奖励被定义为平均化单步奖励,其权重为每个状态所花费的时间,即
$$
\begin{aligned}
\bar{r}(\pi)=\sum_{s\in\mathcal{S}}d_{\pi}(s)r_{\pi}(s)
\end{aligned}\tag{5}
$$

总结

本文作者建议最大化平均奖励,且给出了相应的RL算法文献。遗憾的是,这些算法还没有与深度神经网络相结合,这也是作者们期望推动的研究方向。

标签: none

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论