生成式AI与RL相遇
在Tutorial《Generative AI Meets Reinforcement Learning》中,讨论了如何把生成模型视为RL智能体与环境,以及如何把RL视为生成式建模?那么,生成式AI与RL之间会碰撞出什么样的火花呢?
RL引擎中利用生成模型
这一部份作者们主要探讨了生成模型与RL融合的方法,一种是生成模型作为世界模型,另一种是生成模型直接作为策略。
交互作为生成模型
生成模型可被视为从数据分布中生成样本,或者估计样本的似然。表现最好的生成模型,通常进行迭代计算而生成样本的方法。通常,迭代计算被认为发生于可微分函数,但存在不可微分的方式,例如:渲染。
由此,RL智能体与环境交互的过程可被视为生成模型。一些生成过程是可微分的,即给定观测估计采样动作的似然,另一些生成过程是不可微分的,即不一定需要知道环境动力学。
在该视角下,Goal-Reaching问题特别适合。若把Goal-Reaching问题视为估计在未来一些点达到给定状态的概率,那么可利用生成模型估计数据的概率,可解决Goal-Reaching这种困难问题。
学习似然
生成模型提供了两种能力,分别是采样和估计$log~likelyhood$。智能体与环境交互的过程就是采样的过程。若要估计智能体与环境交互过程中,访问特定状态的$likelyhood$,也可利用生成模型。
该$likelyhood$被定义为折扣状态occupancy measure,即
$$
\begin{aligned}
p^{\pi}(s_f)\triangleq (1-\gamma)\mathbb{E}_{\pi}[\sum_{t}\gamma^t p(s_{t+1}=g\vert s_t,a_t)]
\end{aligned}\tag{1}
$$
式中$(1-\gamma)\gamma^t$对应于几何随机变量$t$的概率密度函数。同样的,也可定义$p^{\pi}(s_f,a_f)$
估计似然
对于该似然函数,一种方式是直接估计,那么就可以优化最大化达到期望目标状态问题的方式学习出策略。这种估计方式有各种生成模型进行建模。
实际上,直接估计似然是非常困难的。另一种方式是通过时序对比学习估计Relative Likelihoods,从而绕过高纬密度估计的难度,即估计相对折扣state occupancy度量:
$$
\begin{aligned}
\frac{p^{\pi}(s_f\vert s,a)}{p(s_f)}
\end{aligned}\tag{2}
$$
添加分母项,不会影响优化问题
$$
\begin{aligned}
\underset{a}{argmax}~\frac{p^{\pi}(s_f\vert s,a)}{p(s_f)}=\underset{a}{argmax}~p^{\pi}(s_f\vert s,a)
\end{aligned}\tag{3}
$$
估计概率比的问题是一个分类问题,判别随机变量实例是否来自于特定策略下的分布。若概率比分类器被参数化为$f_{\theta}(s,a,s_f)\in[0,\infty)$,二分类损失函数为
$$
\begin{aligned}
\underset{\theta}{min}-\mathbb{E}_{p^{\pi}(s_f\vert s,a)p(s,a)}[log\frac{1}{1+\frac{1}{f_{\theta}(s,a,s_f)}}]-\mathbb{E}_{p(s_f)p(s,a)}[log\frac{1}{1+f_{\theta}(s,a,s_f)}]
\end{aligned}\tag{4}
$$
其中,正样本来自于$p^{\pi}(s_f\vert s,a)p(s,a)$,负样本来自于$p(s_f)p(s,a)$。
值得注意的是,这种建模方式与Temporal Contrastive Learning相一致。除了交叉熵损失,还有Sugiyama Least Squares Importance Filtering损失。
Temporal Difference方法
估计似然的方法属于Monte-Carlo方法,预测的是特定策略访问状态的概率。若改变策略,那么什么新状态会被访问,什么旧状态会被停止访问呢?该问题等价于Bellman流约束:after today访问一个状态的概率到after tomorrow再次访问该状态的概率,即:
$$
\begin{aligned}
p^{\pi}(s_f\vert s_0,a_0)=p(s_1=s_f\vert s_0,a_0)+\gamma\mathbb{E}_{p(s_1\vert s_0,a_0)\pi(s_1,a_1)}[p^{\pi}(s_f\vert s_1,a_1)]
\end{aligned}\tag{5}
$$
那么,损失函数(4)可被改为
$$
\begin{aligned}
\underset{f}{min}~\mathbb{E}_{p(s,a,{s}')}[\cdots logf(s,a,s_f={s}')\cdots]+\\
\gamma\mathbb{E}_{p(s,a,{s}')\pi({a}'\vert{s}')p(s_f)}[f({s}',{a}',s_f)\cdots logf(s,a,s_f)\cdots]
\end{aligned}\tag{6}
$$
损失函数(6)形式与Forward Backward表示、C-learning、TD InfoNCE相一致。
Last
相对似然的估计不仅可以用于解决特定基于目标的RL任务,也可以用于解决特定类别的任务。同时,可以通过$linear$和$log-linear$的方式参数化Successor Measure,从而估计相对似然,这种方式可以赋予RL的各种特性,例如:解锁扩展能力。另一种方式是:参数化Proto Successor Measure,可学习出独立于任务的表示。
自生成式反馈
首先,对于探索问题,可以被看作覆盖问题,即期望智能体尽可能的探索更多的状态。当然,可以通过occupancy度量思考探索,不是对高奖励轨迹分配高的概率,而是学习对每条轨迹分配一些的概率。另一种探索的方法是Empowerment,通过最大化互信息$I(s_t,a_{0:t})$或$I(a;{s}'\vert s)$的方式实现。
探索不是目的,学习技能库以解决下游任务。技能库学习主要关注两个方面,分别是状态的coverage和技能执行行为的uniqueness。技能学习方法是最大化互信息$I^{\pi}(z;\tau)$,$z$为技术隐空间变量,$\tau$为轨迹。那么,如何选择技能解决下游任务?一种方式利用后验推断最好技能$q(z\vert\tau)$。另一种方式,把技能视作高级别时序可扩展的动作,定义了一个新的MDP,可利用RL解决下游任务。
与大语言模型压缩数据相比,self-supervised RL压缩MDP,从而获得行为基础模型。
总结
在第一部分的结尾,讨论了如何将强化学习视为数据和策略的联合优化问题,讨论了与对偶强化学习的联系。直觉地认为,如果没有模拟器,可能会尝试将优化后的数据限制在接近之前见过的数据的范围内。同时,奖励函数提供了一个支撑数据的支架。
第二部分移除了部分支撑。虽然奖励通常不仅指定任务是什么,还指定如何解决任务,但目标条件设置允许用户指定任务是什么,而无需指定如何解决。这与模拟的使用相结合,使得算法能够收集自己的数据。
第三部分突破了这些目标达成方法的局限性,表明强化学习的概率生成视角不仅为提供了解决目标达成问题的新工具,而且还能够解决完全通用的强化学习问题。
最后一部分,讨论了RL如何使生成式AI系统构建自己知识,即回到数据,讨论如何寻找到支撑奖励最大化的数据。
引用方法
请参考:
li,wanye. "生成式AI与RL相遇". wyli'Blog (Aug 2025). https://www.robotech.ink/index.php/archives/761.html
或BibTex方式引用:
@online{eaiStar-761,
title={生成式AI与RL相遇},
author={li,wanye},
year={2025},
month={Aug},
url="https://www.robotech.ink/index.php/archives/761.html"
}