BFMs：行为基础模型的SF与FB表示

行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练，从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境，证明了多样和自适应的行为生成能力。与VLA不同，BFMs直接控制智能体的行为，且主要为Humanoids设计的。

对于BFMs，首次提出于《Fast Adaptation with Behavioral Foundation Models》，其利用forward-backward表示框架构建行为基础模型，该框架不仅学习了基本特征，还学习了 successor features。接下来，对forward-backward表示和successor features进行详细的介绍。

Successor Features

Successor Features表示框架下，状态通过预测所有状态的未来共现而描述。

若与状态转换$(s,a,{s}')$相关的one-step奖励为
$$
\begin{aligned}
r(s,a,{s}')=\mathbf{\phi}(s,a,{s}')^T\mathbf{w}
\end{aligned}\tag{1}
$$
式中$\phi(s,a,{s}')$为$(s,a,{s}')$的特征，$\mathbf{w}\in\mathbb{R}^d$为权重。
为了方便$\phi_t=\phi(s_t,a_t,s_{t+1})$，那么动作价值函数为
$$
\begin{aligned}
Q^{\pi}(s,a) =& E^{\pi}[r_{t+1}+\gamma r_{t+2}+\cdots\vert S_t=s,A_t=a] \\
=& E^{\pi}[\phi_{t+1}^T\mathbf{w}+\gamma\phi_{t+2}^T\mathbf{w}+\cdots\vert S_t=s,A_t=a] \\
=& E^{\pi}[\sum_{i=t}^{\infty}\gamma^{i-t}\phi_{i+1}\vert S_t=s,A_t=a]\mathbf{w} \\
=& \psi^{\pi}(s,a)^{T}\mathbf{w}
\end{aligned}\tag{2}
$$
式中，$\psi^{\pi}(s,a)$为策略$\pi$下$(s,a)$的successor features

$\psi^{\pi}(s,a)$的第$i$个元件表示的是策略$\pi$下从$(s,a)$开始的$\phi$折扣和的期望。在特别情况下，$\mathcal{S}$和$\mathcal{A}$为有限的，$\phi$为$\mathcal{S}\times\mathcal{A}\times\mathcal{S}$表格型表示，那么$\phi(s,a,{s}')$为one-hot向量，可得$\psi^{\pi}(s,a)$为策略$\pi$下每个可能转换的共现的折扣和。

确切的说，successor features为successor representation由空间$\mathcal{S}$扩展到了$\mathcal{S}\times\mathcal{A}\times\mathcal{S}$。这种扩展主要体现在两个方面，一个是SF很容易应用到连续的状态和动作空间，另一个是SF可用函数近似方法得到。

SF表示中$\mathbf{w}$和$\psi^{\pi}$为两个可学习的元件。由于$\psi$为策略$\pi$下$\phi$的期望折扣和，那么$\phi$为给定的或学习得到的。确切的说，$r(s,a,{s}')\approx\phi(s,a,{s}')^T\tilde{\mathbf{w}}$为监督学习问题，那么$\tilde{\mathbf{w}}$可基于机器学习技术学习得到。
对于$\psi^{\pi}$，其为
$$
\begin{aligned}
\psi^{\pi}(s,a)=\phi_{t+1}+\gamma E^{\pi}[\psi^{\pi}(S_{t+1},\pi(S_{t+1}))\vert S_t=s,A_t=a]
\end{aligned}\tag{4}
$$
即满足Bellman方程，且$\phi$扮演着奖励的角色。由此，任何RL算法均可计算$\psi^{\pi}$

总的来说，SF总结了给定环境中策略$\pi$下环境动力学，即$Q^{\pi}$下MDP的环境动力学与奖励进行了解耦合。这种解耦合表示的益处是：在环境动力学或奖励发生变化时，只有相关元件才需要重新学习。

Plus: 对于successor features的学习，可见《Universal Successor Features Approximators》和《Successor Features for Transfer in Reinforcement Learning》

Forward-Backward Representation

FB表示提出于《Learning One Representation to Optimize All Rewards》，该理论建立在免奖励的离散或连续MDP$(S,A,P,\gamma)$，其数学形式分别为$F:S\times A\times Z\to Z$和$B:S\times A\to Z$，即状态动作到表示空间的表示。其中，$z\in Z\simeq\mathbb{R}^d$。确切的说，$F(s,a,z)^TB({s}', {a}')$近似了策略$\pi_z$下从状态$s$到${s}'$的长程概率，即与环境的动力学或模型相近。接下来，详细介绍一下FB表示的理论。

FB表示要解决的问题：给定免奖励MDP$(S,A,P,\gamma)$，是否可以通过计算一个可学习对象$E$，一旦奖励函数$r:S\times A\to\mathbb{R}$被确定，那么可根据$E,r$得到最优策略$\pi$？

原理

给定$(s_0,a_0)\in S\times A$和策略$\pi:S\to Prob(A)$，$Pr(\cdot\vert s_0,a_0,\pi)$和$\mathbb{E}[\cdot\vert s_0,a_0,\pi]$分别为策略$\pi$下起始点为$(s_0,a_0)$的状态动作序列$(s_t,a_t)_{t\ge0}$的概率和期望。那么，successor measure为
$$
\begin{aligned}
M^{\pi}(s_0,a_0,X):=\sum_{t\ge0}\gamma^tPr((s_t,a_t)\in X\vert s_0,a_0,\pi)
\end{aligned}\tag{5}
$$
策略$\pi$的$Q$函数为$Q_r^{\pi}(s_0,a_0):=\sum_{t\ge0}\gamma^t\mathbb{E}[r(s_t,a_t)\vert s_0,a_0,\pi]$，进一步的，可被表示为$Q^{\pi}_r(s,a)=\sum_{{s}',{a}'}M^{\pi}(s,a,{s}',{a}')r({s}',{a}')$。其中，$M^{\pi}(s,a,{s}',{a}')=\sum_{t\ge0}\gamma^tPr((s_t,a_t)=({s}',{a}')\vert s,a,\pi)$。

$(\pi_z)_{z\in\mathbb{R}^d}$指被参数化为$z$的任何策略族。若对于每个$z$均可找到$d\times(S\times A)$型矩阵$F_z$和$B$使$M^{\pi_z}=F^{T}_zB$，那么$Q_r^{\pi_z}=F_z^TBr$。对于特定的奖励函数$r$，$z_R:=Br$，那么策略$\pi_{z_R}$下$Q$函数为$Q_r^{\pi_{z_R}}=F_{z_{R}}^Tz_R$。此时，$\pi_z$还未定义。

若策略被定义为$\pi_z(s):=argmax_a(F_z^Tz)_{sa}$，那么策略$\pi_{z_R}$为关于$F_{z_R}^Tz_R$的贪心策略。同时，$F_{z_R}^Tz_R$为策略$\pi_R$在奖励为$r$下的$Q$函数，那么策略$\pi_{z_R}$为自己$Q$函数的贪心策略，即对奖励$r$属于最优策略。

由此，若找到$F,B$以及$\pi_z$使$\pi_z=argmax~F_z^Tz$且$F_z^TB=M^{\pi_z}$，那么可获得任何奖励函数$r$的最优策略，只需要计算$Br$可得到。

在有限空间内，若维度$d$大于$\#S\times \#A$，那么精确的$FB$表示存在。在无穷状态空间内，任意误差的近似可通过增加$d$实现，可以理解为对应于累积转换概率$M^{\pi}$的秩为$d$的近似，即低秩近似。对于$F,B$的近似，最优性gap与$F^TB-M^{\pi_z}/\rho$成比例。由此，学习$F,B$的损失函数可定义为$\vert F^TB-M^{\pi_z}/\rho\vert$的范数。

Plus: 对于FB表示的学习，可见《Learning One Representation to Optimize All Rewards》

BFMs：行为基础模型的SF与FB表示

Successor Features

Forward-Backward Representation

原理

引用方法

添加新评论

最新文章

标签云 (Top20)

分类