行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练,从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境,证明了多样和自适应的行为生成能力。与VLA不同,BFMs直接控制智能体的行为,且主要为Humanoids设计的。

对于BFMs,首次提出于《Fast Adaptation with Behavioral Foundation Models》,其利用forward-backward表示框架构建行为基础模型,该框架不仅学习了基本特征,还学习了 successor features。接下来,对forward-backward表示和successor features进行详细的介绍。

Successor Features

Successor Features表示框架下,状态通过预测所有状态的未来共现而描述。

若与状态转换$(s,a,{s}')$相关的one-step奖励为
$$
\begin{aligned}
r(s,a,{s}')=\mathbf{\phi}(s,a,{s}')^T\mathbf{w}
\end{aligned}\tag{1}
$$
式中$\phi(s,a,{s}')$为$(s,a,{s}')$的特征,$\mathbf{w}\in\mathbb{R}^d$为权重。
为了方便$\phi_t=\phi(s_t,a_t,s_{t+1})$,那么动作价值函数为
$$
\begin{aligned}
Q^{\pi}(s,a) =& E^{\pi}[r_{t+1}+\gamma r_{t+2}+\cdots\vert S_t=s,A_t=a] \\
=& E^{\pi}[\phi_{t+1}^T\mathbf{w}+\gamma\phi_{t+2}^T\mathbf{w}+\cdots\vert S_t=s,A_t=a] \\
=& E^{\pi}[\sum_{i=t}^{\infty}\gamma^{i-t}\phi_{i+1}\vert S_t=s,A_t=a]\mathbf{w} \\
=& \psi^{\pi}(s,a)^{T}\mathbf{w}
\end{aligned}\tag{2}
$$
式中,$\psi^{\pi}(s,a)$为策略$\pi$下$(s,a)$的successor features

$\psi^{\pi}(s,a)$的第$i$个元件表示的是策略$\pi$下从$(s,a)$开始的$\phi$折扣和的期望。在特别情况下,$\mathcal{S}$和$\mathcal{A}$为有限的,$\phi$为$\mathcal{S}\times\mathcal{A}\times\mathcal{S}$表格型表示,那么$\phi(s,a,{s}')$为one-hot向量。由此,$\psi^{\pi}(s,a)$为策略$\pi$下每个可能转换的共现的折扣和。

确切的说,successor featuressuccessor representation由空间$\mathcal{S}$扩展到了$\mathcal{S}\times\mathcal{A}\times\mathcal{S}$。这种扩展主要体现在两个方面,一个是SF很容易应用到连续的状态和动作空间,另一个是SF可用于函数近似。

SF表示中$\mathbf{w}$和$\psi^{\pi}$为两个可学习的元件。由于$\psi$为策略$\pi$下$\phi$的期望折扣和,那么$\phi$为给定的或学习得到的。确切的说,$r(s,a,{s}')\approx\phi(s,a,{s}')^T\tilde{\mathbf{w}}$为监督学习问题,那么$\tilde{\mathbf{w}}$可基于机器学习技术学习得到。
对于$\psi^{\pi}$,其为
$$
\begin{aligned}
\psi^{\pi}(s,a)=\phi_{t+1}+\gamma E^{\pi}[\psi^{\pi}(S_{t+1},\pi(S_{t+1}))\vert S_t=s,A_t=a]
\end{aligned}\tag{4}
$$
即满足Bellman方程,且$\phi$扮演着奖励的角色。由此,任何RL算法均可计算$\psi^{\pi}$

总的来说,SF总结了给定环境中策略$\pi$下环境动力学,即$Q^{\pi}$下MDP的环境动力学与奖励进行了解耦合。这种解耦合表示的益处是:在环境动力学或奖励发生变化时,只有相关元件才需要重新学习。

Plus: 对于successor features的学习,可见《Universal Successor Features Approximators》和《Successor Features for Transfer in Reinforcement Learning

Forward-Backward Representation

FB表示提出于《Learning One Representation to Optimize All Rewards》,该理论建立在免奖励的离散或连续MDP$(S,A,P,\gamma)$,其数学形式分别为$F:S\times A\times Z\to Z$和$B:S\times A\to Z$,即状态动作到表示空间的表示。确切的说,$F(s,a,z)^TB({s}', {a}')$近似了策略$\pi_z$下从状态$s$到${s}'$的长程概率,即与环境的动力学或模型相近。接下来,详细介绍一下FB表示的理论。

FB表示要解决的问题:给定免奖励MDP$(S,A,P,\gamma)$,是否可以通过计算一个可学习对象$E$,一旦奖励函数$r:S\times A\to\mathbb{R}$被确定,那么可根据$E,r$得到最优策略$\pi$?

原理

给定$(s_0,a_0)\in S\times A$和策略$\pi:S\to Prob(A)$,$Pr(\cdot\vert s_0,a_0,\pi)$和$\mathbb{E}[\cdot\vert s_0,a_0,\pi]$分别为策略$\pi$下起始点为$(s_0,a_0)$的状态动作序列$(s_t,a_t)_{t\ge0}$的概率和期望。那么,successor measure
$$
\begin{aligned}
M^{\pi}(s_0,a_0,X):=\sum_{t\ge0}\gamma^tPr((s_t,a_t)\in X\vert s_0,a_0,\pi)
\end{aligned}\tag{5}
$$
策略$\pi$的$Q$函数为$Q_r^{\pi}(s_0,a_0):=\sum_{t\ge0}\gamma^t\mathbb{E}[r(s_t,a_t)\vert s_0,a_0,\pi]$,进一步的,可被表示为$Q^{\pi}_r(s,a)=\sum_{{s}',{a}'}M^{\pi}(s,a,{s}',{a}')r({s}',{a}')$。其中,$M^{\pi}(s,a,{s}',{a}')=\sum_{t\ge0}\gamma^tPr((s_t,a_t)=({s}',{a}')\vert s,a,\pi)$。

$(\pi_z)_{z\in\mathbb{R}^d}$为参数化为$z$的任何策略族。若对于每个$z$均可找到$d\times(S\times A)$型矩阵$F_z$和$B$使$M^{\pi_z}=F^{T}_zB$,那么$Q_r^{\pi_z}=F_z^TBr$。对于特定的奖励函数$r$,$z_R:=Br$,那么策略$\pi_{z_R}$下$Q$函数为$Q_r^{\pi_{z_R}}=F_{z_{R}}^Tz_R$。此时,$\pi_z$还未定义。

若策略被定义为$\pi_z(s):=argmax_a(F_z^Tz)_{sa}$,那么策略$\pi_{z_R}$为关于$F_{z_R}^Tz_R$的贪心策略。同时,$F_{z_R}^Tz_R$为策略$\pi_R$在奖励为$r$下的$Q$函数,那么策略$\pi_{z_R}$为自己$Q$函数的贪心策略,即对奖励$r$属于最优策略。

由此,若找到$F,B$以及$\pi_z$使$\pi_z=argmax~F_z^Tz$且$F_z^TB=M^{\pi_z}$,那么可获得任何奖励函数$r$的最优策略,只需要计算$Br$可得到。

在有限空间内,若维度$d$大于$\#S\times \#A$,那么精确的$FB$表示存在。在无穷状态空间内,任意误差的近似可通过增加$d$实现,对应于累积转换概率$M^{\pi}$的秩为$d$的近似,即低秩近似。对于$F,B$的近似,最优性gap与$F^TB-M^{\pi_z}/\rho$成比例。由此,学习$F,B$的损失函数可定义为$\vert F^TB-M^{\pi_z}/\rho\vert$的范数。

Plus: 对于FB表示的学习,可见《Learning One Representation to Optimize All Rewards》

引用方法

请参考:

            
                li,wanye. "BFMs:行为基础模型的SF与FB表示". wyli'Blog (Aug 2025). https://www.robotech.ink/index.php/archives/762.html            
        

或BibTex方式引用:

            
                @online{eaiStar-762,
   title={BFMs:行为基础模型的SF与FB表示},
   author={li,wanye},
   year={2025},
   month={Aug},
   url="https://www.robotech.ink/index.php/archives/762.html"
}

标签: BFMs

添加新评论