行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练,从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境,证明了多样和自适应的行为生成能力。与VLA不同,BFMs直接控制智能体的行为,且主要为Humanoids设计的。

对于BFMs,首次提出于《Fast Adaptation with Behavioral Foundation Models》,其利用forward-backward表示框架构建行为基础模型,该框架不仅学习了基本特征,还学习了 successor features。接下来,对forward-backward表示和successor features进行详细的介绍。

- 阅读剩余部分 -

The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system. —Jay Wright Forrester
以上是系统动力学之父对mental modelworld model的描述。

- 阅读剩余部分 -

对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?

- 阅读剩余部分 -

在真实世界中,智能体的探索通常有约束的,因为有些行为会产生较大的成本。同时,对于多目标的智能体来说,待满足的目标之间属于冲突的,那么就可以把其转化为有约束的优化问题,从而更好的解决问题。然而,《Constrained Policy Optimization》之前,CRL主要适用于低维空间。那么,CPO提出了什么方法,从而解决高维控制问题呢?

- 阅读剩余部分 -

在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?

- 阅读剩余部分 -