分类 强化学习 下的文章

在解决控制任务时,RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力,一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集,如何利用扩散模型解决RL问题,以及如何处理下游任务?

- 阅读剩余部分 -

行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练,从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境,证明了多样和自适应的行为生成能力。与VLA不同,BFMs直接控制智能体的行为,且主要为Humanoids设计的。

对于BFMs,首次提出于《Fast Adaptation with Behavioral Foundation Models》,其利用forward-backward表示框架构建行为基础模型,该框架不仅学习了基本特征,还学习了 successor features。接下来,对forward-backward表示和successor features进行详细的介绍。

- 阅读剩余部分 -

对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?

- 阅读剩余部分 -

在真实世界中,智能体的探索通常有约束的,因为有些行为会产生较大的成本。同时,对于多目标的智能体来说,待满足的目标之间属于冲突的,那么就可以把其转化为有约束的优化问题,从而更好的解决问题。然而,《Constrained Policy Optimization》之前,CRL主要适用于低维空间。那么,CPO提出了什么方法,从而解决高维控制问题呢?

- 阅读剩余部分 -