分类强化学习下的文章

扩散模型解决RL问题(一)

作者: wyli
时间: 2025-09-07
分类: 生成模型,强化学习
880 次阅读
评论

在解决控制任务时，RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力，一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集，如何利用扩散模型解决RL问题，以及如何处理下游任务？

- 阅读剩余部分 -

生成式AI与RL相遇

作者: wyli
时间: 2025-08-30
分类: 基础模型,强化学习
741 次阅读
评论

在Tutorial《Generative AI Meets Reinforcement Learning》中，讨论了如何把生成模型视为RL智能体与环境，以及如何把RL视为生成式建模？那么，生成式AI与RL之间会碰撞出什么样的火花呢？

- 阅读剩余部分 -

BFMs：行为基础模型的SF与FB表示

作者: wyli
时间: 2025-08-17
分类: 基础模型,强化学习
618 次阅读
评论

行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练，从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境，证明了多样和自适应的行为生成能力。与VLA不同，BFMs直接控制智能体的行为，且主要为Humanoids设计的。

对于BFMs，首次提出于《Fast Adaptation with Behavioral Foundation Models》，其利用forward-backward表示框架构建行为基础模型，该框架不仅学习了基本特征，还学习了 successor features。接下来，对forward-backward表示和successor features进行详细的介绍。

- 阅读剩余部分 -

EvoRL(二)：EPO算法

作者: wyli
时间: 2025-08-02
分类: 强化学习
583 次阅读
评论

之前，《EvoRL(一)：为什么要演化算法与RL结合？》描述了演化算法与RL的结合是为了提升智能体的探索能力。接下来，介绍一下两者结合的《Evolutionary Policy Optimization》算法。

- 阅读剩余部分 -

EvoRL(一)：为什么要演化算法与RL结合？

作者: wyli
时间: 2025-07-27
分类: 强化学习
592 次阅读
1 条评论

对于机器人控制，有两种方法，分别是演化算法和强化学习。然而，该两种方法各有各自的特点。其中，RL智能体需要探索平衡和利用，探索是为了找到更优的策略，而利用是为了学习到奖励最大化的知识。然而，智能体扩展到数千个环境时，交互数据很快收敛，即不同环境中数据的相关性较高。那么，如何提高其探索能力呢？

- 阅读剩余部分 -

Constrained RL(一)：策略优化理论

作者: wyli
时间: 2025-07-20
分类: 强化学习
497 次阅读
评论

在真实世界中，智能体的探索通常有约束的，因为有些行为会产生较大的成本。同时，对于多目标的智能体来说，待满足的目标之间属于冲突的，那么就可以把其转化为有约束的优化问题，从而更好的解决问题。然而，《Constrained Policy Optimization》之前，CRL主要适用于低维空间。那么，CPO提出了什么方法，从而解决高维控制问题呢？

- 阅读剩余部分 -