标签生成式AI与RL 下的文章

扩散模型的可控生成与引导

Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成，通常需要进行引导。接下来，详细介绍该两部分内容。

在解决控制任务时，RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力，一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集，如何利用扩散模型解决RL问题，以及如何处理下游任务？

在Tutorial《Generative AI Meets Reinforcement Learning》中，讨论了如何把生成模型视为RL智能体与环境，以及如何把RL视为生成式建模？那么，生成式AI与RL之间会碰撞出什么样的火花呢？

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。