扩散模型的可控生成与引导
Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成,通常需要进行引导。接下来,详细介绍该两部分内容。
Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成,通常需要进行引导。接下来,详细介绍该两部分内容。
在解决控制任务时,RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力,一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集,如何利用扩散模型解决RL问题,以及如何处理下游任务?
在Tutorial《Generative AI Meets Reinforcement Learning》中,讨论了如何把生成模型视为RL智能体与环境,以及如何把RL视为生成式建模?那么,生成式AI与RL之间会碰撞出什么样的火花呢?
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。