基于不确定性估计的离线强化学习方法允许策略在保守型离线策略与离线策略之间转换。也可以这样理解,若函数近似的不确定性被评估,那么低不确定性区域策略的约束可被松弛。其中,不确定性的估计可以是策略、价值函数、或模型;不确定性估计的可用度量有方差、标准差等。

- 阅读剩余部分 -

BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因,分别是数据不足、模型偏差、训练中的不匹配。其中,数据不足是指若数据$({s}',\pi({s}'))$不足,那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确

- 阅读剩余部分 -

自然语言处理领域基于原始文本的预训练模型已经可以实现零样本泛化到下游任务,且性能优越于基于高质量标签数据的模型。然而,在计算机视觉领域基于图片预测标签的SOTA模型,要么是有监督的训练,要么是预训练-微调的方式,且模型的规模也无法与GPT3这样的模型相比。作者们提出了CLIP(Contrastive Lanuage-Image Pre-training),该模型利用自然语言监督的方式在图片分类任务上大规模的训练模型。

- 阅读剩余部分 -

扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、基于随机微分方程估计分数的模型$[6,7,8]$ (Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、随机微分方程$[6,7,8]$ (Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、随机微分方程$[6,7,8]$(Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -