BCQ:批次约束的DQN
BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因,分别是数据不足、模型偏差、训练中的不匹配。其中,数据不足是指若数据$({s}',\pi({s}'))$不足,那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确
BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因,分别是数据不足、模型偏差、训练中的不匹配。其中,数据不足是指若数据$({s}',\pi({s}'))$不足,那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确
自然语言处理领域基于原始文本的预训练模型已经可以实现零样本泛化到下游任务,且性能优越于基于高质量标签数据的模型。然而,在计算机视觉领域基于图片预测标签的SOTA模型,要么是有监督的训练,要么是预训练-微调的方式,且模型的规模也无法与GPT3这样的模型相比。作者们提出了CLIP(Contrastive Lanuage-Image Pre-training),该模型利用自然语言监督的方式在图片分类任务上大规模的训练模型。
扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、基于随机微分方程估计分数的模型[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。
扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、随机微分方程[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。
扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、随机微分方程[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。
首要偏见是指智能体对早期的交互数据过拟合,而对新的交互数据无法学习到新知识。这种现象也存在于人类的认知过程中,例如:人类在学习弹吉他时,一开始基于简单的曲子学习,但是由于过于熟悉之前的经验,进而形成无意识的习惯,从而导致无法根据新经验学习。