GAIL:生成式对抗模仿学习
模仿学习主要有两种形式,分别是行为克隆和逆强化学习。其中,行为克隆把学习一个策略视作关于状态-动作的监督学习问题;逆强化学习是先找到专家策略奖励最大的奖励函数,然后基于奖励函数学习出策略。行为克隆算法虽然简单,但是该类算法很容易受到分布偏移造成的复合误差影响。逆强化学习与之相反,不仅需要计算奖励函数,还需要在内循环中进行强化学习,所以计算成本很高。
模仿学习主要有两种形式,分别是行为克隆和逆强化学习。其中,行为克隆把学习一个策略视作关于状态-动作的监督学习问题;逆强化学习是先找到专家策略奖励最大的奖励函数,然后基于奖励函数学习出策略。行为克隆算法虽然简单,但是该类算法很容易受到分布偏移造成的复合误差影响。逆强化学习与之相反,不仅需要计算奖励函数,还需要在内循环中进行强化学习,所以计算成本很高。
基于不确定性估计的离线强化学习方法允许策略在保守型离线策略与离线策略之间转换。也可以这样理解,若函数近似的不确定性被评估,那么低不确定性区域策略的约束可被松弛。其中,不确定性的估计可以是策略、价值函数、或模型;不确定性估计的可用度量有方差、标准差等。
BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因,分别是数据不足、模型偏差、训练中的不匹配。其中,数据不足是指若数据$({s}',\pi({s}'))$不足,那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确
自然语言处理领域基于原始文本的预训练模型已经可以实现零样本泛化到下游任务,且性能优越于基于高质量标签数据的模型。然而,在计算机视觉领域基于图片预测标签的SOTA模型,要么是有监督的训练,要么是预训练-微调的方式,且模型的规模也无法与GPT3这样的模型相比。作者们提出了CLIP(Contrastive Lanuage-Image Pre-training),该模型利用自然语言监督的方式在图片分类任务上大规模的训练模型。
扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、基于随机微分方程估计分数的模型[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。
扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、随机微分方程[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。