EAI猩球

BCQ：批次约束的DQN

作者: wyli
时间: 2024-02-08
分类: Offline RL
1 条评论
1280 次阅读

BCQ算法是离线强化学习的开篇之作。作者们首先分析了推断错误产生的三个原因，分别是数据不足、模型偏差、训练中的不匹配。其中，数据不足是指若数据$({s}',\pi({s}'))$不足，那么$Q_{\theta}({s}',\pi({s}'))$估计也不准确

- 阅读剩余部分 -

视觉-语言模型CLIP的核心技术点

作者: wyli
时间: 2024-02-08
分类: 基础模型,多模态模型
3 条评论
2017 次阅读

自然语言处理领域基于原始文本的预训练模型已经可以实现零样本泛化到下游任务，且性能优越于基于高质量标签数据的模型。然而，在计算机视觉领域基于图片预测标签的SOTA模型，要么是有监督的训练，要么是预训练-微调的方式，且模型的规模也无法与GPT3这样的模型相比。作者们提出了CLIP(Contrastive Lanuage-Image Pre-training)，该模型利用自然语言监督的方式在图片分类任务上大规模的训练模型。

- 阅读剩余部分 -

Score-SDE：基于随机微分方程的分数估计扩散模型

作者: wyli
时间: 2024-02-07
分类: 基础模型,生成模型
4 条评论
2584 次阅读

扩散模型是一类概率生成模型，它通过注入噪声逐步破坏数据，然后学习其逆过程，以生成样本。目前，扩散模型主要有三种形式：去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、基于随机微分方程估计分数的模型$[6,7,8]$ (Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

SGMs：基于分数的生成模型

作者: wyli
时间: 2024-02-07
分类: 基础模型,生成模型
2 条评论
1286 次阅读

扩散模型是一类概率生成模型，它通过注入噪声逐步破坏数据，然后学习其逆过程，以生成样本。目前，扩散模型主要有三种形式：去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、随机微分方程$[6,7,8]$ (Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

DDPM：去噪扩散概率模型

作者: wyli
时间: 2024-02-07
分类: 基础模型,生成模型
5 条评论
1551 次阅读

扩散模型是一类概率生成模型，它通过注入噪声逐步破坏数据，然后学习其逆过程，以生成样本。目前，扩散模型主要有三种形式：去噪扩散概率模型$[2,3]$ (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型$[4,5]$ (Score-Based Generative Models,简称SGMs)、随机微分方程$[6,7,8]$(Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

深度强化学习的首要偏见

作者: wyli
时间: 2024-02-06
分类: 强化学习
1 条评论
817 次阅读

首要偏见是指智能体对早期的交互数据过拟合，而对新的交互数据无法学习到新知识。这种现象也存在于人类的认知过程中，例如：人类在学习弹吉他时，一开始基于简单的曲子学习，但是由于过于熟悉之前的经验，进而形成无意识的习惯，从而导致无法根据新经验学习。

- 阅读剩余部分 -

BCQ：批次约束的DQN

视觉-语言模型CLIP的核心技术点

Score-SDE：基于随机微分方程的分数估计扩散模型

SGMs：基于分数的生成模型

DDPM：去噪扩散概率模型

深度强化学习的首要偏见

最新文章

标签云 (Top20)

分类