分类 生成模型 下的文章

Transformer在自然语言处理、视觉、以及许多其它领域得到了广泛的应用。然而,在图像相关的生成模型领域很少采用Transformer网络架构,例如:扩散模型利用卷积U-Net作为网络架构。对于基于U-Net的扩散模型,ADM作者们分析了网络扩展性与网络复杂性度量Gflop的特性。与之不同,DiT作者们揭开了扩散模型的网络架构选择的重要性,且对未来生成模型研究提供了经验。确切的说,在隐式扩散模型LDMs框架下,构建了基于Transformer扩散模型的设计空间,研究了网络复杂度与样本质量之间的关系,即模型的扩展性。

- 阅读剩余部分 -

扩散模型的理论密度、采样调度器的推导、训练动力学、以及噪音级别参数化确保了模型在一个坚实的理论基础。然而,这种方式往往模糊了设计空间,即一个模型由紧的耦合包构成。EDM作者们关注了“有型”的对象和训练与采样中的算法,很少关注统计过程,从而在整个系统的设计空间中对元件的连接方式和自由度有了更好的洞见。此外,还有如下贡献:

  • 研究了基于扩散模型合成图片的采样过程。
  • 研究了基于分数建模神经网络的训练。

- 阅读剩余部分 -

扩散模型显著地提升了图片、音频、视频生成领域,这种模型依赖迭代的采样过程,从而导致生成速度很慢。为了解决生成慢的问题,一致性模型被提出。这种模型的核心思想是从相同轨迹上任何一点开始采样,最终的输出为一致的,可见图1所示。一致性模型有两种训练方式,分别是蒸馏预训练扩散模型和生成模型的直接训练。通过实验表明这两种方式在one-step和few-step生成上均实现了新SOTA的结果,即一致性模型不仅能够执行单步采样,且拥有迭代性采样的优势。

- 阅读剩余部分 -

学习一个任务的困难程度显著的受到数据表示方式的影响。根据相关文献,可知,数据生成因子的一个disentangled representation可适用于大量的任务与领域。其中,disentangled representation被定义为单个隐式单元对单个生成因子的变化较敏感,且对其它因子的变化保持相对不变。

- 阅读剩余部分 -

生成式对抗网络虽然概念上直接,但是其背后的理论值得深究。简单来说,GAN定义了两个网络,分别是生成网络$G(z;\theta_g)$和判别网络$D(x;\theta_d)$。生成网络基于先验分布$p_z(z)$生成数据$x$的分布$p_g$。判别网络用于判别样本来自于训练数据$x$而不是$p_g$的概率。

- 阅读剩余部分 -