分类 生成模型 下的文章

GANs属于强有力的隐变量模型,可以用于学习复杂的真实世界数据的分布。然而,实践中发现,GANs很难训练,且观测到基于梯度下降方法的GAN优化无法拟合。因此,研究人员对GANs的训练,提出了更好的训练算法。同时,这些算法拥有更好的理论理解。尽管如此,对于GANs的训练动力学仍没有完全理解。

- 阅读剩余部分 -

GANs属于一类基于博弈理论学习生成模型的方法。GANs由两个网络构成,分别是生成器和判别器,生成器用于生成样本,判别器用于判别样本是真实样本还是生成样本,也就是说生成器需要利用判别器提供的信号学习,且需要学会欺骗判别器。本质上来说,GANs模型的训练属于两个玩家的零和博弈问题,需要寻找非凸博弈的Nash均衡。由于梯度下降方法属于寻找成本函数的最小值,而不是找到博弈的Nash均衡,因此GANs的训练往往无法很好的收敛。

Improved Techniques for Training GANs作者们基于对非收敛问题的启发式理解,提出了一系列鼓励GANs博弈收敛的技术。

- 阅读剩余部分 -

FreeU是研究人员通过研究U-Net网络的骨架skip连接对去噪过程产生的影响之后,在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示,FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型,例如:Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion

- 阅读剩余部分 -

扩散模型的性能虽优越,但是其限制了采样概率路径的空间。同时,扩散模型不仅拥有较长的训练时间,还需要通过蒸馏等方法提高采样效率。与之相比,连续正则化流CNFs能够建模任意的概率路径,但受限于无可扩展的CNF训练算法。为了解决CNFs模型训练的不稳定性,流匹配FM是一个基于回归固定条件概率路径向量场的Simulation-Free训练方法,为CNFs模型训练提供了等效梯度。该方法不仅拥有较好的样本质量,且训练与推理效率得到了很大的提升。

- 阅读剩余部分 -

Transformer在自然语言处理、视觉、以及许多其它领域得到了广泛的应用。然而,在图像相关的生成模型领域很少采用Transformer网络架构,例如:扩散模型利用卷积U-Net作为网络架构。对于基于U-Net的扩散模型,ADM作者们分析了网络扩展性与网络复杂性度量Gflop的特性。与之不同,DiT作者们揭开了扩散模型的网络架构选择的重要性,且对未来生成模型研究提供了经验。确切的说,在隐式扩散模型LDMs框架下,构建了基于Transformer扩散模型的设计空间,研究了网络复杂度与样本质量之间的关系,即模型的扩展性。

- 阅读剩余部分 -

扩散模型的理论密度、采样调度器的推导、训练动力学、以及噪音级别参数化确保了模型在一个坚实的理论基础。然而,这种方式往往模糊了设计空间,即一个模型由紧的耦合包构成。EDM作者们关注了“有型”的对象和训练与采样中的算法,很少关注统计过程,从而在整个系统的设计空间中对元件的连接方式和自由度有了更好的洞见。此外,还有如下贡献:

  • 研究了基于扩散模型合成图片的采样过程。
  • 研究了基于分数建模神经网络的训练。

- 阅读剩余部分 -