分类 生成模型 下的文章

一致性模型 (Consistency Model, CM)属于一类可实现快速采样的扩散生成模型。然而,利用离散化时间步训练的一致性模型,往往需要引入辅助参数且容易产生离散化误差,从而造成样本质量不佳。与之相对的,连续时间范式的模型缓和了该问题,但会产生训练的不稳定性。为了解决该问题,sCMs作者们提出了TrigFlow范式,统一了EDMFlow Matching,显著简化了扩散模型范式。在该基础上,分析了CM训练不稳定的根本原因,且提出了improved time-conditioning和自适应group normalization用于缓解该问题。除此之外,作者们也重新阐释了连续时间的CMs,其包含关键项自适应权重与正则化,以及可产生稳定训练和可扩展训练的渐进衰退。

- 阅读剩余部分 -

扩散模型从噪音中生成数据,已经成为从自然语言中生成高分辨率图片和视频的标准方式。然而,扩散模型的迭代性本质造成了很大的计算成本,以及推理时较长的采样时间。为了提升扩散模型的效率,研究人员也提出了很多模型,例如:Consistency Model,但需要考虑采样路径选择的问题。这是因为路径的选择对采样有很重要的影响,例如:论文Common Diffusion Noise Schedules and Sample Steps are Flawed表明无法从数据中移除所有噪音的路径可能导致训练数据与测试数据之间分布的差异,甚至导致伪影的产生。同时,前向过程的选择也影响着反向过程的采样效率。

- 阅读剩余部分 -

GANs属于强有力的隐变量模型,可以用于学习复杂的真实世界数据的分布。然而,实践中发现,GANs很难训练,且观测到基于梯度下降方法的GAN优化无法拟合。因此,研究人员对GANs的训练,提出了更好的训练算法。同时,这些算法拥有更好的理论理解。尽管如此,对于GANs的训练动力学仍没有完全理解。

- 阅读剩余部分 -

GANs属于一类基于博弈理论学习生成模型的方法。GANs由两个网络构成,分别是生成器和判别器,生成器用于生成样本,判别器用于判别样本是真实样本还是生成样本,也就是说生成器需要利用判别器提供的信号学习,且需要学会欺骗判别器。本质上来说,GANs模型的训练属于两个玩家的零和博弈问题,需要寻找非凸博弈的Nash均衡。由于梯度下降方法属于寻找成本函数的最小值,而不是找到博弈的Nash均衡,因此GANs的训练往往无法很好的收敛。

Improved Techniques for Training GANs作者们基于对非收敛问题的启发式理解,提出了一系列鼓励GANs博弈收敛的技术。

- 阅读剩余部分 -

FreeU是研究人员通过研究U-Net网络的骨架skip连接对去噪过程产生的影响之后,在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示,FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型,例如:Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion

- 阅读剩余部分 -