标签 扩散模型 下的文章

一致性模型已经成为了生成模型的新家族,该模型可以在不需要对抗训练的情况下实现单步高质量数据采样。

一致性模型的训练有两种方式,分别是一致性蒸馏和一致性训练。其中,一致性蒸馏需要预训练一个扩散模型,再把知识蒸馏到一致性模型;一致性训练直接从数据中训练一致性模型,把其视为独立的生成模型家族。对于一致性蒸馏,因其需要预训练扩散模型而导致计算量的增加,且蒸馏方式限制了一致性模型的能力。对于一致性训练所依赖的度量函数LPIPS,主要存在两个缺点,一个是由于LPIPSFID均在ImageNet数据集上训练,会因特征泄漏产生潜在的评估偏差;另一个是该度量需要需要预训练辅助网络用于特征抽取,从而增加了计算预算。

- 阅读剩余部分 -

SoTA扩散模型增量式的把数据转变为高斯噪音,被称为扩散过程,该过程可被建模为把原始数据分布迭代的平滑为正态分布的时变分布。扩散模型的学习目标要么为预测扩散过程中的噪音,要么为预测数据与高斯之间分布的分数。然而,扩散过程限制了数据和高斯之间的联系,直到随机插值的出现。SiT作者们探究了随机插值带来的灵活性对大规模图片生成的影响。除此之外,作者们研究了学习目标的选择和推理时模型的采样问题。基于这些研究,作者们在设计空间中采取一系列正交步骤从扩散模型转换为插值模型。最终,不仅简化了学习问题而且提升了算法性能。

- 阅读剩余部分 -

一致性模型 (Consistency Model, CM)属于一类可实现快速采样的扩散生成模型。然而,利用离散化时间步训练的一致性模型,往往需要引入辅助参数且容易产生离散化误差,从而造成样本质量不佳。与之相对的,连续时间范式的模型缓和了该问题,但会产生训练的不稳定性。为了解决该问题,sCMs作者们提出了TrigFlow范式,统一了EDMFlow Matching,显著简化了扩散模型范式。在该基础上,分析了CM训练不稳定的根本原因,且提出了improved time-conditioning和自适应group normalization用于缓解该问题。除此之外,作者们也重新阐释了连续时间的CMs,其包含关键项自适应权重与正则化,以及可产生稳定训练和可扩展训练的渐进衰退。

- 阅读剩余部分 -

FreeU是研究人员通过研究U-Net网络的骨架skip连接对去噪过程产生的影响之后,在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示,FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型,例如:Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion

- 阅读剩余部分 -

Transformer在自然语言处理、视觉、以及许多其它领域得到了广泛的应用。然而,在图像相关的生成模型领域很少采用Transformer网络架构,例如:扩散模型利用卷积U-Net作为网络架构。对于基于U-Net的扩散模型,ADM作者们分析了网络扩展性与网络复杂性度量Gflop的特性。与之不同,DiT作者们揭开了扩散模型的网络架构选择的重要性,且对未来生成模型研究提供了经验。确切的说,在隐式扩散模型LDMs框架下,构建了基于Transformer扩散模型的设计空间,研究了网络复杂度与样本质量之间的关系,即模型的扩展性。

- 阅读剩余部分 -