分类生成模型下的文章

Stable Diffusion3：扩展Rectified Flow Transformers

作者: wyli
时间: 2024-10-19
分类: 生成模型,基础模型
1230 次阅读
评论

扩散模型从噪音中生成数据，已经成为从自然语言中生成高分辨率图片和视频的标准方式。然而，扩散模型的迭代性本质造成了很大的计算成本，以及推理时较长的采样时间。为了提升扩散模型的效率，研究人员也提出了很多模型，例如：Consistency Model，但需要考虑采样路径选择的问题。这是因为路径的选择对采样有很重要的影响，例如：论文Common Diffusion Noise Schedules and Sample Steps are Flawed表明无法从数据中移除所有噪音的路径可能导致训练数据与测试数据之间分布的差异，甚至导致伪影的产生。同时，前向过程的选择也影响着反向过程的采样效率。

- 阅读剩余部分 -

哪种训练方法导致GANs真实的拟合 (二)？

作者: wyli
时间: 2024-10-08
分类: 生成模型,基础模型
537 次阅读
评论

在上一篇哪种训练方法导致GANs真实的拟合(一)？中，表示了对于低维流形数据，GAN的训练往往无法拟合到Nash均衡点，这是训练不稳定性造成的。接下来，这篇文章将分析不稳定性的来源，且提出降低不稳定性的方法。

- 阅读剩余部分 -

哪种训练方法导致GANs真实的拟合 (一)？

作者: wyli
时间: 2024-10-07
分类: 生成模型,基础模型
1286 次阅读
1 条评论

GANs属于强有力的隐变量模型，可以用于学习复杂的真实世界数据的分布。然而，实践中发现，GANs很难训练，且观测到基于梯度下降方法的GAN优化无法拟合。因此，研究人员对GANs的训练，提出了更好的训练算法。同时，这些算法拥有更好的理论理解。尽管如此，对于GANs的训练动力学仍没有完全理解。

- 阅读剩余部分 -

可提升GANs的训练方法

作者: wyli
时间: 2024-09-30
分类: 生成模型,基础模型
533 次阅读
评论

GANs属于一类基于博弈理论学习生成模型的方法。GANs由两个网络构成，分别是生成器和判别器，生成器用于生成样本，判别器用于判别样本是真实样本还是生成样本，也就是说生成器需要利用判别器提供的信号学习，且需要学会欺骗判别器。本质上来说，GANs模型的训练属于两个玩家的零和博弈问题，需要寻找非凸博弈的Nash均衡。由于梯度下降方法属于寻找成本函数的最小值，而不是找到博弈的Nash均衡，因此GANs的训练往往无法很好的收敛。

Improved Techniques for Training GANs作者们基于对非收敛问题的启发式理解，提出了一系列鼓励GANs博弈收敛的技术。

- 阅读剩余部分 -

FreeU：扩散U-Net的免费午餐

作者: wyli
时间: 2024-09-06
分类: 生成模型,基础模型
785 次阅读
评论

FreeU是研究人员通过研究U-Net网络的骨架和skip连接对去噪过程产生的影响之后，在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示，FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型，例如：Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion。

- 阅读剩余部分 -

生成式建模的流匹配

作者: wyli
时间: 2024-08-25
分类: 生成模型,基础模型
1171 次阅读
3 条评论

扩散模型的性能虽优越，但是其限制了采样概率路径的空间。同时，扩散模型不仅拥有较长的训练时间，还需要通过蒸馏等方法提高采样效率。与之相比，连续正则化流CNFs能够建模任意的概率路径，但受限于无可扩展的CNF训练算法。为了解决CNFs模型训练的不稳定性，流匹配FM是一个基于回归固定条件概率路径向量场的Simulation-Free训练方法，为CNFs模型训练提供了等效梯度。该方法不仅拥有较好的样本质量，且训练与推理效率得到了很大的提升。

- 阅读剩余部分 -