FreeU是研究人员通过研究U-Net网络的骨架skip连接对去噪过程产生的影响之后,在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示,FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型,例如:Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion

图1 FreeU模型效果

为了便于理解去噪过程,作者们通过Fourier域理解扩散模型的生成过程。如图2所示,第一行描述了逐渐的去噪过程,第二行和第三行分别展示了逆Fourier变换之后低频和高频空阈信息随着去噪过程的变化情况。

图2 去噪过程

根据图2可知,低频元件的逐渐调节展示了缓慢变化速度,而高频元件通过去噪过程展示了更显著的变化。直觉上说,低频元件本质上具化了图片的整体结构和特性,包含全局布局和平滑颜色。这些元件封装了构成图片本质和表示的基础全局元素。该元件的快速变化会导致图片本质的重塑,这与去噪过程的目标不一致。与之不同的,高频元件包含图片中的快速变化,例如:边和纹理。这些精细细节对噪音很敏感,在噪音引入图片时常表现为随机高频信息。因此,去噪过程在去噪的同时维护不可或缺的精细细节。

注:根据笔者的思考,高频信息可能对应着高斯分布中均值附近的元素,而低频信息可能对应着高斯分布中远离均值的元素。

根据这些观测,作者们进一步研究,发现,U-Net骨架主要贡献了去噪,而skip连接主要把高频特征引入解码器模块。确切的说,skip连接传递了精细的语义信息从而使恢复输入数据变得更容易。然而,这种传播会不经意的削弱骨架在推理阶段的去噪能力,最终导致异常细节的生成。

根据这些研究结果,作者们在模型推理阶段初始化了两个调节因子,用于平衡U-Net架构的主要骨架和skip连接。第一个因子被命名为骨架特征因子,用于放大主要网络骨架的特征地图,以支持去噪。然而,只是放大网络骨架的特征地图有时导致纹理的过平滑。因此,第二个因子skip特征缩放因子用于减轻纹理过平滑的问题。如图3所示,U-Net和FreeU网络架构。

图3 FreeU架构

标签: 扩散模型

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论