分类 基础模型 下的文章

FreeU是研究人员通过研究U-Net网络的骨架skip连接对去噪过程产生的影响之后,在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示,FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型,例如:Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion

- 阅读剩余部分 -

为了提高Transformer处理长序列的效率,研究人员们提出了线性注意力、门控卷积、循环模型、以及SSMs。其中,SSMs模型虽然能够高效的处理长序列数据,但是性能却没有基于注意力的优越。Mamba作者们发现这种模型性能不足的主要原因是无法执行基于内容的推理

- 阅读剩余部分 -

状态空间模型是一个描绘系统随时间变化的动态行为,被广泛应用在控制理论、机器人、以及经济学。状态空间模型通过一系列隐藏变量,被称为“状态”,高效的捕获时序数据的依赖关系,从而具象化形态的行为。确切的说,状态空间模型由两种方程构成,分别是:状态方程和观测方程,从而构建时刻$t$输入$x(t)\in\mathbb{R}$和输出$y(t)\in\mathbb{R}$的关系。其中,隐藏状态$h(t)\in\mathbb{R}^N$的维度为$N$。

- 阅读剩余部分 -

扩散模型的性能虽优越,但是其限制了采样概率路径的空间。同时,扩散模型不仅拥有较长的训练时间,还需要通过蒸馏等方法提高采样效率。与之相比,连续正则化流CNFs能够建模任意的概率路径,但受限于无可扩展的CNF训练算法。为了解决CNFs模型训练的不稳定性,流匹配FM是一个基于回归固定条件概率路径向量场的Simulation-Free训练方法,为CNFs模型训练提供了等效梯度。该方法不仅拥有较好的样本质量,且训练与推理效率得到了很大的提升。

- 阅读剩余部分 -

VAE相比,VQ-VAE的编码器输出是离散的编码。同时,利用向量量化(VQ)不仅可拥有方差小的特性,也可克服“后验坍塌”问题。其中,“后验坍塌”是指VAE的编码器若为性能优越的自回归解码器,那么隐式编码会被忽视。若隐式表示与可学习的自回归先验相结合,模型可生成高质量的样本,那么证明了学习到表示是高效用。

- 阅读剩余部分 -

在自然语言处理领域,基于Transformer为网络架构的自监督预训练为任务提供了丰富的学习信号,从而实现了突破性进展。在视觉领域,ViT基于标签作为监督信号进行预训练,性能超过了基于ConvNets的模型。DINO作者们质疑ViT拥有优越性能是由监督信号导致的。由此,研究了基于ViT特征的自监督预训练的影响。

- 阅读剩余部分 -