分类 基础模型 下的文章
EDM:阐明基于扩散生成模型的设计空间
扩散模型的理论密度、采样调度器的推导、训练动力学、以及噪音级别参数化确保了模型在一个坚实的理论基础。然而,这种方式往往模糊了设计空间,即一个模型由紧的耦合包构成。EDM作者们关注了“有型”的对象和训练与采样中的算法,很少关注统计过程,从而在整个系统的设计空间中对元件的连接方式和自由度有了更好的洞见。此外,还有如下贡献:
- 研究了基于扩散模型合成图片的采样过程。
- 研究了基于分数建模神经网络的训练。
Consistency Models:一致性模型
扩散模型显著地提升了图片、音频、视频生成领域,这种模型依赖迭代的采样过程,从而导致生成速度很慢。为了解决生成慢的问题,一致性模型被提出。这种模型的核心思想是从相同轨迹上任何一点开始采样,最终的输出为一致的,可见图1所示。一致性模型有两种训练方式,分别是蒸馏预训练扩散模型和生成模型的直接训练。通过实验表明这两种方式在one-step和few-step生成上均实现了新SOTA的结果,即一致性模型不仅能够执行单步采样,且拥有迭代性采样的优势。
DFF:通过特征场蒸馏分解NeRF用于编辑
NeRF:利用神经辐射场作为场景表示用于视角合成
NeRF是一个利用全连接深度网络优化潜在连续体积场景函数的方法合成新视角的方法。该方法有两个步骤,分别是场景表示和体积渲染,可见图1所示。
通用感知模块Perceiver与Fourier特征
感知模型的网络架构往往受限于特定模型,例如:卷积神经网络只能处理2D图片视觉信息。然而,现实世界往往需要处理多种模态,而只是把每个模型的特征concat到一起是不合理的。Perceiver是一个可以处理不同模态的网络架构,且该架构不具有特定的推断偏差,网络架构可见图1所示。同时,为了引入模态中的时空信息,利用Fourier特征增加位置信息。