sCMs:连续时间一致性模型的进阶
一致性模型 (Consistency Model, CM)属于一类可实现快速采样的扩散生成模型。然而,利用离散化时间步训练的一致性模型,往往需要引入辅助参数且容易产生离散化误差,从而造成样本质量不佳。与之相对的,连续时间范式的模型缓和了该问题,但会产生训练的不稳定性。为了解决该问题,sCMs作者们提出了TrigFlow范式,统一了EDM和Flow Matching,显著简化了扩散模型范式。在该基础上,分析了CM训练不稳定的根本原因,且提出了improved time-conditioning和自适应group normalization用于缓解该问题。除此之外,作者们也重新阐释了连续时间的CMs,其包含关键项自适应权重与正则化,以及可产生稳定训练和可扩展训练的渐进衰退。
Stable Diffusion3:扩展Rectified Flow Transformers
扩散模型从噪音中生成数据,已经成为从自然语言中生成高分辨率图片和视频的标准方式。然而,扩散模型的迭代性本质造成了很大的计算成本,以及推理时较长的采样时间。为了提升扩散模型的效率,研究人员也提出了很多模型,例如:Consistency Model,但需要考虑采样路径选择的问题。这是因为路径的选择对采样有很重要的影响,例如:论文Common Diffusion Noise Schedules and Sample Steps are Flawed表明无法从数据中移除所有噪音的路径可能导致训练数据与测试数据之间分布的差异,甚至导致伪影的产生。同时,前向过程的选择也影响着反向过程的采样效率。
Chameleon:混合模态early-fusion基础模型
多模态基础模型通常利用特定的编码器或解码器独立的对不同模态建模。然而,这种方式限制了整合模态之间信息的能力,以及生成多模态文本的能力。Chameleon是一系列混合模态基础模型,能够生成和推理文本-图片交织的内容,即该模型以端到端的统一架构处理混合模态数据。
再谈LLM逻辑推理的三大谬误
本着学术诚信的精神,我想要撰写这篇简短的后续文章,来回应那些最相关的反驳观点,并且重申,尽管存在这些反驳观点,我为何仍然支持大语言模型至今无法真正推理这一基本论断。
哪种训练方法导致GANs真实的拟合 (二)?
在上一篇哪种训练方法导致GANs真实的拟合(一)?中,表示了对于低维流形数据,GAN的训练往往无法拟合到Nash均衡点,这是训练不稳定性造成的。接下来,这篇文章将分析不稳定性的来源,且提出降低不稳定性的方法。