MoE(一):网络架构演进与特性
MoE拥有很强的表达能力,在深度学习领域取得显著成果。同时,根据论文《Mixtures of Experts Unlock Parameter Scaling for Deep RL》,可知,MoE可解锁深度RL的参数扩展。那么,混合专家模型MoE究竟是什么呢?
MoE拥有很强的表达能力,在深度学习领域取得显著成果。同时,根据论文《Mixtures of Experts Unlock Parameter Scaling for Deep RL》,可知,MoE可解锁深度RL的参数扩展。那么,混合专家模型MoE究竟是什么呢?
GAN由生成器和判别器构成,两者的目标函数均为度量生成数据分布与真实数据分布之间距离的函数。那么,距离度量函数对概率分布序列拟合有很大的影响。同时,GAN的训练非常不稳定,且模型很容易出现模式坍塌,即生成样本的多样性受到损失。因此,对损失函数和训练方法的改进,不断的出现。
谈到大语言模型,通常想到的是预训练、有监督微调、RLHF、以及思维链提升。然而,这些都是站在LLMs的技术细节理解。与之不同,本文站在基础模型的角度理解大语言模型,也可以理解为站在应用或提升其特定能力的角度。
一致性模型已经成为了生成模型的新家族,该模型可以在不需要对抗训练的情况下实现单步高质量数据采样。
一致性模型的训练有两种方式,分别是一致性蒸馏和一致性训练。其中,一致性蒸馏需要预训练一个扩散模型,再把知识蒸馏到一致性模型;一致性训练直接从数据中训练一致性模型,把其视为独立的生成模型家族。对于一致性蒸馏,因其需要预训练扩散模型而导致计算量的增加,且蒸馏方式限制了一致性模型的能力。对于一致性训练所依赖的度量函数LPIPS,主要存在两个缺点,一个是由于LPIPS和FID均在ImageNet数据集上训练,会因特征泄漏产生潜在的评估偏差;另一个是该度量需要需要预训练辅助网络用于特征抽取,从而增加了计算预算。
一致性模型 (Consistency Model, CM)属于一类可实现快速采样的扩散生成模型。然而,利用离散化时间步训练的一致性模型,往往需要引入辅助参数且容易产生离散化误差,从而造成样本质量不佳。与之相对的,连续时间范式的模型缓和了该问题,但会产生训练的不稳定性。为了解决该问题,sCMs作者们提出了TrigFlow范式,统一了EDM和Flow Matching,显著简化了扩散模型范式。在该基础上,分析了CM训练不稳定的根本原因,且提出了improved time-conditioning和自适应group normalization用于缓解该问题。除此之外,作者们也重新阐释了连续时间的CMs,其包含关键项自适应权重与正则化,以及可产生稳定训练和可扩展训练的渐进衰退。