分类 基础模型 下的文章

扩散模型从噪音中生成数据,已经成为从自然语言中生成高分辨率图片和视频的标准方式。然而,扩散模型的迭代性本质造成了很大的计算成本,以及推理时较长的采样时间。为了提升扩散模型的效率,研究人员也提出了很多模型,例如:Consistency Model,但需要考虑采样路径选择的问题。这是因为路径的选择对采样有很重要的影响,例如:论文Common Diffusion Noise Schedules and Sample Steps are Flawed表明无法从数据中移除所有噪音的路径可能导致训练数据与测试数据之间分布的差异,甚至导致伪影的产生。同时,前向过程的选择也影响着反向过程的采样效率。

- 阅读剩余部分 -

多模态基础模型通常利用特定的编码器或解码器独立的对不同模态建模。然而,这种方式限制了整合模态之间信息的能力,以及生成多模态文本的能力。Chameleon是一系列混合模态基础模型,能够生成和推理文本-图片交织的内容,即该模型以端到端的统一架构处理混合模态数据。

- 阅读剩余部分 -

GANs属于强有力的隐变量模型,可以用于学习复杂的真实世界数据的分布。然而,实践中发现,GANs很难训练,且观测到基于梯度下降方法的GAN优化无法拟合。因此,研究人员对GANs的训练,提出了更好的训练算法。同时,这些算法拥有更好的理论理解。尽管如此,对于GANs的训练动力学仍没有完全理解。

- 阅读剩余部分 -

GANs属于一类基于博弈理论学习生成模型的方法。GANs由两个网络构成,分别是生成器和判别器,生成器用于生成样本,判别器用于判别样本是真实样本还是生成样本,也就是说生成器需要利用判别器提供的信号学习,且需要学会欺骗判别器。本质上来说,GANs模型的训练属于两个玩家的零和博弈问题,需要寻找非凸博弈的Nash均衡。由于梯度下降方法属于寻找成本函数的最小值,而不是找到博弈的Nash均衡,因此GANs的训练往往无法很好的收敛。

Improved Techniques for Training GANs作者们基于对非收敛问题的启发式理解,提出了一系列鼓励GANs博弈收敛的技术。

- 阅读剩余部分 -

机器学习中最基本的问题是:如何有效地且高效地从有限独立同分布的样本集中学习数据分布?对于该问题,可转化为寻求捕获了样本内在结构的表示的问题。

对于表示学习,在有监督学习中把样本标签表示为one-hot编码,以交叉熵为损失函数学习表示。尽管这种方式很常用,但是它的学习方式与标签有关。由于标签的准确性无法保证,那么也无法保证学习的准确性。同时,该有监督学习的方式无法清楚的知晓表示捕获数据内在结构的程度,即可解释性很差。

信息瓶颈中,把深度网络的中间层输出视为选择特定隐式特征的过程。其中,输出可理解为表示。进一步来说,信息瓶颈假设网络为学习预测标签的最小充分统计,可把该统计量理解为数据的表示。在形式上,通过最大化表示与标签之间的互信息和最小化样本与表示之间互信息的方式实现,例如:VAE。由于只是针对特定标签$\mathbf{y}$,因此这种方式的泛化性、鲁棒性、以及迁移性不佳。

- 阅读剩余部分 -