分类基础模型下的文章

可提升GANs的训练方法

作者: wyli
时间: 2024-09-30
分类: 生成模型,基础模型
463 次阅读
评论

GANs属于一类基于博弈理论学习生成模型的方法。GANs由两个网络构成，分别是生成器和判别器，生成器用于生成样本，判别器用于判别样本是真实样本还是生成样本，也就是说生成器需要利用判别器提供的信号学习，且需要学会欺骗判别器。本质上来说，GANs模型的训练属于两个玩家的零和博弈问题，需要寻找非凸博弈的Nash均衡。由于梯度下降方法属于寻找成本函数的最小值，而不是找到博弈的Nash均衡，因此GANs的训练往往无法很好的收敛。

Improved Techniques for Training GANs作者们基于对非收敛问题的启发式理解，提出了一系列鼓励GANs博弈收敛的技术。

- 阅读剩余部分 -

通过最大编码率缩减原则学习多样化和有区别的表征

作者: wyli
时间: 2024-09-28
分类: 基础模型,White-Box网络
528 次阅读
评论

机器学习中最基本的问题是：如何有效地且高效地从有限独立同分布的样本集中学习数据分布？对于该问题，可转化为寻求捕获了样本内在结构的表示的问题。

对于表示学习，在有监督学习中把样本标签表示为one-hot编码，以交叉熵为损失函数学习表示。尽管这种方式很常用，但是它的学习方式与标签有关。由于标签的准确性无法保证，那么也无法保证学习的准确性。同时，该有监督学习的方式无法清楚的知晓表示捕获数据内在结构的程度，即可解释性很差。

在信息瓶颈中，把深度网络的中间层输出视为选择特定隐式特征的过程。其中，输出可理解为表示。进一步来说，信息瓶颈假设网络为学习预测标签的最小充分统计，可把该统计量理解为数据的表示。在形式上，通过最大化表示与标签之间的互信息和最小化样本与表示之间互信息的方式实现，例如：VAE。由于只是针对特定标签$\mathbf{y}$，因此这种方式的泛化性、鲁棒性、以及迁移性不佳。

- 阅读剩余部分 -

基于稀疏率缩减的白盒Transformer (一)

作者: wyli
时间: 2024-09-22
分类: 基础模型,White-Box网络
548 次阅读
评论

深度学习的黑盒特性赋予了AI的神秘面纱，有种“巫术”感。在过去数10年的快速发展下，黑盒神经网络展现了惊人的能力，也使研究人员对神经网络有了更深的理解。为了破除神经网络的神秘感，论文White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?的作者们表明表示学习的目标是把数据的分布变为一个非连续子空间支持的低维混合高斯。这种表示的性能可被稀疏率缩减度量，它不仅最大化表示的内在信息增益，也最的外部稀疏性。根据此理论，推导出了CREATE网络架构，不仅在数学上可被完全解释，也弥补了深度学习理论与实践之间的间隔。

- 阅读剩余部分 -

FreeU：扩散U-Net的免费午餐

作者: wyli
时间: 2024-09-06
分类: 生成模型,基础模型
635 次阅读
评论

FreeU是研究人员通过研究U-Net网络的骨架和skip连接对去噪过程产生的影响之后，在不需要再训练、额外参数、以及内存或采样时间增加的情况下提升扩散模型而提出的网络架构。如图1所示，FreeU的模型效果。这种改进可以很方便的整合到各种扩散模型，例如：Stable Diffusion, DreamBooth, ModelScope, Rerender and Reversion。

- 阅读剩余部分 -

Mamba：具有选择性状态空间的线性时间序列模型

作者: wyli
时间: 2024-09-01
分类: 基础模型
1470 次阅读
评论

为了提高Transformer处理长序列的效率，研究人员们提出了线性注意力、门控卷积、循环模型、以及SSMs。其中，SSMs模型虽然能够高效的处理长序列数据，但是性能却没有基于注意力的优越。Mamba作者们发现这种模型性能不足的主要原因是无法执行基于内容的推理

- 阅读剩余部分 -

浅谈状态空间模型SSM基础理论

作者: wyli
时间: 2024-08-29
分类: 基础模型
1970 次阅读
评论

状态空间模型是一个描绘系统随时间变化的动态行为，被广泛应用在控制理论、机器人、以及经济学。状态空间模型通过一系列隐藏变量，被称为“状态”，高效的捕获时序数据的依赖关系，从而具象化形态的行为。确切的说，状态空间模型由两种方程构成，分别是：状态方程和观测方程，从而构建时刻$t$输入$x(t)\in\mathbb{R}$和输出$y(t)\in\mathbb{R}$的关系。其中，隐藏状态$h(t)\in\mathbb{R}^N$的维度为$N$。

- 阅读剩余部分 -