分类 AI理论下的文章

论深度学习的信息瓶颈理论

作者: wyli
时间: 2024-05-27
分类: 理论,信息论,AI理论
1090 次阅读
评论

深度学习的信息瓶颈理论，表明：

深度神经网络经历两个显著阶段，分别是初始拟合阶段和随后的压缩阶段。
压缩阶段与神经网络的泛化性之间有直接的因果关系。
由于随机梯度下降的类似扩散行为，往往导致压缩阶段的产生。

然而，根据On the Information Bottleneck Theory of Deep Learning，可知，在通常情况下这些声明是不存在的。

- 阅读剩余部分 -

神经网络的有趣特性

作者: wyli
时间: 2024-05-16
分类: 理论,AI理论
501 次阅读
评论

根据论文Intriguing properties of neural networks，可知，深度神经网络有两个特性，如下：

神经元的语义与所处的层数无关。同时，大部分语义信息由激活空间所包含，而不是单个神经元，例如：词的语义由一组向量捕获。

- 阅读剩余部分 -

FlashAttention-2：利用有效并行化与分片机制实现高效注意力

作者: wyli
时间: 2024-04-15
分类: 理论,AI理论
715 次阅读
评论

FlashAttention利用非对称GPU显存层级的特性不仅提高了内存效率，也提高了训练速度。然而，随着上下文长度的增加，它没有优化的GEMM运算一样快，且只达到了理论最大FLOPs/s的25-40%。这种不高效主要是由GPU中不同线程块与线程束之间次优的work分片导致的低显存占有率或不必要的共享内存读写所引起的。为了处理这些问题，FlashAttention-2设计了更好的woker分片。

- 阅读剩余部分 -

FlashAttention：快速且高效的精确注意力计算

作者: wyli
时间: 2024-04-14
分类: 理论,AI理论
751 次阅读
2 条评论

标准自注意力计算的时间复杂度与空间复杂度与序列长度呈现2次方关系，因此Transformer在长序列上处理速度很慢且需要大量内存。同时，随着硬件的进步，计算能力已经超过了内存的读写能力，即内存的读写限制了注意力的计算。FlashAttention是一个考虑内存读写的精确注意力计算算法，通过分片的方式减少了GPU中HBM与SRAM之间的读写次数，从而提高注意力计算的速度与内存效率。

- 阅读剩余部分 -

GQA：从多头checkpoints中训练通用多查询Transformer模型

作者: wyli
时间: 2024-04-06
分类: 理论,AI理论
598 次阅读
1 条评论

自回归解码器推理的成本很高，这是因为每个解码步骤加载解码器权重和所有注意力的keys与values的内存带宽很高。多查询注意力MAQ利用多个查询头但只有一个键与值，因此内存带宽的需求大大降低。然而，MQA会导致模型质量退化且训练不稳定。而且，为了优化质量与推理速度，单独训练一个模型不可行。

- 阅读剩余部分 -

AdamW：解耦合的权重衰减正则化

作者: wyli
时间: 2024-04-06
分类: 理论,AI理论
644 次阅读
2 条评论

对于标准随机梯度下降，$L_2$正则化与权重衰退正则化的作用是相同。然而，对于自适应梯度下降算法，例如：Adam，这种等效不存在。确切的说，由于大部分深度学习库中正则化利用的是$L_2$，从而导致部分任务中利用带有动量的SGD进行优化产生的性能优于自适应梯度下降算法优化产生的模型。AdamW梯度下降算法通过对权重衰减与学习率设置进行解耦合，从而提升Adam算法的泛化性。

- 阅读剩余部分 -