分类 AI理论下的文章

RMSNorm：均方根层标准化

作者: wyli
时间: 2024-04-04
分类: 理论,AI理论
1306 次阅读
3 条评论

在深度神经网络中，LayerNorm用于帮助稳定化训练且提升模型的拟合能力。这是因为LayerNorm对输入和权重矩阵具有re-centering与re-scaling不变的特性。然而，随着网络加深，尤其是RNN，因计算量越来越大导致LayerNorm带来性能的成本越来越高。由此，在LayerNorm的re-centering不变属于不必要的假设下，RMSNorm基于均方根进行标准化，且使模型拥有re-scaling不变的特性和学习率的隐式自适应能力。

- 阅读剩余部分 -

Swish：搜索激活函数

作者: wyli
时间: 2024-04-04
分类: 理论,AI理论
648 次阅读
1 条评论

深度神经网络是由线性变形和激活函数构成。其中，激活函数对深度神经网络的训练成功很重要。激活函数ReLU因其简单性和可靠性，而得到了广泛的采用。虽然许多实践者提出了ReLU的替代版，但是这些激活函数对于不同的模型和数据集往往拥有不一致的表现。由此，Searching for Activation Functions作者们利用自动搜索技术，找到了Swish激活函数，其性能不仅优越于ReLU，且表现一致。

- 阅读剩余部分 -

GELU：高斯误差线性单元

作者: wyli
时间: 2024-04-03
分类: 理论,AI理论
665 次阅读
2 条评论

在较早的阶段，人工神经单元利用二值阈值单元作为激活函数。后来，这些二值阈值被sigmoid函数代替，拥有了平滑性。然而，随着网络越来越深，利用sigmoid作为激活函数，反而不如ReLU这种非平滑且少概率的激活函数有效。同时，深度非线性分类器往往过拟合数据，所以网络设计者需要选择随机正则化器，例如：隐藏层添加随机噪音、droupout。最终，非线性激活函数与dropout共同决定神经元的输出。然而，两者仍然有明显的区别或独立，即彼此不包含。由此，GELU诞生了。

- 阅读剩余部分 -

GLU变体可提升Transformer

作者: wyli
时间: 2024-04-03
分类: 理论,AI理论
758 次阅读
3 条评论

Transformer由多头注意力和FFN交替形成的模型。其中，FFN的输入为向量$x$，再经过两个线性变形。在这两个线性变形之间的激活函数为ReLU

- 阅读剩余部分 -

BPE：字节对编码

作者: wyli
时间: 2024-04-03
分类: 理论,AI理论
619 次阅读
3 条评论

BPE是一个简单的数据压缩技术，迭代性的利用单个没用过的字节替换频繁的字节对。该算法应用在词分割领域，代替融合频繁的字节对，而融合字符或字符序列。首先，利用字符表初始化符号表，把每个词表示为一个字符序列，且以一个特殊的符号'.'结束。接下来，迭代性的计算所有符号对的数量，替换掉利用新的符号'AB'替换掉最频繁出现的对'(A,B)'。每个融合运算产生一个新的符号，用于表示字符的n-gram。最终，频繁的字符n-grams被融合成单个符号，即BPE不需要候选列表。最终的符号表的大小等于初始词汇表大小与融合运算的数量。其中，融合运算属于超参数。如算法1所示，BPE的算法为代码。

- 阅读剩余部分 -

QLoRA：量化大语言模型的高效微调

作者: wyli
时间: 2024-04-02
分类: 理论,AI理论
1222 次阅读
评论

与LoRA相比，QLoRA对预训练模型进行了量化，导致65B参数的模型能够在48GB的GPU上微调，且实现了99.3%的原模型精度。

- 阅读剩余部分 -