wyli 发布的文章

GLU变体可提升Transformer

作者: wyli
时间: 2024-04-03
分类: 理论,AI理论
687 次阅读
3 条评论

Transformer由多头注意力和FFN交替形成的模型。其中，FFN的输入为向量$x$，再经过两个线性变形。在这两个线性变形之间的激活函数为ReLU

BPE：字节对编码

作者: wyli
时间: 2024-04-03
分类: 理论,AI理论
564 次阅读
3 条评论

BPE是一个简单的数据压缩技术，迭代性的利用单个没用过的字节替换频繁的字节对。该算法应用在词分割领域，代替融合频繁的字节对，而融合字符或字符序列。首先，利用字符表初始化符号表，把每个词表示为一个字符序列，且以一个特殊的符号'.'结束。接下来，迭代性的计算所有符号对的数量，替换掉利用新的符号'AB'替换掉最频繁出现的对'(A,B)'。每个融合运算产生一个新的符号，用于表示字符的n-gram。最终，频繁的字符n-grams被融合成单个符号，即BPE不需要候选列表。最终的符号表的大小等于初始词汇表大小与融合运算的数量。其中，融合运算属于超参数。如算法1所示，BPE的算法为代码。

- 阅读剩余部分 -

QLoRA：量化大语言模型的高效微调

作者: wyli
时间: 2024-04-02
分类: 理论,AI理论
1080 次阅读
评论

与LoRA相比，QLoRA对预训练模型进行了量化，导致65B参数的模型能够在48GB的GPU上微调，且实现了99.3%的原模型精度。

- 阅读剩余部分 -

RoFormer：旋转位置编码增强Transformer

作者: wyli
时间: 2024-04-01
分类: 理论,AI理论
456 次阅读
3 条评论

经典Transformer架构的位置编码属于绝对位置编码，即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码，利用旋转矩阵编码位置信息，且显式的包含相对位置信息。同时，对RoPE的推导和理论解释给出了详细的表述。

- 阅读剩余部分 -

CPVT：ViT的条件位置编码

作者: wyli
时间: 2024-04-01
分类: 基础模型
649 次阅读
1 条评论

在ViT中，可学习的绝对位置编码限制了模型输入序列的长度。同时，由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码，反而导致模型的性能降低；若对位置编码进行插值，从而处理更长的输入序列，则需要在下游任务中模型微调才能拥有较好的性能；若利用相对位置编码，因无法提供绝对位置信息导致性能略差于绝对位置编码。

- 阅读剩余部分 -

实时辐射场渲染的3D高斯喷溅

作者: wyli
时间: 2024-03-29
分类: 基础模型,视觉模型
761 次阅读
评论

网格与点云是3常见的3D场景表示，这是因为这些方式非常适合基于GPU快速的光栅化。与之相对，NeRF方法基于连续场景表示，利用捕获场景的新视角合成的体积光线行进对MLP优化。其中，最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化，但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法，不仅能够实现实时渲染，而且渲染质量高

- 阅读剩余部分 -