BPE是一个简单的数据压缩技术,迭代性的利用单个没用过的字节替换频繁的字节对。该算法应用在词分割领域,代替融合频繁的字节对,而融合字符或字符序列。首先,利用字符表初始化符号表,把每个词表示为一个字符序列,且以一个特殊的符号'.'结束。接下来,迭代性的计算所有符号对的数量,替换掉利用新的符号'AB'替换掉最频繁出现的对'(A,B)'。每个融合运算产生一个新的符号,用于表示字符的n-gram。最终,频繁的字符n-grams被融合成单个符号,即BPE不需要候选列表。最终的符号表的大小等于初始词汇表大小与融合运算的数量。其中,融合运算属于超参数。如算法1所示,BPE的算法为代码。

- 阅读剩余部分 -

在ViT中,可学习的绝对位置编码限制了模型输入序列的长度。同时,由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码,反而导致模型的性能降低;若对位置编码进行插值,从而处理更长的输入序列,则需要在下游任务中模型微调才能拥有较好的性能;若利用相对位置编码,因无法提供绝对位置信息导致性能略差于绝对位置编码。

- 阅读剩余部分 -

网格与点云是3常见的3D场景表示,这是因为这些方式非常适合基于GPU快速的光栅化。与之相对,NeRF方法基于连续场景表示,利用捕获场景的新视角合成的体积光线行进对MLP优化。其中,最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化,但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法,不仅能够实现实时渲染,而且渲染质量高

- 阅读剩余部分 -

SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。

- 阅读剩余部分 -