BPE:字节对编码
BPE是一个简单的数据压缩技术,迭代性的利用单个没用过的字节替换频繁的字节对。该算法应用在词分割领域,代替融合频繁的字节对,而融合字符或字符序列。首先,利用字符表初始化符号表,把每个词表示为一个字符序列,且以一个特殊的符号'.'结束。接下来,迭代性的计算所有符号对的数量,替换掉利用新的符号'AB'替换掉最频繁出现的对'(A,B)'。每个融合运算产生一个新的符号,用于表示字符的n-gram。最终,频繁的字符n-grams被融合成单个符号,即BPE不需要候选列表。最终的符号表的大小等于初始词汇表大小与融合运算的数量。其中,融合运算属于超参数。如算法1所示,BPE的算法为代码。

与其它编码算法相比,例如:哈夫曼编码,BPE形成的符号序列作为子词单元仍可被解释。同时,神经网络在这些子词单元的基础之上可翻译和产生新的词。
引用方法
请参考:
li,wanye. "BPE:字节对编码". wyli'Blog (Apr 2024). https://www.robotech.ink/index.php/archives/383.html
或BibTex方式引用:
@online{eaiStar-383,
title={BPE:字节对编码},
author={li,wanye},
year={2024},
month={Apr},
url="https://www.robotech.ink/index.php/archives/383.html"
}