RoFormer:旋转位置编码增强Transformer
经典Transformer架构的位置编码属于绝对位置编码,即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码,利用旋转矩阵编码位置信息,且显式的包含相对位置信息。同时,对RoPE的推导和理论解释给出了详细的表述。
经典Transformer架构的位置编码属于绝对位置编码,即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码,利用旋转矩阵编码位置信息,且显式的包含相对位置信息。同时,对RoPE的推导和理论解释给出了详细的表述。