RoFormer:旋转位置编码增强Transformer
经典Transformer架构的位置编码属于绝对位置编码,即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码,利用旋转矩阵编码位置信息,且显式的包含相对位置信息。同时,对RoPE的推导和理论解释给出了详细的表述。
经典Transformer架构的位置编码属于绝对位置编码,即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码,利用旋转矩阵编码位置信息,且显式的包含相对位置信息。同时,对RoPE的推导和理论解释给出了详细的表述。
自然语言处理领域许多应用需要微调大规模预训练语言模型,使其适应多个下游任务。然而,这种方式需要更新整个预训练模型的参数,造成微调大模型和部署大模型的成本很高。根据Li和Aghajanyan等人的研究,可知,参数量大的模型的性能实际上依赖于低的固有维度。因此,LoRA作者们假设模型在微调时,权重的改变也有一个低的“内在秩”。如图1所示,LoRA的重参数化方法。
大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。
利用机器生成的跟随指令数据调优大语言模型,提升了模型的零样本泛化能力。与之对应的,LLaVA是第一个尝试利用多模态语言-视觉指令跟随数据调优的多模态大模型。其中,多模态指令跟随数据主要由GPT-4产生的。实验结果表明,LLaVA拥有多模态聊天能力和零样本泛化能力。在Science QA数据集上微调,实现了92.53%的准确率。