标签 微调 下的文章

大语言模型在上下文学习思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。

- 阅读剩余部分 -

符号微调利用上下文输入-标签对进行语言模型的微调,其中标签为任意符号。这种微调方式背后的直觉是:若指令和相关标签不可获取,那么模型必须使用上下文样本学习任务。DeepMind研究人员也对符号进行了研究,表明符号是人类赋予其含义,若定义一套机器的符号,那么语义将被重新定义,进而可以评估人工智能模型遵循特定的标准。如图1所示,指令微调与符号微调的对比。

- 阅读剩余部分 -

利用机器生成的跟随指令数据调优大语言模型,提升了模型的零样本泛化能力。与之对应的,LLaVA是第一个尝试利用多模态语言-视觉指令跟随数据调优的多模态大模型。其中,多模态指令跟随数据主要由GPT-4产生的。实验结果表明,LLaVA拥有多模态聊天能力和零样本泛化能力。在Science QA数据集上微调,实现了92.53%的准确率。

- 阅读剩余部分 -