基于GPT-4的指令微调
大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。
大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。
利用机器生成的跟随指令数据调优大语言模型,提升了模型的零样本泛化能力。与之对应的,LLaVA是第一个尝试利用多模态语言-视觉指令跟随数据调优的多模态大模型。其中,多模态指令跟随数据主要由GPT-4产生的。实验结果表明,LLaVA拥有多模态聊天能力和零样本泛化能力。在Science QA数据集上微调,实现了92.53%的准确率。