基于GPT-4的指令微调
大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。
大语言模型在上下文学习和思维链推理展现了较强的泛化能力。为了使大语言模型跟随自然语言指令和完成真实世界任务,研究人员探索了指令微调方法。这种方法要么利用人类标注的提示和反馈微调模型,要么利用开源benchmarks和datasets有监督微调。在这些方法中,自主指令精调是一个对齐LLM与人类意图简单和有效的方法。为了提升大语言模型的指令微调性能,基于GPT-4的微调利用GPT-4作为teacher生成数据,用于自主指令微调。
利用机器生成的跟随指令数据调优大语言模型,提升了模型的零样本泛化能力。与之对应的,LLaVA是第一个尝试利用多模态语言-视觉指令跟随数据调优的多模态大模型。其中,多模态指令跟随数据主要由GPT-4产生的。实验结果表明,LLaVA拥有多模态聊天能力和零样本泛化能力。在Science QA数据集上微调,实现了92.53%的准确率。
机器人任务的表述有三种形式,分别是模仿one-shot演示、跟随语言指令、以及实现视觉目标。然而,这三种方式处理的任务不同,且模型也不同。基于提示的学习在自然语言处理领域展现了通用能力,单个模型可以处理各种各样的任务。VIMA是一个机器人领域的通用智能体,基于多模态提示学习的transformer架构。
RoboFlamingo是一款新颖的视觉-语言操纵框架,建立在开源的视觉-语言模型OpenFlamingo基础之上。与之前的框架不同,它利用预训练的VLMs作为视觉-语言理解,基于明确的策略head建模序列历史信息,且只是在语言为条件的模仿学习操纵数据集上微调。最终,RoboFlamingo能够灵活的使用开环控制,且能够部署在低成本的设备上,模型的训练与评估也只是基于单个GPU的服务器实现。
在视觉领域,网络越深模型的精度越高,但是越深也意味着参数越多,从而需要越多的内存。因此,EfficientNet作者们围绕是否存在一个准则可以扩展卷积网络从而实现更高的精度和效率这一问题,研究了卷积网络的扩展。实验研究发现,平衡网络的宽度、深度、以及分辨率对性能很重要,而且这种平衡可通过一个常量系数扩展网络所实现。由此,作者们提出了复合扩展,如图1所示。