新视角理解大语言模型
谈到大语言模型,通常想到的是预训练、有监督微调、RLHF
、以及思维链提升。然而,这些都是站在LLMs
的技术细节理解。与之不同,本文站在基础模型的角度理解大语言模型,也可以理解为站在应用或提升其特定能力的角度。
谈到大语言模型,通常想到的是预训练、有监督微调、RLHF
、以及思维链提升。然而,这些都是站在LLMs
的技术细节理解。与之不同,本文站在基础模型的角度理解大语言模型,也可以理解为站在应用或提升其特定能力的角度。
大语言模型正在渗透人类生活各种方面,不仅影响人类的交流与工作,而且重塑每日娱乐生活方面。然而,LLMs运行在云环境中,需要大量的计算资源,这不仅导致大语言模型无法部署在移动设备上,而且对能量消耗与碳排放带来了巨大挑战。根据该观察,MobileLLM是一个小于1B参数量的模型,可部署在移动设备上,且与同规模的模型相比性能得到了提升,可见图1所示。
Alpaca是一个在7B参数量的LLaMA模型上利用52K指令跟随演示数据微调的模型。在单轮指令跟随数据上评估,Alpaca性能与OpenAI的text0davinci-003一致。
Vicuna是一个开源的13B参数量的chatbot。确切的说,该模型是通过在13B的LLaMA模型上利用来自ShareGPT.com的70K对话数据微调得到的,其工作流可见图1所示。
与LLaMA相比,LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比,且模型开源。作者释放了两个版本的模型,分别是:
LLaMA是一系列开源的基础语言模型,模型大小从7B到65B。其中,13B参数的LLaMA性能优越于175B参数的GPT3,65B参数量的LLaMA与Chinchilla-70B和PaLM-540B的模型性能一致。语言模型扩展到足够的尺寸,可拥有少样本泛化的能力。然而,Hoffmann等人表明:在给定计算资源下,最优的性能不是最大的模型实现的,而是小模型在大量数据上训练实现的。经过实验发现,模型的大小与tokens的数量应该同比例的扩展,才能使模型的性能发挥到极致。然而,Hoffmann等人研究没有考虑推理成本,只考虑了训练成本。由此,LLaMA作者们希望能够在各种各样推理预算下能够训练出最优性能的模型。