标签 LLaMAs 下的文章

与LLaMA相比，LLaMA2的性能可与闭源ChatGPT、BARDX、以及Claude相比，且模型开源。作者释放了两个版本的模型，分别是：

LLaMA2， 在LLAMA1基础之上，模型预训练数据增加了40%，上下文长度增加了两倍。模型参数有7B,13B,70B,34B。
LLaMA2-CHAT， LLAMA2的微调版本，主要优化了对话能力。

LLaMA是一系列开源的基础语言模型，模型大小从7B到65B。其中，13B参数的LLaMA性能优越于175B参数的GPT3，65B参数量的LLaMA与Chinchilla-70B和PaLM-540B的模型性能一致。语言模型扩展到足够的尺寸，可拥有少样本泛化的能力。然而，Hoffmann等人表明：在给定计算资源下，最优的性能不是最大的模型实现的，而是小模型在大量数据上训练实现的。经过实验发现，模型的大小与tokens的数量应该同比例的扩展，才能使模型的性能发挥到极致。然而，Hoffmann等人研究没有考虑推理成本，只考虑了训练成本。由此，LLaMA作者们希望能够在各种各样推理预算下能够训练出最优性能的模型。

- 阅读剩余部分 -

标签 LLaMAs 下的文章

LLaMA2：开源的Chat模型

LLaMA：开放且高效的基础语言模型

最新文章

标签云 (Top20)

分类