1.3.1 基座模型实例_大语言模型：原理、应用与优化-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3.1 基座模型实例

基座模型是通过在大量的数据集上进行无监督学习而得到的。在预训练阶段，模型会学习从文本中捕获语言结构、语法规则、事实知识以及推理能力。因此，基座模型是一个通用的、未针对特定任务优化的模型。表1-1列出了近年来广泛使用的一些基座模型，我们主要从使用者的角度出发，列举了模型参数量、词元量和是否开源等信息。

表1-1 典型基座模型

㊀这里的B指的是Billion，即10亿。

（续）

在上述模型中，Meta旗下的LLaMA系列基座模型被人们广泛使用，并且已经有大量研究工作对其用法进行了探索。我们以LLaMA 2[8]为例对基座模型进行介绍，它提供了不同参数规模的版本，用来满足不同计算能力的需求。LLaMA 2在多个外部基准测试中显示出卓越性能，其推理、编码和知识测试等都优于同期的其他开源语言模型。LLaMA 2虽然支持20多种语言，但在中文处理方面并不突出。通过国内学者的继续预训练（Continue Pre-training）[9]，它对中文的理解和生成能力已经得到显著增强。LLaMA 2的所有训练数据均源自公开数据集，这保障了相关研究的透明度和结果的可复现性。LLaMA 2模型的权重开放下载，并且支持商业用途，这极大地促进了其在学术界和工业界的应用，同时为开源大模型生态系统的繁荣发展奠定了基础。