大语言模型:原理、应用与优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 基座模型实例

基座模型是通过在大量的数据集上进行无监督学习而得到的。在预训练阶段,模型会学习从文本中捕获语言结构、语法规则、事实知识以及推理能力。因此,基座模型是一个通用的、未针对特定任务优化的模型。表1-1列出了近年来广泛使用的一些基座模型,我们主要从使用者的角度出发,列举了模型参数量、词元量和是否开源等信息。

表1-1 典型基座模型

㊀这里的B指的是Billion,即10亿。

(续)

在上述模型中,Meta旗下的LLaMA系列基座模型被人们广泛使用,并且已经有大量研究工作对其用法进行了探索。我们以LLaMA 2[8]为例对基座模型进行介绍,它提供了不同参数规模的版本,用来满足不同计算能力的需求。LLaMA 2在多个外部基准测试中显示出卓越性能,其推理、编码和知识测试等都优于同期的其他开源语言模型。LLaMA 2虽然支持20多种语言,但在中文处理方面并不突出。通过国内学者的继续预训练(Continue Pre-training)[9],它对中文的理解和生成能力已经得到显著增强。LLaMA 2的所有训练数据均源自公开数据集,这保障了相关研究的透明度和结果的可复现性。LLaMA 2模型的权重开放下载,并且支持商业用途,这极大地促进了其在学术界和工业界的应用,同时为开源大模型生态系统的繁荣发展奠定了基础。