大语言模型:原理、应用与优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 大模型的发展历程

大模型的发展并非一蹴而就,而是经历了多个具有里程碑意义的历史节点,如图1-2所示。总体而言,根据是否具备对齐属性,大模型的发展可以概括为两个主要时期:无对齐时期和对齐时期。

图1-2 大模型的发展历程

1.无对齐时期

在无对齐时期,大模型和人类之间的交互门槛相对较高,使用大模型需要一定的计算机或人工智能知识的储备,大模型一般被视为一种面向计算机或人工智能相关从业人员的工具,这个时期大模型的发展经历了如下重要事件:

2013年,Mikolov等人提出了Word2Vec[3],虽然Word2Vec的训练目标和之前的语言模型并不完全相同,但是训练过程中的损失函数有一定的相似之处,Word2Vec的重要价值是开创了可迁移的高质量的词嵌入的先河,在一定程度上奠定了大模型产生的基础。

2017年,Transformer[4]给许多自然语言处理任务带来了飞跃式的效果提升。Transformer是一种编码器-解码器(Encoder-Decoder)模型,其中的自注意力(Self-Attention)机制取消了循环神经网络中的顺序依赖,使其具有优良的并行性,而且能够拥有全局信息视野。Transformer为大模型的出现铺平了道路,如今,Transformer几乎是所有主流大模型的基本组成模块。

2018—2022年,预训练-微调(Pretrain-Finetune)技术蓬勃发展,基于各种神经网络结构的大模型也层出不穷。这些大模型的特点是整个模型都采用预训练的参数权重,而不仅仅是用预训练的词嵌入来初始化模型的输入层,这些语言模型只需微调即可在各种自然语言处理任务中表现出很好的效果。这个阶段的一些典型语言模型包括BERT、GPT-1、GPT-2、T5、GPT-3等。其中,GPT-3展示了训练超大参数规模的大模型的强大优势,研究人员发现增加模型的参数量和训练数据可以有效提升模型在下游任务中的效果。

如图1-3所示,从2018年到2022年,追求超大的参数量是大模型领域的主要发展趋势,大模型的参数规模以每年十倍的速度增长,这个增长速度被称为新的摩尔定律。

图1-3 2018—2022年大模型参数量增长曲线

2.对齐时期

在无对齐时期,大模型在很多自然语言处理任务上展示出了很大的潜力,但是其关注度并没有得到爆炸式的增长。真正给大模型带来革命性影响的是对齐在大模型上的应用。在对齐时期,大模型学会了用自然语言与人类进行沟通,任何人都可以很方便地使用大模型,从而使大模型具备了极低的使用门槛。在这个时期,大模型的发展经历了如下重要事件:

2022—2023年,ChatGPT等和人类意图对齐的大模型引起了人们的关注。ChatGPT可以根据用户的要求生成清晰、详尽的回复,仅仅上线两个月,其月活用户数即突破了1亿,刷新了互联网产品吸引用户的速度的历史记录,OpenAI的估值也随之增至290亿美元,ChatGPT相关的技术革新给学术界和工业界都带来了深刻的影响。

2023年至今,以GPT-4[5]为代表的多模态大模型进入人们的视线。GPT-4可以接受图像和文本输入并产生文本输出。由于视觉信息沉淀为文本信息通常需要一定的时间,利用视觉信息可以加快大模型能力的演化进度。在许多现实场景中,GPT-4表现出接近人类水平的效果。在这个时期,如何让大模型从数据中更快地学习、确保大模型生成结果的质量成为重要的研究方向。

在对齐时期,单纯追求大的参数量不再是大模型领域的主要发展方向,人们意识到大模型的质量比大的参数量更为重要,也有观点认为未来大模型应该向参数量更小的方向发展,或者以多个小模型协作的方式工作。对齐时期的大模型对技术领域和社会层面都有着深远的影响,它改变了人们对语言模型甚至整个通用人工智能(Artificial General Intelligence,AGI)领域的看法,引爆了人工智能生成内容(AI Generated Content,AIGC)行业的发展。