大语言模型:原理、应用与优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 语言模型简介

语言模型(Language Model)是使用统计方法或者神经网络来计算单词或单词序列出现的概率的模型。通过语言模型,我们可以计算某个单词或单词序列在自然语言中出现的概率。例如,单词序列w1w2,…,wm的概率可以通过如下公式计算:

通过语言模型,我们还可以方便地估算在某个自然语言的上下文中下一个词出现的概率。例如,我们把w1w2,…,wi-1看作上下文,则某个单词w出现在第i个位置上的概率为

由上面的公式可以看到,如果想使用语言模型,首先需要获得每个单词在多种上下文中的条件概率,而获得这些条件概率的过程称为训练语言模型。训练语言模型的逻辑比较简单,首先需要准备一些文本语料并在这些文本中的某些位置选取一些单词,然后让语言模型根据上下文去预测这些位置上的单词,并根据预测结果正确与否更新语言模型的参数,用大量的文本数据不断重复这个过程之后,我们最终会得到语言模型中各个单词在不同上下文中的条件概率。

虽然不同语言模型的训练目标基本一致,但是它们的技术特点和实际用途却有很大的区别,我们将其归类为传统语言模型和大语言模型(Large Language Model,LLM)。本章将介绍这两类模型的发展历程和技术特点,并对它们的应用方式进行比较和讨论。