2.1 文本分析技术的发展史
在介绍预训练模型技术之前,先介绍一下文本分析技术的发展历史,从而更能明白为什么预训练模型成为当今文本分析领域的主流技术。文本分析技术的发展主要分为4个阶段,具体如图2-1所示,包括20世纪50年代到90年代的专家规则方法,20世纪90年代到21世纪初的传统统计模型方法,2010年到2017年的深度学习方法,以及2018年到现在的预训练语言模型。
图2-1 文本分析技术发展阶段
第一个阶段是专家规则方法,这是早期的文本分析方法,由于语料规模和计算能力的局限,对于遇到的自然语言问题,只能通过专家总结的统计规则和语法规则来处理,对于简单的自然语言处理问题,这种基于规则的方法准确率高、可解释性强,但是一旦问题变得复杂,就需要专家梳理大量的规则来覆盖问题的各种情况,工作量非常大,而且规则之间还会彼此冲突,导致这种规则方法的效果显著下降,而且难以维护和升级迭代。
第二个阶段是传统统计模型方法,从20世纪90年代开始,随着决策树、逻辑回归、支持向量机等统计机器学习方法的成熟、文本语料库规模的增加以及计算机运算能力的快速提升,传统统计模型方法在自然语言的各个问题领域开始得到广泛的使用,包括词法分析、句法分析、语义分析、信息抽取、机器翻译等多个领域。相比专家规则,统计模型方法从语料库中自动学习语言的规律,避免了大量规则的书写,随着语料库训练样本数量的增加,模型的效果能持续提升。但是传统统计模型方法需要将文本转换成计算机能够理解的向量形式,这样计算机才能基于文本标注语料,训练模型,这一步称为特征工程,需要一定的专业知识,也非常关键,依赖人工设计,如果特征设计得不好,训练出的模型也很难取得好的效果。
第三个阶段是深度学习方法,2010年之后出现了深度学习方法,该方法避免了传统统计模型方法特征工程对人工设计的依赖,能够直接端到端地学习各种自然语言处理问题。深度学习模型采用神经网络结构,包括多层处理单元,底层的文本输入采用word2vec技术转换为连续取值的词向量,接着通过每一层的神经元进行处理,最上层输出预测结果,与训练样本中的标注结果进行比较,然后通过反向传播算法更新每一层的神经元参数,通过多轮的迭代,最终学习到整个深度神经网络的模型参数。相比传统统计模型方法,深度学习方法能够取得更好的效果,但是需要更大规模的标注数据,使得标注的人力成本高昂,实际项目中往往难以提供这么大规模的标注数据量,使得深度学习方法的应用受限。
第四个阶段是预训练模型方法,它的本质是迁移学习思想的应用,划分为预训练(Pre-Training)和微调(Fine-Tuning)两个阶段。在预训练阶段,依赖海量的通用文本语料,训练一个通用的预训练模型,语料只需要是连续的文本即可,不需要标注,因此这样的语料很容易找,规模是无限的,预训练模型学习到这些语料的语法和语义知识,将这些知识编码到预训练模型的参数中。在微调阶段,针对特定的下游任务,结合该任务少量的标注样本,对初始的预训练模型进行参数微调,进行模型参数更新。由于初始的预训练模型已经编码了海量通用语料的语法和语义知识,因此只需要少量样本,就可以在各种下游特定任务中取得良好的效果。预训练模型为了能够刻画大规模文本语料中复杂的语言规律,采用了基于自注意力的Transformer模型,显著提升了建模能力,这是自然语言技术领域的标志性成果。另外,在海量的文本语料上训练一个超大规模的Transformer模型,也需要丰富的GPU、TPU硬件资源,才能训练出这种大模型,具体的Transformer模型的原理和TPU资源的使用,会在接下来的章节进行具体介绍。
最后对比一下这四个阶段方法的特点和优劣势,如表2-1所示。专家规则方法的效果最差,但是需要的标注样本量少,计算量低,可解释性好;传统统计模型方法的效果要好一些,需要较多的标注样本量,这些模型的训练优化求解需要比专家规则方法更大的计算量,可解释性要看具体的统计学习模型,例如决策树模型的可解释性比较好,支持向量机模型的可解释性就差一些;深度学习模型的效果是比较优秀的,但它需要更多的标注样本量来训练神经网络的参数,训练阶段需要比较大的计算量,还需要引入GPU资源来进行训练加速,在可解释性方面,由于神经网络是个黑盒,因此比较差;最后是预训练模型方法,它的效果是最好的,需要的标注样本量也少,预训练阶段需要非常大的计算量和算法资源,需要多个GPU资源训练数月的时间才能生成预训练模型,模型的参数规模也特别大,由于仍然是神经网络结构,因此可解释性差。
表2-1 四种方法的优劣势