1.2.4 基于大模型的方法
大模型是大规模语言模型(Large Language Model)的简称。从2018年开始以BERT[29]、GPT[30]为代表的预训练语言模型相继推出,它们在各种自然语言处理任务上都取得了非常好的效果。此后,语言模型的规模不断扩大,2020年OpenAI发布的GPT-3模型[40]的规模达到了1750亿个参数,Google发布的PaLM模型[41]的参数达到了5400亿个。这种参数量级的语言模型很难再延续此前针对不同的任务而使用的预训练微调范式。因此,研究人员开始探索使用提示词(Prompt)模式完成各种类型的自然语言处理任务。此后又提出了指令微调(Instruction Finetuning)[42]方案,将大量各种类型的任务统一为生成式自然语言理解框架,并构建训练语料进行微调。2022年ChatGPT所展现出的通用任务理解能力和未知任务泛化能力,使得未来自然语言处理的研究范式可能进一步发生变化。如图1.6所示,基于大模型的自然语言处理方法的基本流程包括大规模语言模型构建、通用能力注入和特定任务使用三个主要步骤。
图1.6 基于大模型的自然语言处理方法的基本流程
在大规模语言模型构建阶段,通过大量的文本内容训练模型对长文本的建模能力,使得模型具有语言生成能力,并使得模型获得隐式的世界知识。由于模型参数量和训练数据量都十分庞大,普通的服务器单机无法完成训练过程,因此需要解决大模型的稳定分布式架构和训练问题。在通用能力注入阶段,利用包括阅读理解、情感分析、信息抽取等现有任务的标注数据,结合人工设计的指令词对模型进行多任务训练,从而使得模型具有很好的任务泛化能力,能够通过指令完成未知任务。特定任务使用阶段则变得非常简单,由于模型具备了通用任务能力,只需要根据任务需求设计任务指令,将任务中所需处理的文本内容与指令结合,然后就可以利用大模型得到所需的结果。
如果该范式在非常多的任务上都达到了目前基于预训练微调范式的结果,那么就会使得自然语言处理产生质的飞跃。突破了传统自然语言处理需要针对不同的任务进行设计和训练的瓶颈,任务可以不需要预先给定,仅依赖很少的任务特定标注数据,或者完全不依赖任何任务的有监督数据就可以得到相应的结果。当然,这种方法也仅仅刚刚展露出一定的希望,当前使用该范式的大模型在绝大部分任务上所取得的效果仍然与基于预训练微调范式的结果有很大的差距,模型参数量太大导致训练和使用的成本过高……这些问题都亟待研究。