自然语言表示学习:文本语义向量化表示研究与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 基本定义及问题描述

语义的向量化表示作为自然语言处理任务的基础,自诞生以来就受到了学术界和工业界的共同关注。语义向量化表示的定义是使用数值向量来表示文本(词、句子、文档等)的语义信息。语义向量化表示学习是指将自然语言编码为计算机可处理的、蕴含语义特征的向量的过程。在人工智能领域中,语义表示学习是实现机器理解自然语言的第一步,是机器处理文本数据和完成各种自然语言处理任务的基础,其性能的优劣直接影响下游任务的效果。因此,语义向量化表示学习具有重要的研究意义和实用价值。近年来,随着深度学习的快速发展和机器算力的提升,神经网络模型逐渐具备从大规模数据中自动学习语义特征的能力,这奠定了语义表示的研究基础,为我们进一步探究该领域的发展提供了可能性。

早期,传统的独热(One-Hot)文本表示方法使用高维稀疏向量表示词,存在数据稀疏的问题,无法体现词语义特征。在下游任务使用过程中,需要借助人工精心设计的复杂特征(如词法特征、句法特征等)来弥补这些缺陷。这种手工方式无法应对海量的文本信息处理任务,制约自然语言处理智能化的发展。

为缓解上述独热表示方法存在的问题,研究人员提出分布式语义表示方法,将每个词都表示为一个低维度的实数向量,称为词嵌入或者词向量(Word Embedding)。Bengio等人提出神经网络语言模型,其理论基础是1954年Harris提出的分布假说(Distributional Hypothesis),即“上下文相似的词,其语义也相似”。该方法将每个词都用一个低维实数向量表示,然后利用神经网络训练语言模型,词向量是神经网络的一类参数。词的语义表示随着语言模型的优化而被优化,进而获得表达语义潜在特征的能力库。与独热表示方法相比,分布式表示方法的优势是:

● 稠密、低维的向量表示方法打破了维度“困境”,解决了数据稀疏问题,并能显著提升计算效率、节约计算资源;

● 向量每一维度的数据都表示一种直接或潜在的词语义特征,例如上下文、概念属性等;向量间的线性变化可以表示词间的语义关系,具有语义计算、相似度测量简洁的特点;

● 低维实数向量化的词表示方式不拘于形式,适用性强,可以应用于不同类型的数据、不同语种,以及结构化和半结构化的文本表示,同时方便向矩阵、张量等数据结构进行扩展,实现异构信息的融合。

随后,深度学习方法在图像、语音等领域取得了瞩目的成绩,基于神经网络的深度学习技术也随着自然语言处理的研究产生了具有冲击性的改变,成为了分布式语义表示方法研究的主要技术。研究人员在语义表示领域做了众多尝试,利用深度学习开发了多种高质量、高效率的方法,从大规模语料中自动、快速地学习语义特征。典型的模型是Word2Vec方法和GloVe方法。Word2Vec方法通过使用单层神经网络结构,利用上下文预测任务从大规模语料中学习词的语义特征表示;以及GloVe方法利用全局共现矩阵分解的方法学习词的语义特征。随后,研究人员深入分析了文本的多方面语义特征,并将其语义的多方面特征融入到向量表示空间中,提升语义表示的质量,如词的义素信息、词属性信息、知识库中的语义关系等。这些方法的研发极大推动了词向量的发展,随之而来的多种高质量的词向量库公开发布,方便研究人员将其直接应用到自然语言处理任务中,有效地解决机器学习中文本语义表示的问题,这也使其迅速成为研究的热点,并被广泛应用在各种自然语言处理任务中,如问答系统、信息检索、机器翻译、文本分类等。

分布式语义表示方法可以有效地将语义特征嵌入到低维向量空间里,但是其主要的缺陷是每个词使用一个固定的向量进行表示,无法根据语境动态调整其语义表示。为了解决上述问题,研究人员提出了预训练语言模型(Pre-trained Language Model)的方法,通过在超大规模的文本数据上进行模型的预训练,并将整个模型迁移到下游任务中,根据语境信息对文本的语义特征进行动态表示。借助计算机算力的提升,预训练语言模型可以使用更大的数据集来充分训练模型参数,增强模型的泛化能力,提供了更好的模型初始化。在利用大规模信息进行预训练的阶段,不同的方法设计了不同的预训练任务,并借助Transformer(变形器)等编码器获取更长距离上的文本依赖信息。典型的预训练语言模型有:ELMo方法,设计了双向的语言模型的预训练任务,对前向和后向语言模型进行了拼接;BERT方法,设计了掩码语言模型任务,可以利用双向的上下文信息。预训练语言模型通过在大规模数据上进行预训练,使得模型具备了文本的语义信息,然后预训练模型将整个表示网络应用到下游任务,根据具体任务对模型进行精调。由于预训练语言模型一方面可以避免下游任务中对神经网络进行随机初始化,另一方面可以对文本语义特征进行动态表示,解决一词多义等问题,所以该方法在当时众多自然语言处理任务中取得了最好的任务效果,显著地超越了分布式语义表示方法。

目前,研究人员公开发布了多种预训练语言模型及代码,推动预训练语言模型成为自然语言处理的新范式。研究人员对预训练语言模型进行了深入研究,提出了XLNet、RoBERTa、SpanBERT等多种模型,并通过改进模型结构、训练任务等方式不断提升语义表示能力,使其成为当前自然语言处理领域的研究热点。

综上所述,在自然语言处理领域,文本语义表示是基础任务。文本语义表示方法的变革和效果的提升都极大程度地推动了下游任务的效果。本书针对文本语义向量化表示进行探究,介绍文本语义向量化表示的方法,及其在实际自然语言处理任务中的应用。