前言
本书从文本语义向量化表示学习的研究和应用两个方面展开研究。文本语义特征是复杂多样的。本书将研究如何利用多源信息发掘文本的语义特征,以及如何在实际应用中运用文本语义的向量化表示。在自然语言中,词、短语、句子、段落、文档等是不同粒度的文本,其中词是文本组成的基本单位,词语义特征表示是文本表示的基础。具体来说,本书首先介绍了文本语义向量化表示的基础理论,然后着重介绍了分布式语义表示方法和预训练语言模型方法,最后针对实际应用中的语义表示需求进行了如下四方面的研究。
1.如何利用语料中长距离的关联模式信息
利用无标注的语料是语义表示学习最流行、最便捷的方式。现有的分布式语义方法仅使用到上下文窗口中的共现信息,忽略了上下文窗口以外的词之间的语义关联。现有的基于语料的语义表示方法难以利用语料中具有关联关系的远距离共现词。针对这一缺陷,本书研究增强关联模式的语义表示方法,通过从语料中挖掘长距离的无监督的关联信息并嵌入向量空间,提升词语义向量化表示的效果。
2.如何利用知识库中层次化的语义结构信息
无标注的语料与标注的知识库是互补的学习词语义特征的资源。知识库包含专家组织的、准确的、高质量的语义关系。现有的利用知识库的方法仅仅考虑知识库中组成词对的词之间的语义关联,无法利用知识库中其他词之间的整体的、稳定的语义结构信息。针对这一问题,本书研究对知识库中的语义结构进行建模,并设计合理的神经网络将结构信息引入到向量表示空间,加深了语义表示方法对知识库中语义结构的合理利用。知识库通过有向关系(如上下位关系、从属关系等)将词组织成有向图。在知识库的图中,所有词之间的整体结构比每两个词(即词对)间的关系更加稳定。
3.如何利用实际应用中的任务特征
在实际任务中,词除了通用的语义特征信息,还包含与任务相关的特征。为了更好地支持自然语言处理中的实际任务,需要在语义向量空间表示词的任务特征。针对现有的研究中仅考虑词的通用语义特征,无法有效地利用任务特征的问题,本书研究以任务为导向的语义向量化表示模型,并针对文本分类任务设计可增强词类别特征的语义表示方法。针对文本分类任务构建以任务特征为导向的语义空间:首先根据统计信息选取不同类别文本的重要词构建类别词集合;然后在向量空间约束不同类别的特征词,使它们之间具有清晰的分类边界,并调整向量空间的词分布。通过联合训练模型,实现将词的任务特征嵌入语义向量空间,从而能够更好地支持文本分类任务。
4.在机器阅读理解任务中,如何学习问题—文本的多粒度语义表示
在自然语言处理领域,语义表示方法是用于支持文本相关任务的。机器阅读理解验证机器是否能理解文本语义的典型任务,现有的预训练语言模型对该任务效果的提升显著,这表明了语义表示技术对自然语言处理任务的重要性。本书以机器阅读理解作为语义表示的验证任务。机器阅读理解任务是自然语言处理领域的典型应用,文本的语义表示效果直接影响任务效果。现有的预训练语言模型往往直接对问题-文本进行拼接,先学习语义特征表示,然后预测答案在文本中的位置。然而机器阅读理解任务需要先在不同粒度上判断文本是否与问题相关才能更准确地选择答案。针对现有方法无法表示不同粒度问题和文本语义特征的问题,本书研究如何对问题-文本进行多粒度语义特征表示,用于不同粒度的语义匹配,辅助模型抽取正确答案。
本书共分为9个章节,各个章节内容安排如下。
第1章绪论,介绍了语义表示学习的研究背景和研究意义,简要介绍了国内外相关工作,以及本书的研究内容和组织结构。
第2章介绍了语义表示学习的基础信息,对现有的语义表示学习技术和应用进行了系统介绍,为后续的研究进行了铺垫。
第3章介绍了分布表示方法,对基于聚类、矩阵分解和神经网络的词向量表示方法进行详细阐述、比较。
第4章介绍了预训练语言模型的语义表示方法,对目前主流的预训练语言模型进行了详细介绍、对比。
第5章介绍了增强关联模式的语义向量化表示方法,分析了如何将关联模式信息引入语义表示,提升文本语义表示的能力。
第6章介绍了基于知识的文本语义向量化表示,阐述了如何将结构化的知识库引入语义表示,提升文本语义表示的能力。
第7章介绍了文本分类中任务导向的语义表示方法,通过在向量空间刻画词的类别属性,更好地支持文本分类任务。
第8章是面向机器阅读理解的多粒度语义表示方法,研究如何在预训练语言模型中对问题和文本进行多粒度语义特征表示,辅助阅读理解模型抽取正确答案。
第9章对本书的整体工作进行了总结与分析,并对下一步研究工作进行了展望。