1.4 本书主要内容与创新
本书以异构数据源为对象,从语义特征的选择与提取、语义特征的融合、语义相似度的组合计算这三个方面入手,提出了基于知识整合和异构知识表示的语义相似度计算方法。
1)语义特征的选择与提取
为了提高概念特征向量的质量,避免特征稀疏问题,采用神经网络模型,本书提出从无结构的文本语料中学习出低维、连续的词向量,提取文本潜层的语义特征,以避免人工选择特征。
2)语义特征的融合
为了增强语义、消除歧义,利用WordNet中包含的语义关系信息,结合从语料库中生成的低维词向量,对语义相关的词汇进行向量代数操作,本书提出概念向量和语义增强词向量的构造模型。
3)语义相似度的组合计算
为了找出基于向量的最优函数组合策略,本书对比了不同的向量距离公式,利用差分进化算法对多类相似度计算方法进行无监督的组合优化。
本书基于图模型与向量空间,以WordNet的结构和概念语义关系、低维的词向量为主线,利用统计模型、深度学习等技术,在第3~5章分别提出了三个计算词汇语义相似度的方法,以此探索在语义相似度计算任务中结构化知识库(图谱)与非结构化文本语料两类异构语义资源的知识整合(Knowledge Integration)。图1-3概括了本书的核心内容及各个方法之间的关联关系。
图1-3 本书的主要内容及各章节的关联
1.4.1 基于IC模型的异构数据整合
基于WordNet提供的结构属性、概念释义信息以及概念之间的分类学关系,本书在第3章提出了一种结合路径距离和信息含量(IC)的混合式概念语义相似度计算方法。该方法利用概念的IC对概念之间的直连边长进行加权,将由IC加权后的最短路径距离分别与深度差异率、归一化的最短路径距离进行加权组合,并将路径距离非线性地转化为概念的语义相似度。
为了更好地量化概念的固有IC值,本书在第3章提出了基于WordNet概念的节点密度和深度的固有IC混合(IIH)模型。此外,在语义相似度计算中引入基于WordNet的固有IC与基于语料的统计IC的混合计算,以此实现WordNet与文本语料这两类语义资源的知识整合。
1.4.2 基于语义特征的异构数据整合
受第3章固有概念IC量化模型的启发,建立多语义融合模型,本书在第4章提出了一种基于特征向量的语义相似度计算方法。该方法基于低维向量空间,利用WordNet中的概念释义和语义关系,构造概念向量和语义增强的词向量,从而实现WordNet与大规模文本语料在语义特征层的知识整合。该方法首先基于连续词袋模型从语料库中无监督地学习出低维的实数词向量;然后,将语料中的词汇映射到WordNet中的概念,提取概念的多个语义属性(Attribute)中的相关词及其向量;最后,利用向量的多种代数操作策略,获得语义增强的词向量,提升原始词向量的表意能力,进而改善基于词向量的语义相似度计算。
1.4.3 基于度量方法的异构数据整合
利用差分进化算法的随机寻优能力,本书在第5章提出了一种基于差分进化的语义相似度计算方法。该方法将由不同语义资源计算得到的相似度结果进行加权并找出全局近似最优解,其中包括多种向量相似度公式和基于WordNet的语义相似度计算方法,以此整合基于异构语义资源的多类方法,改善基于单一语义资源的语义相似度计算。将其与基于排序学习和回归分析两类有监督学习模型的计算方法进行实验对比,通过分析实验中差分进化算法的个体维度具有的权值,本书在第5章探索了低维词向量可能隶属的空间。最后,将语义增强的词向量应用于该方法中,进一步提升了语义相似度计算的准确度。
本书重点关注语义相似度计算方法面临的三个问题:
(1)如何选择WordNet中的有效语义特征属性,以及如何从语料中提取高质量的词汇特征,避免词向量的数据稀疏问题。
(2)如何利用WordNet中的结构化语义信息,对基于语料上下文学习出的词向量进行语义增强。
(3)如何结合不同的语义相似度计算方法的优势,通过无监督学习来得到最优的语义相似度计算结果。
针对上述问题,本书采用了神经网络、遗传算法等技术用于改善现有语义计算的相关研究,研究了WordNet的各个结构属性对语义相似度计算结果的影响,并以词汇的语义相似度为对象、以提高语义计算的准确度为目标,提出了对于知识库WordNet和文本语料的语义知识进行整合的方法。本书展示了大量的实验,验证了本书提出的三种语义相似度计算方法的有效性,证明它们能够改善自然语言处理任务(包括词对相似度评测和服务匹配)。本书在最后的章节重点介绍了基于知识图谱与深度学习的知识整合研究现状以及手段、方法,目的是为研究相关技术的读者提供启发。