2.2 基于图结构的概念语义相似度
利用WordNet等知识库、本体中包含的概念以及概念间的语义关系,可以构成一个典型的语义结构图,因此大量的研究基于图结构提出计算概念语义相似度的方法。对于两个给定的单词,大部分方法选择其所对应的多个概念相似度中的最大值作为其语义相似度。
2.2.1 概念语义相似度计算方法的分类
依据所采用的计算元素和模型,基于WordNet的概念语义相似度的计算方法大致可以归纳为五类:基于路径距离、基于信息含量、基于特征属性、混合式和基于随机图游走。下面分别简要介绍这五种计算方法。
1.基于路径距离
基于路径距离的语义相似度计算方法主要利用两个概念词之间的路径长度来衡量其语义相似度,因此也被称为基于连接边的方法。Rada等人在1989年首先提出基于概念间连通通路中的最短路径,将路径中直连边的个数计算为语义相似度[46]。其方法的核心思想可以概括为:基于文本标签,将要比较语义相似度的词对映射到树形层级结构中对应的概念对,以概念之间表示“is-a”关系的连接边的数量作为最短路径距离,距离越大,那么概念之间的语义相似度越低。基于Rada等人的研究,Leacock和Chodorow利用结构中的最大深度对最短路径距离进行缩放[47]。
但是,上述方法只关注于概念对的相对路径距离,而没有考虑它们所处的绝对位置,认为每一条连接边的边长相同,因此难以区分具有相同路径距离但不同深度的两对概念。为了解决这一问题,许多学者深入研究了WordNet的结构,采用更多的结构元素计算概念之间的语义相似度。Sussna[48]基于语义关系的类型和概念的深度计算概念语义相似度。Richardson等人[49]基于概念的深度和密度、概念语义关系的强度,计算出权重因子,对概念的边长进行加权。例如,“is-a”继承关系的强度大于“part-of”整体/部分关系的强度,因此其对应的边长被赋予较大的权重因子。
与之类似,Wu和Palmer[50]、Pekar和Staab[51]等人分别提出,将两个概念节点的最小公共包含的深度作为最短路径距离的调节因子,这样两个概念之间的语义相似度不仅取决于其相对距离,而且与其所处的绝对位置有关。Hirst和St-Onge充分利用了两个概念之间语义关系的方向变化次数,并且定义了语义关系的三种强度[52]。若两个概念之间存在中等强度的语义关系,则它们的关联程度依赖于路径长度和方向变化次数。然而,该方法相对更适用于计算概念的语义相关程度而不是相似度。Li等人[53]提出了组合路径距离、概念的深度和局部密度的多种计算策略。
基于路径距离的语义相似度计算方法的计算较简单,主要依赖于知识库的结构。因此,此类计算方法相对更适用于特定领域的知识库,如医学语义网和医疗知识图谱。此外,基于路径距离的语义相似度计算方法无法测量分属不同结构中的概念之间的语义相似度。
2.基于信息含量
基于信息含量的语义相似度计算方法依据两个概念之间共享的信息量的大小来衡量其语义相似度。此类方法需要预先计算出每一个概念节点的信息含量(Information Content, IC)值,因此也被称为基于节点的度量方法。IC的计算模型最早由Resnik提出,依据信息论和概率统计理论[54],利用概念对应的所有单词在语料中出现的次数统计出概念的IC[3]。受语料的可用性和稀疏性的影响,同一概念基于不同语料得到的IC差别较大,导致相似性度量结果存在一定的差异,降低了计算方法的稳定性和适用性。尤其当语料的规模足够大时,词汇量趋近无穷,那么所有概念之间的语义相似度都将趋近一个常数。此外,基于语料计算概念的IC通常需要额外对语料进行语义消歧处理。
为了减少对语料的依赖和由词频统计引起的计算量,一些研究者[55-58]提出了基于WordNet结构的概念固有IC(Intrinsic IC)计算模型,将概念在结构中的局部密度取代语料中的词频统计。基于已经计算出的概念IC,此类相似度计算方法可以利用两个概念的最小公共包含[3], [4], [59-63]的信息含量来衡量其语义相似度;或者利用多个不相交的共同祖先(Disjoint Common Ancestors, DCA)[64]的平均信息含量和多个共同祖先(Multiple Common Ancestors, MCA)[65]的信息含量总和,以此在语义相似度的计算过程中综合考虑两个概念之间可能存在的多条通路。
3.基于特征属性
基于特征属性的语义相似度计算方法利用了语义的特征模型,将概念表示为特征词的集合或向量,概念的语义相似度由其共享特性的多少决定。若两个概念共享的特征词越多(或者其概念向量越相近),它们的相似度则越大,反之亦然。在此类方法中,每个概念的定义、标注和例句中包含的词汇被当作特征词,用于构造概念的特征词集合和概念向量。根据特征词的来源,此类方法可被细分为基于注释和基于属性的方法。
基于集合论(Set Theory)[66], Tversky于1977年提出了利用特征词集合的交集和差集计算概念的语义相似程度[67]。受Tversky所提方法的启发,Pedersen等人将注释(每个概念的文字解释)作为特征词,提出了两种计算方法:一是基于改进的Lesk算法[68],提出扩展式注释重叠法(Gloss Overlap)[69];二是基于语料统计构造二阶注释向量,利用向量余弦距离来衡量概念之间的语义相似度[70]。与Pedersen等人的方法类似,Wan和Angryk结合注释信息与概念间的语义关系,将概念表示为高维向量并在向量空间中计算概念语义相似度[71]。
上述方法利用了概念注释中的上下文,因此在基于上下文的语义消歧任务中效果较好[72]。相比基于注释的方法,基于特征属性的方法能够借助概念的多种特征属性,如同义词集、例句、语义关系等。这类方法通常依据两个概念对应某类属性的交并集来判断它们之间在该属性上的相似度,并对多个属性的相似度值进行加权求和,从而获得两个概念的综合语义相似度[73]。因此,基于特征属性的方法通常被用于衡量来自不同领域本体的两个概念之间的语义相似度[74], [75]。
Liu等人[76]利用WordNet中概念的相关节点的局部密度来表征其向量,计算概念向量之间的余弦相似度。该方法基于一个假设:属性出现的概率能够反映概念的特征,并且一个概念的概率等于它所有子孙概念的概率。由于概率统计和高维向量的相似性计算需要大量的时间和运算能力,因此该方法仅仅能够应用于一些特殊的领域本体而不适用于大规模的普适性本体。
虽然上述计算方法充分利用了WordNet提供的语义信息,如概念的定义和语义关系,但由于WordNet本身缺乏词汇的统计信息,从WordNet抽取出的特征维度不足且无法直接计算出特征值。因此,基于特征属性的语义相似度计算方法往往利用集合的重叠程度来计算两个概念之间的特征相似度,导致其更适用于衡量概念间的相关度而并非相似度[77]。
4.混合式
为了克服基于路径距离、基于信息含量、基于特征属性这三种计算方法所具有的局限性,一些研究者提出了混合式的语义相似度计算方法,用于提升相似度计算在特定应用中的效果。Formica[78]提出了多种基于特征和固有IC的混合式计算方法。Alvarez和Lim[79]基于概念的注释、语义关系,将两个概念的最短路径距离、MICA深度和注释重叠度进行比较,将其中的最小值当作概念之间的语义距离并通过指数函数非线性地转化为语义相似度。而Zhou[80]、Meng[81]以及Gao[17]等人均提出了将路径距离和IC进行组合计算。
5.基于随机图游走
一些研究侧重于利用WordNet的图结构,通过随机游走算法,构造概率向量空间,挖掘出概念的语义分布,利用概率分布(Probability Distribution)的相似性来度量概念的语义相似度。Kim和Candan[82]利用概念传播(Concept Popagation, CP)算法将层级结构中的概念映射为向量空间中的某个点,构造概念向量并计算向量相似度。Hughes和Ramage[15]抽取WordNet中的多种类型的语义关系与注释信息建立图结构,计算从某一节点跳转到其他节点的概率,形成概率转移矩阵。通过网页排名(Page Rank)算法构造随机游走马尔可夫链,得到目标节点的稳定分布,基于分布的相似性来判断对应概念之间的关联程度。与之类似,Agirre等人[83]基于WordNet图结构和Page Rank算法,计算出WordNet中同义词集的概率分布,将概念向量化表示为与其有关的所有同义词集的分布概率,将概念语义相似度的计算转化为概率分布向量的余弦相似度。Pilehvar等人[16]利用主题感知的Page Rank算法[84]将单词表示为概念的多项式分布,即语义标识(Semantic Signature),利用语义标识的相似度来衡量概念的语义相似度。
2.2.2 不同概念语义相似度计算方法的特征比较
针对上述语义相似度计算方法,不少研究者对它们进行了定量比较和定性评估[85-91]。Hale[85]在两个特定的本体上比较了基于路径距离和基于信息含量的相关方法。Budanitsky和Hirst结合两类测量标准,评估了典型的概念相似度计算方法[88],并在单词拼写错误检测的应用中验证了J&C方法[59]在基于WordNet路径距离的五个方法中结果最优[86]。Maind等人[89]基于WordNet、Brown语料和Web搜索引擎三类数据源,比较了不同计算方法的性能和局限性。Varelas等人[87]在Web信息检索应用中评估了不同类型的语义相似度计算方法。
通过对已有文献以及概念语义相似度计算方法的分析,本书列举了不同类型方法的技术特点、原理,如表2-5所示。
表2-5 基于WordNet的语义相似度计算方法的技术特点
(1)基于路径距离的计算方法主要基于连接边,采用多种结构信息计算两个概念在结构中的路径长度。例如,边的类型和长度、概念的密度和深度。两个概念之间的路径长度越小,那么其语义相似度越大,反之亦然。
(2)基于信息含量的计算方法主要依赖于两个概念词之间共享的信息含量。每个概念所包含的信息含量是概念反映出的语义信息的量化值,可以基于概率统计模型从语料中计算得出,也可以基于WordNet的结构信息计算得出。两个概念共享的信息量越大,那么其语义相似度越大,反之亦然。
(3)基于特征属性的计算方法利用的是两个概念节点之间共享的特征。其原理在于:事物可以由多个特征来表示,因此事物的关联程度与其所共享的公共属性数量有关。两个概念之间共享的特征越多,那么其语义相似度越大,反之亦然。
(4)混合式计算方法侧重于同时采用上述三类方法中的多种计算元素,综合不同方法的优势。
(5)基于随机图游走的计算方法充分利用概念之间的多种语义关系,基于路径传播和跳转概率,挖掘出没有直连边或距离较远但直观上相似的概念的语义关联。在这类方法中,较多方法采用Page Rank策略。