大数据环境下基于知识整合的语义计算技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 语义相似度

当前,作为信息传播的主要载体,文本已成为网络大数据的重要组成部分,如网页、报表、电子邮件、XML文档等。人们希望借助语义计算技术从海量、多源的文本数据中获取有价值的信息,以此应对重复数据、垃圾数据和歧义数据给文本理解与分析带来的挑战。其中,语义相似度计算作为关键技术之一,在提高计算机的文本理解能力方面起着重要作用。

语义相似度指两个对象在语义内容(含义)上相似的程度,是一个从定量的角度表示对象之间相似性的指标。心理学认为,相似性是人们受到两个对象之间关系的刺激所产生的心理感知以及对对象进行定性比较的心理过程,是人类思想和语言中最基本的元素[2]。例如,人们面对一对父子的外貌信息会产生“很相似”的心理反应。为了量化对象之间的相似性,研究者们提出了相似度的概念。计算机科学侧重于利用人工智能模拟人类对于相似性的判断行为,以关于相似性的假设为基础,从特定的知识表述中计算出对象在语义层面上的相似度。

依据不同粒度的表现形式,文本的基本组成单元包括词、句、段落(篇章),它们的语义内涵具有抽象层次递进的关系。词、句、段的表示学习方法存在较大的差异,往往针对不同类型的任务,考虑文本理解的粒度。词是文本的最小组成单元,因此词的语义表示通常是文本语义计算的基础,不仅可以用于句子、段落等长文本的表示学习,也被用于具体的任务中(如智能问答等)。

正因为如此,如何衡量词汇之间的语义相似度对于自然语言处理具体任务的性能提升起着关键性作用。然而,在传统的信息检索技术中,基于关键词的文本匹配方法没有考虑检索词的语义,只停留在词汇的表层,导致检索结果包含大量无关信息,无法理解和满足用户的真实需求。因此,进行词汇的语义计算、从语义上理解词汇的内涵以及量化词汇之间的语义关系,已成为提升文本挖掘、机器翻译等应用的人工智能水平的关键技术之一。基于词形匹配的相似度计算方法难以深入挖掘词汇的语义,尤其是词汇语义的异构性和歧义性使其在文本分类、文本主题抽取等任务中的适用性较低。此外,语义标注的文本在实际中通常难以获得。因此,基于语义的词汇相似度计算对于提升文本处理任务的性能显得尤为重要。

在已有的语义相似性度量的研究中,语义相似性被认为是语义相关性(Semantic Relatedness)的一种特例。一些研究指出,“语义相似”不等同于“语义相关”。“语义相关度”衡量的是语义上的关联程度,比“语义相似度”的概念更广、更通用[3], [4]

下面以如图1-2所示的台式电脑、平板电脑和鼠标的关系为例,说明“语义相似”与“语义相关”的区别。

图1-2 举例说明“语义相似”与“语义相关”的区别

“台式电脑”与“平板电脑”具有许多共同的特性,可以上网、播放视频等,因此两者具有语义相似性;而“台式电脑”与“鼠标”虽然没有相同的特性,并不相似,但“台式电脑”依赖于“鼠标”输入数据信息,两者存在一定的语义相关性。

再例如,词“银行”和“利息”虽然具有不同的含义,但能频繁地同时出现在经济类文章中,因此具有语义相关性。这一点符合人类的直观感受。

针对大数据的检索和处理不仅依赖于云计算等技术提高运行效率[5],对数据挖掘算法和语义计算等相关技术提出了更高的要求。其中,文本之间的语义相似度常被用于对千万量级的数据进行合并和去重,减少数据冗余。语义相似度计算在文本聚类[6]、服务发现[7]、问答系统、机器翻译[8]、推荐系统[9]、舆情分析[10]等领域都具有广泛的应用。在商用搜索引擎中,谷歌、百度、YouTube等公司均已实现了基于语义的信息检索,从语义层面理解和处理检索请求,借助挖掘语义关联、消除词汇歧义[11],以达到增强信息检索的智能性和灵活性的目的。

在语义搜索引擎中,词汇之间的同现关系、语义关系被用于扩展查询词。例如,当用户搜索“苹果”时,语义搜索引擎不仅能够给用户返回“苹果—水果”,还可能将“苹果公司”“苹果手机”“小米手机”等作为查询结果或推荐结果反馈给用户;当用户搜索“捷豹”时,语义搜索引擎能够结合用户的搜索历史,为用户展示其感兴趣的某汽车品牌下的所有车型图片,而不是一张大型猫科动物的图片。

此外,词汇语义相似性计算的准确性也已成为提高智能问答系统性能的关键因素之一[12], [13]。典型的问答系统(如微软的小冰、苹果的Siri、谷歌的Now语音助手、百度语音助手等)均采用了语义计算和推理技术。与此同时,通信4G时代和智能移动终端推动了移动互联的巨大发展,文本数据出现了一个明显的特征变化,即短小、频繁。中国互联网络信息中心(CNNIC)在2018年1月发布的第41次《中国互联网络发展状况统计报告》显示,台式电脑、笔记本电脑的使用率均出现下降,使用智能手机作为互联网接入终端的比率持续增长,人们利用碎片化的时间,通过微博、微信、短评等即时通信媒介传播信息。在这种情况下,文本语义相似度计算的重要性不言而喻,能够在很大程度上影响文本检索与匹配的效率。

传统的语义计算采用统计机器学习模型,依赖于人工经验从数据中抽取特征、选择特征,对数据的表示学习能力较弱,并且忽略了自然语言潜层语义特征的挖掘和表示。因此,此类浅层模型的应用效果在很大程度上取决于特征表示的质量,且不得不在数据的标注和特征筛选上耗费大量的精力。

随着大数据时代的到来和信息技术的进步,大数据为机器学习(特别是深度学习)带来前所未有的数据红利。近几年,基于大数据、基于表示学习和深度神经网络的深度学习方法逐步受到学术界和工业界的广泛关注和应用,并已被成功应用于文本语义计算、语音识别和图像识别等领域中。表示学习旨在将对象的语义信息(包括含义与关系)表示为低维、连续的实值向量,通过表示学习所获得的文本的分布式实值向量对于相似度计算、文摘提取等任务具有重要的意义。而知识表示学习则面向知识库中的实体对象的语义含义和关系进行表示,学习得到的文本向量对于知识库的构建、推理与应用均具有重要意义。因此,如何利用表示学习的相关技术,提升计算机对自然语言处理等领域应用的性能,已成为学术界与产业界共同关注的焦点。

除了利用机器学习模型从无结构化的数据中提取有效特征实现文本处理任务以外,在大数据环境下,以专家知识为驱动的知识工程随着计算机计算能力的提升获得了巨大的发展(包括知识表示、知识获取、知识推理计算等技术),同时,大规模知识图谱、众包知识图谱、领域专用知识图谱也已被广泛应用于语义计算、语义分析、智能问答系统以及智能知识服务等。知识图谱以结构化的形式描述客观世界的概念(实体)以及概念之间的关系,从互联网大数据中提取信息,总结提炼出更接近人类认知方式的知识,以此更好地组织、管理和表达海量数据。

随着人工智能的快速发展,识别两个词汇或者文档在语义上是否相近能够帮助计算机更好地理解文本表意,对自然语言处理、信息检索等领域具有非常重要的研究意义和应用价值。语义相似性计算已成为改善服务发现、文本分类、数据挖掘、机器翻译等任务性能的关键环节和手段。近几年,大数据为语义计算提供了丰富的数据资源,相关技术(如语义特征提取、深度学习)正不断成熟。因此,针对词汇的语义相似度计算技术来展开系统性的知识梳理、开展语义相似度计算技术的研究和应用具有重要的理论价值和现实意义。