大数据环境下基于知识整合的语义计算技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

近年来,随着社会信息化程度日益提高,特别是移动互联网技术迅速发展,互联网中的数据量呈指数级剧增,我们迎来了大数据时代。大数据具有规模大、种类多、速度快、价值密度低等特点,涵盖了文本、语音、视频、图片等数据类型,其中蕴含的海量信息给我们带来了无穷的价值,改变着我们生活的方方面面,推动着科学决策智能化水平不断提升,并促进现代社会不断进步。在此背景下,智能决策服务对大数据的需求已经从单纯搜集和获取信息,提升为自动化知识推理。人们希望计算机能够理解人的意图,从海量数据中自动提取有价值的信息;实现对大数据的洞察,为决策提供支持;帮助人们提高数据分析效率,降低人力投入。因此,人们对计算机的数据处理与挖掘能力提出了更高的要求。

在大数据中,相对常见的文本数据由词汇、句子、段落、文档等不同粒度的语言单元构成,是一定主旨与意义的表达形式。对于文本的理解依赖于如何分析其中包含的自然语言的语义(即如何计算其语义),具体是指理解、解释自然语言中各个组成单元的具体含义,构建语言单元的语义表示。然而,在语义计算中,语义相似度的计算是其中一个重要内容与难题。语义相似度可以作为挖掘词汇关联的重要依据,在自然语言处理任务中有助于计算机准确理解语句和文档的内容。

根据文本语义资源的来源,典型的语义相似度计算方法包含三类:基于结构化知识库的方法、基于非结构化语料的方法,以及整合利用异构资源的混合方法。基于结构化知识库的方法主要基于领域专家人工建立和维护的语义网络、知识图谱等知识库,词汇覆盖率较低,缺乏可扩展性;基于非结构化语料的方法主要采用统计模型和无监督机器学习技术,从语料库中抽取语义信息,语料库虽然包含丰富的词汇,但是其非结构性导致计算机难以从中提取词汇的有效语义特征信息。针对前两类方法的研究均得到了广泛的关注和应用,而对整合两类资源的混合方法的研究则起步较晚。此外,随着语义计算方法依赖的语义资源的种类、规模不断发展,从异构数据源中提取语义信息与知识进行有效整合被证明具有较好的效果。因此,近几年有不少研究者关注于将知识工程与大数据机器学习模型的结合,提出异构数据资源的知识整合方案,以及融合不同种类方法的优势的混合计算方法。

本书立足于基于知识整合的词汇语义相似度计算技术及其应用,以异构数据源为对象,从语义特征的选择与提取、语义特征融合、语义计算这三方面内容展开知识脉络的详细描述。书中附有大量的理论与技术介绍、实验数据、图表以及结果分析,有助于读者对相关知识概念有较为清晰的认识,能够正确、直观地理解语义计算的内容。

本书内容涉及当前主流的技术,如深度学习、文本向量化、语义相似度计算。全书共分为六章,前五章提出多种整合异构数据的概念/词汇相似度计算方法,并且给出了各计算方法对应的应用案例(如基于语义的Web服务发现),介绍了语义计算理论(包括国内外现状、发展趋势以及存在的主要问题),重点描述了知识图结构、向量空间模型等概念,提出了在选择语义计算表示方法时应遵循的原则以及进行词汇语义计算的几种方法。最后一章主要介绍了知识库与深度学习技术的结合,分析了词汇语义计算的重要性及未来研究方向。本书重点介绍了基于WordNet的图结构和词汇的低维向量表示,分别从概念信息含量的量化模型、语义增强的词向量、度量方法的优化组合三方面,提出了在知识库和语料库中对语义知识的整合方法,进行了详尽的对比实验,并且在具体的Web服务发现应用上验证了相关方法的有效性。

本书包含了大量的语言统计模型、模型的验证标准等知识点,因此适宜作为高等院校开设的“自然语言处理”“信息检索”等本科生、研究生相关课程的参考教材。本书中的理论部分内容是课程知识的补充和延伸。此外,本书所涉及的内容可以作为基于深度学习的文本理解研究的基础,尤其是关于知识整合如何应用于语义计算,能够给开展相关研究的读者提供新思路。

本书涉及的内容及工作依托农产品质量安全追溯技术及应用国家工程实验室,是在北京市自然科学基金青年项目“面向机器阅读理解多粒度文本的多维跨层级注意力机制研究”(4184084)、北京市自然科学基金面上项目“基于异质数据融合的电信欺诈检测技术研究”(4172014)、教育部人文社会科学研究青年基金项目“基于深度学习的视频直播弹幕违规内容识别研究”(17YJCZH007)、北京工商大学青年教师科研启动基金项目“地质大数据中基于深度学习的实体抽取和表示”(QNJJ2017-17)、国家重点研发计划项目“主要食品全产业链品质质量控制关键技术开发研究”(2016YFD0401205)等资助下的综合成果,也包含了笔者近年来的主要研究成果。在此,特别感谢给予本书修改意见的阅评专家,尤其是北京交通大学的卢苇教授、北京工商大学的姜同强教授、左敏教授,他们认真阅读了本书全稿,提出了许多有价值的宝贵意见。此外,本书的出版得到了北京工商大学和北京理工大学出版社的大力支持,在此一并致以真诚的感谢。

本书在编写过程中借鉴、引用了众多学者的相关研究成果,在此表示诚挚的敬意和感谢,若有遗漏未标注之内容,敬请谅解。由于作者水平有限,缺憾与不足之处在所难免,欢迎读者批评指正。