1.3 知识图谱的模式
前文一直在实际数据的层面谈论知识图谱,也谈到了本体被用于为知识图谱定义模式。作为知识图谱中的重要概念,本节我们将深入讨论知识图谱的知识体系——模式的含义和构建。
人类一直在探寻世间真理,尝试建立知识体系。从亚里士多德开始,就有很多人对世间的万事万物进行分类。比如亚里士多德将元素分为土、水、火、空气和以太(构成天体的神圣物质),在中国最早的古汉语辞书《尔雅》中则将世间万物分为了天地山水、草木鸟兽等19个门类,并对每一个门类都进行了详细的讲解。例如在“释兽”中有这样的描述:“狗四尺为獒”。也就是说,獒是狗的一种,而且是身长四尺以上的狗。
上文我们提到,在知识图谱的图结构表示中,结点代表语义实体或概念,边代表结点间的各种语义关系。那么,实体和概念又该如何区分呢?
举一个简单的例子。在三元组<姚明,国籍,中国>中,“姚明”和“中国”是两个实体,而姚明是一个人(Human)或者篮球运动员(Basketball Player),中国是一个地点(Location)或者一个国家(Country)。这里,人、篮球运动员、地点、国家,都可以看作概念。前文提到,由概念组成的体系称为本体,本体的表达能力比模式强,且包含各种规则(Axiom),而模式这个词汇则来源于数据库领域,可视为一个轻量级的本体。实体和概念之间通常是“是”的关系,也就是“isA”关系,比如“中国是一个国家”。而概念和概念之间通常是子集关系,如“subClassOf”,比如“篮球运动员是人的一个子集”,“国家是地点的一个子集”。一个简单的由本体所描述的模式如图1-9所示。
图1-9 模式示例
总体来看,本体强调了概念之间的相互关系,描述了知识图谱的模式,而知识图谱是在本体的基础上增加了更丰富的实体信息。通俗来讲,模式是骨架,而知识图谱是血肉。有了模式,我们可以更好地推理和联想。例如,树是一种植物,柳树是树的一种实例化,则可以推断出“柳树是植物”。
接下来我们谈一下由Google、Microsoft和Yahoo!三大巨头于2011年推出的模式规范体系:Schema.org[1]。这个规范体系是一个消费驱动的尝试,其指导数据发布者和网站构建者在网页中嵌入并发布结构化数据,当用户使用特定关键字搜索时,可以免费为这些网页提升排名,从而起到搜索引擎优化(SEO)的作用。Schema.org支持各个网站采用语义标签(Semantic Markup)的方式将语义化的链接数据嵌入网页中。它的核心模式由专家自顶向下定义,截至目前[2],这个词汇本体已经包含700多个类和1300多种属性,覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。通过SEO的明确价值导向,Schema.org得到了广泛应用,目前全互联网有超过30%的网页增加了基于它的数据体系的数据标注。
举一个简单的例子,对于一个电影门户网站的站长来说,如果现在一位用户正在搜索电影《八佰》,该站长希望能够通过SEO提升自己网站的排名,从而让用户更加倾向点进站内的相关电影界面。传统的HTML标签只会告诉浏览器如何渲染网页上的信息,例如<h1>The Eight Hundred</h1>仅仅告诉浏览器以大标题形式显示文本文字“The Eight Hundred”,没有明确给出这些文本文字的信息。而Schema.org可以理解为一份共享词汇表,一种语义化的网页结构标记。对于搜索引擎而言,使用Schema.org规范,可以让搜索更准确,生成丰富的网页摘要。采用Schema.org规范的网页标签示例如下:
1. <div itemscope itemtype="http://schema.org/Movie"> 2. <h1 itemprop="name">The Eight Hundred</h1> 3. <div itemprop="director" itemscope itemtype="http://schema.org/Person"> 4. Director: <span itemprop="name">Hu Guan</span> 5. (born <time itemprop="birthDate" datetime="1968-08-01">August 01, 1968</time>) 6. </div> 7. <span itemprop="genre">War</span> 8. <a href=" .../trailer/the-eight-hundred-trailer.html"itemprop="trailer"> Trailer</a> 9. </div>
无论是程序员、搜索引擎还是网络爬虫,都可以很轻松地通过Schema.org获取到结构非常清晰的信息:
类型:电影(Movie)
名称:八佰(The Eight Hundred)
导演姓名:管虎(Hu Guan)
导演生日:1968年08月01日
影片类型:战争片(War)
当然,Schema.org也有体系覆盖度不足、局限于英文、细致化不足等缺点。尤其是在构建特定领域模式的过程中,经常需要融合多种知识体系。由于这些不同体系关于类别、属性的定义并不统一,例如GeoNames、DBpedia Ontology、Schema.org等都有各自独特的体系定义,因此,体系融合也是一个非常大的难题。在工业实践中,开发人员一般会根据一个成熟的知识体系,结合特定需求,构建适合自身需求的模式。例如,狗尾草智能科技有限公司推出的百科知识图谱“七律”[3]及其相应的模式,就是基于AI虚拟生命开发的知识体系,如图1-10所示。
图1-10 狗尾草知识图谱——七律示例
[1] https://schema.org/。
[2] 截至2021年4月30日。
[3] https://ai.gowild.cn/kg。