1.4 从DIKW模型到知识图谱
DIKW 模型可以帮助我们进一步理解什么是知识图谱。把1.3节中的DIKW 模型和1.2节中的知识图谱进行比较,很容易找出它们的相似之处。
信息是实体,是孤立存在的有一定层次结构的数据。知识是关系三元组,以及由无数关系三元组组成的知识图谱本身或其子图,是互相关联交织的有明确语义和关联关系的信息。也就是说,知识图谱相当于 DIKW模型中的知识(K)。从图1-2描述的两个关键维度——语义和连接来说,现实存在的抽象的或具体的事物会产生混沌的、杂乱无章的、原始孤立的数据。对数据进行清洗、分析和治理,根据领域实践经验理解数据,并建立知识点内部数据的连接,就形成了信息,其结果体现为实体。进一步运用领域实践经验理解实体(知识点/信息)之间的关联关系,并在实体之间建立合适的、符合实际情况的、语义化表示的关系,其结果体现为知识图谱。在知识图谱领域,这个过程被称为知识图谱构建,即从原始数据到已处理的信息,再到互相关联的知识的过程。
也就是说,在DIKW模型中,从数据到信息,进而到知识的过程,就是从混沌到有序、从杂乱无章到结构清晰、从原始孤立到交织互联的过程,也就是知识图谱的构建过程。DIKW 模型中的智慧(W)是指对知识的应用,核心在于联想机制的激活。在知识图谱中,智慧体现为对知识图谱的应用。具体来说,就是基于知识图谱的各种模型、算法,以及针对具体应用场景的业务规则、逻辑推理等,比如知识计算、知识推理、知识问答和辅助决策等。直觉系统对应于简单应用,在知识图谱领域,体现为对知识的直接利用,比如知识检索、知识探索等;理性系统对应于复杂运算,在知识图谱领域,对应于需要经过复杂运算过程的知识应用,比如知识计算、知识推理等。
在DIKW 模型中,如果把原始的杂乱无章的数据称为非结构化数据,把已经治理过的、有层次结构的、规则有序的信息称为结构化数据,那么知识图谱的构建就是把非结构化数据和结构化数据转化成知识图谱的过程,知识存储是以图的形式将知识点及其关联关系保存起来的过程,基于知识图谱开发出的应用则是形成智慧的过程。这就是知识图谱领域常用的表述方式。知识图谱的构建、存储和应用的全流程如图1-3所示。
图1-3 知识图谱的构建、存储和应用的全流程
从图1-3 来看,知识图谱的含义有所变化,其关注点不仅仅包括知识本身,还包括与知识的生产、表示、存储和应用有关的方法、技术、应用程序和流程等。在实践中,人们在提及“知识图谱”时,有时指的是用图来表示的知识,即1.2节中对知识图谱的定义;有时指的是生产、表示、存储和应用知识的技术,即图1-3虚线框所包含的部分。这里借用逻辑学的两个名词——“内涵”和“外延”——来厘清“知识图谱”的定义。
● 知识图谱的内涵:由实体及实体间的关系所组成的网状的图,表示的是知识本身。包括所有由实体及其属性组成的知识点,以及由关系及其属性组成的知识点之间的关联关系的总和。
● 知识图谱的外延:即生产知识(知识图谱构建)、表示知识(知识图谱存储)和应用知识(知识图谱应用)有关的方法、技术、模型、算法、应用程序、流程等的总和。
正如同人们在使用“水果”一词时,想表达的既可能是水果的内涵——即水果的固有属性,也可能是水果的外延——具备水果特征的一个或多个个体。在本书及绝大多数使用知识图谱的场景中,“知识图谱”这4个字既可能表达知识图谱的内涵,即知识本身;也可能表达知识图谱的外延,即知识及与知识图谱的构建、表示存储和应用有关的技术。在遇到“知识图谱”一词时,读者根据上下文情景进行判断即可,并且这种判断是容易的,一般不会混淆。