1.3 DIKW模型
为了进一步深入理解什么是知识图谱并更好地应用知识图谱,我们有必要了解什么是知识。这是一个更加复杂的问题,是哲学、脑科学、认知科学、心理学、计算机科学和人工智能科学等诸多学科致力于厘清的问题。其复杂性在于,一旦涉及知识,必然涉及人们如何看待现实存在的问题、知觉(Perception)的问题,以及思想(Thought)、观念(Idea)和印象(Impression)等问题。针对这些问题的深入探讨非长篇大论不可,并非本书所涵盖的范围。不过,在知识图谱领域,有一个广为接受的模型——DIKW 金字塔模型,DIKW 即数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)。该模型从计算机、人工智能或知识图谱的视角来看待知识,其结构如图1-2 所示,它有助于我们理解知识和知识图谱,进而在实践中更好地构建、表示和应用知识图谱。
图1-2 知识的 DIKW金字塔模型
如图1-2左边所示,在 DIKW 模型中,数据是原始的、杂乱无章的,用来表示现实世界中抽象的或具体的事物。数据本身往往是孤立存在的,数据与数据之间没有建立明确关系的连接,也没有清晰明确的结构。通俗地讲,数据就如一盘散沙,除数据本身所呈现的符号之外,并无更多的意义,价值较小。对数据加以清洗、治理、分析,并以一定结构组织起来,就形成了信息。也就是说,信息是数据中重要的、有意义的和有用的那一部分。
通常,信息与信息之间的关联比较弱,但信息自身的层次结构和内容是丰富的,因此我们可以认为信息是一个个点状的知识——知识点。更进一步,深入理解信息,并通过领域实践经验或专家观点将点状的信息进行连接后,能用于决策的信息表示即为知识。即知识是由无数信息(知识点)及其关联关系所构成的网状形态表示。
对数据—信息—知识进行划分的两个关键维度是连接和语义,如图1-2右边所示。知识相对于信息,以及信息相对于数据,有两个关键环节。一是领域实践经验,即在实践中对数据或信息进行语义理解,抽象总结成能够为推理决策等思维活动所使用的内容,这是从杂乱无章到规则有序的过程。二是建立信息或知识点之间的连接,连接的关键取决于大脑的思维活动。研究表明,大脑的思维活动体现为联想机制,联想机制的激活过程就是知识点之间通过关联关系不断扩散的过程。具体来说,就是大卫·休谟所总结的3种关联关系在联想活动中起作用的过程。
在DIKW模型中,智慧表示的是对知识的应用。大脑对知识的应用,其内在表现为思维活动的激活,外在表现为推理决策的过程。同时,知识的应用往往还会产生新的知识,并且思维活动还会将产生的新知识加入已有的知识网络中。在《思考,快与慢》这本书中,大脑被分为负责简单思维的直觉系统和复杂思维的理性系统。直觉系统是无意识、低耗能、反应迅速的,在 DIKW 模型中,直觉系统可以表示为简单直接的知识应用,比如脱口而出的知识。理性系统是复杂的,需要耗费很多能量,并且需要更长的时间进行复杂运算。在 DIKW 模型中,理性系统可以表示为复杂的知识应用,比如逻辑推理和复杂的数学计算等。