
1.4 知识融合技术
1.4.1 知识融合内涵
随着世界上第一个基于知识应用系统DENDRAL于1968年的诞生,知识融合(knowledge fusion, KF)开始成为人工职能领域中的一个研究课题[30],[31]。从20世纪80年代后期开始,知识工程的兴起使得知识融合逐渐开始受到关注,而在知识工程命名者Feigenbaum提出的“知识原则”三阶段计划中,知识融合是后两个阶段最为重要的功能模块之一[32]。

图1-4 知识工程核心模块
从应用服务的角度而言,如果将知识工程的研究内容看作一个整体,则其中的一些核心模块如知识表示和数据挖掘等,能够从网络、分布式数据库、专家以及文档等资源中提取出知识并不断构建和充实知识库中的对象(见图1-4)。通过对知识融合相关研究的分析,我们认为知识融合既有物理层面的融合,又有知识层面的融合。在物理层面,知识融合是指从众多分布式异构的网络资源中搜索和抽取相关知识,并转换为统一的知识模式,为某一领域求解构造有效的知识资源;在知识层面,知识融合是指对大量数据及知识资源进行组织和管理,结合行业领域的应用需求对知识元进行建模、推理和融合,从而获得有价值的可用的新知识[33]。

图1-5 KRAFT架构
知识的物理层面融合中,以KRAFT项目[34-36]的研究为代表。KRAFT架构如图1-5所示。这种定义表示对应的典型系统KRAFT从概念层次上对应的域,主要包含三类功能对象实体,分别用W、F和M表示。数据库和知识库都是服务资源,而用户agent是消费者。W的对象实体是服务对象和资源之间的接口;F的实体负责系统内部的消息路由;而M则是知识融合的核心功能对象。对应的对象实体功能包括异构数据源集成,根据语义对知识进行转换,知识一致性的检查和处理,基于本体的知识等价转换等。
对于知识层面的融合中,文献[37-39]给了一个典型的知识融合架构,如图1-6所示。该架构将知识融合系统分为四个主要功能模块:问题分析、本体管理、知识融合和知识同步。

图1-6 知识层面融合典型架构
1.4.2 物理层知识融合
物理层面知识融合研究重点是对不同来源的知识集成和共享,根据知识的描述对象是否相异同,物理层面知识融合又可以分为针对不同描述对象不同来源知识的分布式知识融合和针对相同描述对象不同来源知识的异类知识融合。
(1)分布式知识融合。分布式知识融合(DKF)的研究主要集中在体系结构的组建和优化方面,知识融合中采用的方法主要是通过多agent、网格计算和中间件等技术进行异构知识的转换和映射,在特定的知识环境中实现某种程度的融合。其中为各方面的科研文献引用最多的、最具有代表性的典型系统是KRAFT项目[34-36],该项目由欧洲多个研究机构和大学共同参与,旨在通过数据库技术和人工智能技术在互联网上创建一个可以搜索和拓展知识的开放环境。基于类似技术进行的知识融合研究项目还有EUREKA等。近年来,美国军方在知识融合方面的研究项目中较有代表性的是KFEWMS[40]和ARPIKSE[41]。KFEWMS的主要研究内容完全以知识融合为核心,包括构建分布式知识融合体系结构和对象化知识的共享与集成。ARPIKSE的一些子项目中有一些本身是围绕知识的共享集成和知识融合进行的,例如KQML/KRSL和CoBase[42]。前者研究成果目前已经成为知识工程领域最为常用工具语言之一,而后者侧重于知识库的组织和知识共享。
(2)异类知识融合。异类知识融合(CKF)研究相同对象不同来源知识的集成问题,如不同监测点的监测仪对同一飞行器轨迹监测信息的融合;不同专家对于同一病症判断的融合等。Li和Sun[43]采用不同相似性计算方法计算同一实例的相似度,并采用投票机制(maj or voting)实现相似度的集成。
由于知识来源的不同,造成了同一问题描述和表达中存在不确定的信息,因此对于不确定性知识融合是CKF研究中的热点。目前不确定性知识融合方法主要有[44]:主观贝叶斯法、D-S证据理论法、神经网络法等。文献[39]和[45]分析了各种UFK方法,指出主观贝叶斯法计算公式大多是在概率论的基础上推导出来的,在给出规则的同时,也要给出先验概率,但是在实际中这是比较困难的。神经网络虽然在知识信息集包含大量的噪声输入信息时也能工作得很好,但由于缺乏解释自身行为的能力,不能保证收敛得到最理想的结果。而由Dempster和Shafer[46],[47]提出的D-S证据理论只需要满足比概率论更软弱的公理系统,而且能处理由“不知道”所引起的不确定性,知识的结论部分可以是更一般的假设,这就便于领域专家从不同的层次上表达他们的知识,而不必被限制在单元素所表示的最明显的层次上,如Latifa等[48]采用D-S证据理论对疲劳监测信息进行融合;樊志华和洪君[49]采用D-S证据利用对离心泵振动信息进行融合。
1.4.3 知识层融合
不同于物理层面的融合,知识层面的融合不仅要实现知识的集成,同时基于已有知识而产生新的知识,因此可以认为知识层面的知识融合是物理层面知识融合的升级。目前关于知识层面的知识融合还处在初步探索阶段,技术成熟度不如物理层面的知识融合。根据知识表示内容的不同,知识层面知识融合可以分为文本知识融合(textual knowledge fusion, TKF)、规则知识融合(rule knowledge fusion, RKF)、关联知识融合(associated knowledge fusion, AKF)。
(1)文本知识融合。文本知识融合(TKF)研究中,以英国学者Hunter对于新闻报道融合[50]、天气预报融合[51]等研究为代表。其具体的方法是:以XML语言构建描述知识,把描述知识中的基本要件(如气温、城市、时间)作为XML构建中的节点名,把基本要件内容(如30°、伦敦、2002/10/10)作为节点值,表1-1显示了基于XML构建的新闻报道知识和天气预报知识。TKF方法分别对每个XML节点设置融合规则,如对温度的融合规则、对城市名的融合规则等,融合过程就在各种融合规则的定义下,分别对XML表示的知识中每个节点值进行融合,从而生成新的描述知识。基于TKF方法的Fusion融合系统[52]界面如图1-7所示。
表1-1 基于XML的知识表示


图1-7 Fusion融合系统的系统界面
(2)规则知识融合。知识工程中对于知识的利用常以规则的形式体现,因此在知识融合研究领域中,对于规则知识融合的研究是最近几年的研究热点。目前已有的规则知识有多种表示方法,许多学者针对不同类型规则提出了不同的RKF方法。
Hunter等在TKF研究的基础上,提出了采用XML语言表示规则,采用RKF融合方法,实现规则知识的融合[53]。
胡晓等[54]针对语义级规则知识之间冲突消解问题,定义了统一语义表达方式,将语义级规则知识之间的冲突按照粒度分为术语冲突、谓词冲突和语义冲突,分别提出了消解术语冲突的逻辑树融合法,消除谓词冲突的频率融合法以及用于消除语义冲突的句法融合法,其融合过程如图1-8所示。

图1-8 语义级规则知识融合过程
缑锦等[55]提出了基于规则元知识描述和本体库表示的知识融合系统,融合过程中采用遗传算法。基于本体库在规则元知识的层次上构建新的解知识空间,并对融合后的解知识空间的结构演化进行了分析,建立了系统评估和参数校正的自适应机制。
Isabelle等[56]在模型识别应用中研究了模糊规则知识的融合,针对3D模型识别中空间规则约束,采用模糊理论,提出了模糊规则知识融合方法;Eric[57]采用基于冲突消解规则的方法处理RKF过程中冲突的模糊规则。
对于以数值形式表示的规则约束,其RKF方法有:遗传算法[58]、自适应神经网络[59]、蚁群优化算法[33]和规则-遗传混合算法[33]。