2.3 知识图谱表示学习
知识图谱(Knowledge Graph,KG)旨在描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界的过程中所形成的对客观事物的概念化表示,如人、动物、组织机构等;实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等;事件是客观事件的活动,如地震、买卖行为等;关系用于描述概念、实体、事件之间客观存在的关联关系,如毕业院校描述了一个人与其学习期间所在学校之间的关联关系等。知识图谱中的知识通常用三元组(实体1,关系,实体2)表示,对应知识图谱网络结构中的两个顶点及一条边,使整个知识图谱呈现出复杂的网络结构。这种表示方法给知识图谱的应用带来了很多挑战:①计算效率较低,要利用网络结构的知识,一般需设计专门的图算法,图算法存在计算复杂度高、可扩展性差、运算时效性差等问题;②数据稀疏,大规模知识图谱遵循长尾分布,处于长尾部分的实体和关系面临严重的数据稀疏问题,涉及的实体和关系的计算往往准确率极低。
随着深度学习技术的发展,对知识图谱表示学习的研究也取得了长足的进步。表示学习旨在将知识图谱中的实体、关系表示为低维稠密向量,可以在低维空间高效计算实体和关系之间的语义联系,有效解决知识图谱数据稀疏问题,避免采用传统的特征工程等方法所带来的误差与运算负担,增强知识图谱应用的灵活性。
2.3.1 表示学习的基本概念
表示学习所得到的低维向量表示是一种分布式表示(Distributed Representation)。之所以如此命名,是因为孤立地看向量中的每一维都没有明确的含义。若综合各维度形成一个向量,则能够表示对应对象的语义信息。例如,将知识图谱中实体e和关系r表示为低维向量le和lr,在此基础上,可以通过欧氏距离或余弦距离计算任意两个对象之间的相似度。
2.3.2 表示学习的典型应用
通过将知识图谱中的实体或关系投影到低维向量空间,能够实现对实体和关系的语义信息表示,高效地计算实体、关系及其之间的复杂语义关联,对知识图谱的构建、推理与应用有重要意义。
由知识表示学习得到的分布式表示有以下重要应用:
①相似度计算。利用实体的分布式表示,可以快速计算实体之间的语义相似度,对自然语言处理和信息检索中的很多任务都具有重要意义。
②知识图谱补全。构建大规模知识图谱,需要不断地补充实体之间的关系。利用知识图谱表示学习模型可以预测两个实体之间的关系,一般称其为链接预测(Link Prediction),又称其为知识图谱补全(Knowledge Graph Completion)。
③其他应用。知识图谱表示学习已经广泛应用在关系抽取、自动问答、实体链接等任务中,并展现出了巨大的应用潜力。表示学习所得到的低维向量可以应用到很多深度学习模型中。
2.3.3 表示学习的主要优点
知识表示学习实现了实体和关系的分布式表示,主要具备以下优点:
①显著提升计算效率。传统的三元组形式的知识图谱表示方法必须设计专门的图算法来计算实体之间的语义联系及关系推理,计算复杂度高、可扩展性差。知识表示学习所得到的分布式表示,能够高效地实现语义相似度计算等操作,可显著提升计算效率。
②有效缓解数据稀疏。由于知识表示学习将实体和关系投影到低维向量空间,使得每一个对象对应一个稠密向量,从而有效缓解了数据稀疏的问题,主要体现在两个方面:第一,每一个对象对应的向量都是稠密且有具体数值的,可以度量任意两个对象之间的语义相似度;第二,在将大量对象投影到低维空间的过程中,高频对象的语义信息会对低频对象的语义信息有所帮助,从而可提升低频对象表示的准确性。
③实现异质信息融合。不同来源的异质信息需要融合为整体才能得到有效的利用,例如需要计算词、句子、文档与知识图谱中实体、关系之间的关联。知识表示学习可以将异质信息表示到统一的向量空间,实现异质信息之间的关联性计算。
2.3.4 表示学习的典型方法
2.3.4.1 距离模型
结构表示(Structured Embedding,SE)是较早的知识表示方法之一。在SE中,每个实体均用d维向量表示,所有的实体都被投影到同一个d维向量空间;SE为每个关系r定义两个矩阵Mr,1,Mr,2∈Rd×d,用于三元组中头实体和尾实体的投影操作;SE为每个三元组(h,r,t)定义损失函数为
SE将头实体向量lh和尾实体向量lt通过关系r的两个矩阵投影到r的对应空间后,在该空间计算两个投影向量的距离。这个距离反映了两个实体在关系r下的语义相关度,距离越小,语义相关度越高。
2.3.4.2 翻译模型
受词向量模型的启发,Bordes等人提出了TransE模型[69],将知识图谱中的关系看作实体之间的某种平移向量。对于每个三元组(h,r,t),TransE模型用关系r的向量lr作为头实体向量lh和尾实体向量lt之间的平移,也可以将lr看作lh和lt之间的翻译。因此,TransE模型也被称为翻译模型,即
lh+lr≈lt
TransE模型如图2-13所示。对于每个三元组(h,r,t),TransE模型定义损失函数为
图2-13 TransE模型
fr(h,t)表示向量lh+lr和lt之间的距离L1或L2。
2.3.4.3 深度神经网络模型
深度学习技术在知识表示学习中取得了长足的发展。Tim Dettmers提出了ConvE模型[70],使用2维卷积神经网络提取头实体向量lh和关系向量lr的特征,并将特征提取之后的结果连接一个多分类网络,将知识图谱中三元组之间的关系视作一个全实体空间的多分类问题。ConvE模型如图2-14所示。
图2-14 ConvE模型
总体来说,知识图谱表示学习具有重要意义。现有知识图谱的构建与应用主要依赖于离散符号表示。分布式表示学习为实体与关系语义信息的统一精确表示提供了可行方案。分布式表示学习将极大地推动知识的自动获取、融合与推理能力,从而实现知识图谱更加广泛而深入的应用。