图数据库原理、架构与应用
上QQ阅读APP看书,第一时间看更新

1.1.1 被遗忘的艺术:图思维方式I

在前言中,我们提到了一个大胆的想法和对未来的预测:图数据库技术是AI走向强人工智能的必经之路和重器。因为图数据库(含知识图谱)最大限度地还原(模拟)了人的思维和思考方式。

那么,人类是如何思考的呢?

显然,这是一个没有标准答案(或者说很难形成共识)的问题。有人说大多数人是线性思考的;也有人说是非线性思考的;还有人说是聚焦型思考、发散型思考的,或两者、多者兼而有之。如果我们把这个问题提炼成一个数学问题,并用数学的语言来描述它,可以说,人类在本质上是用图的方式来思考的。我们身处的世界是高维的、关联的、不断延展的,从来到这个世界到离开它的那一刻,我们一直在与这个世界互动——我们每时每刻都会接触很多实体(一个个人、一件件事、一条条新闻或旧闻、一个个知识点、一本本书,甚至一缕缕情绪),这些实体都存储在我们的大脑(记忆)中。人脑很像一台设计精密的计算机,当我们需要从中抽取一条信息、一个知识点的时候,可以快速地定位并获取它。而当我们发散思维的时候,会从一个知识点或多个知识点出发,沿着知识点之间关联的路径、网络遍历、搜索,抽丝剥茧得到一条条路径或一张张小网,形成相互交织的信息网络。人类思维有无远弗届的能力。什么是“无远弗届”?即没有思绪到不了的地方,这其实是一种超深度的图关联、图遍历、图搜索的能力。早在20世纪40年代,社交网络的概念还没有发明出来之前,研究人员就已经试图用图网络的模型来描述和解释大脑的运作机制,如图1-1所示。

图1-1 用图网络的模型来解释大脑的运作机制

当我们需要对任意一个知识点进行详细描述的时候,可以赋予它很多属性,知识点之间的关联关系同样也可以带有属性,通过这些属性可以加深对每一个知识点、每一条关系的理解。例如,我们从小到大填写了很多家庭关系表,如爸爸、妈妈、兄弟姐妹、祖籍、年龄、性别、单位、联系方式、教育程度等。在我们填这些表的时候,实际上调用的是一张“家庭关系子图”,主要节点有爸爸张三、妈妈李四、哥哥张小五、姐姐张小六等,每个节点都会有一些属性,如年龄、电话号码,当然还有一个不言而喻的节点是自己——张小七(小七也有自己的属性,如籍贯、性别等),它会指向所有的近亲,关系名称为爸爸、妈妈……显然这张图可以以一种迭代的方式延展,如果聚焦在爸爸节点上,他的近亲关联图谱又包含他的父母、兄妹等,以此类推。

这些实体与关系组成的网络,我们称之为图。当这种网络图中的点、边带有一些属性,可以帮助我们进行信息的筛选过滤、聚合或传导计算的时候,我们称之为属性图。

可以用带有属性的图来表达世间一切事物,无论它们是关联的还是离散的。当事物是关联的时候,它们形成一张网络;而当它们是离散的时候,就是这些事物(节点)罗列的一张表,就像关系型数据库的表中的一行行数据(这里要表达的要点是:图是高维的,高维可以向下兼容并表述低维空间的内容,反之则不成立。或者说用低维的关系型数据库来表达高维的图极其困难,通常会事倍而功半甚至无功而返。后面的章节会具体分析为什么关系型数据库在处理一些复杂的场景时会存在严重的效率问题)。

图的这种表达方式和人类大脑神经元网络存储与认知事物有极大的相通性。我们总是不断地在关联、发散、再关联、再发散。当我们需要定位并搜索某个人或事物的时候,找到它并不代表搜索的结束,而常常是一连串搜索的开始。例如我们进行举一反三式的发散思维的时候,相当于在图或网络上进行某种实时过滤或动态遍历搜索。当我们说一个人上知天文下知地理的时候,当我们在“旁征博引”的时候,我们似乎让思绪从一张图跳到了另一张图上。而我们的大脑存储了很多张图,这些图或联动或互动,根据需要随时提供服务。如果在图数据库上可以实现人脑同样的运作方式,那么有什么理由不相信图数据库就是终极的数据库呢?当然,前提是我们得在这一点上达成共识:人脑就是终极的数据库。我们甚至可以说,在强人工智能实现之前,让图数据库先成为终极的数据库或许是一条必经之路。

举个例子,脑海中想你最喜欢的一道菜——红烧肉,你是怎么想到它的?按照现代Web搜索引擎技术,输入“红”字,推荐出“烧”字,再输入“烧”字,推荐出包含“红烧肉”字样的列表——或许人类的大脑并不是严格意义上用了这种倒排索引的搜索技术,但是这并不重要,因为定位到“红烧肉”只是我们的一个起点,在图思维方式中,如何延展到后续的诸多节点才是关键。从红烧肉开始,你或许会想到湖南红烧肉、东坡肉、苏东坡、宋词、李清照、岳飞、文天祥……所谓举一反三,大抵如此。当我们的思绪定位在某一个知识点的时候,只要我们想,它就可以一步步地关联下去——从红烧肉到湖南红烧肉是一个细化分类的一步关联操作,从湖南红烧肉到苏东坡也是如此。以此类推,上面例子中的一连串联想实际上是一个在图数据库(或知识图谱)中不断关联(属性图过滤或剪枝)操作的过程。

在图1-2中,从坦博拉火山爆发到滑铁卢之役、自行车发明、印象主义的诞生,凡此种种的跨越时空的“蝴蝶效应”揭示了万物皆关联的本质。直面大脑是如何思考的这类问题最直接的回答就是——我们天然使用的是图的思维方式!

图1-2 从火山爆发延展出的蝴蝶效应

我们学到的每一个知识点都不是孤立的,这些与日俱增的知识点构建起了庞大的知识网络,让我们随时可以从中抽取、归纳、整理、推导和关联。人类历史上所有的智者、文豪、天才、贩夫走卒、路人甲乙,他们每一次惊世骇俗的灵光乍现或平常之极的循规蹈矩都是用图的思维在实践。灵光乍现是因为在图思维的道路上延展得更深、更广、更快;循规蹈矩只是在图思维上走得太浅。太容易被别人看懂,太容易形成共识和被预测,就会被定义为“循规蹈矩”甚至缺乏创新。

为了更好地说明问题,我们以《三字经》为例来分析一下人是如何以图的方式阅读思考的(见图1-3)。

图1-3 传统启蒙读物《三字经》中“孟母三迁”的故事

读到“昔孟母,择邻处”这句话时,短短的6个字在我们脑海中形成一张简单的网络(图),其中包括孟母、孟子的形象,并从孟母与孟子之间的母子关系发散、推导到更多关联的实体,最终形成一张“显而易见”的多步关联图谱,如图1-4所示(对于那些初次接触《三字经》或孟母故事的读者,了解一个个知识点的过程就是构造关联知识图谱的过程,一旦图谱形成,就可以像调用图数据库一样随时对所存储的图谱进行查询与分析)。

图1-4 由孟母三迁推演出“择邻(教育环境)处”的决策路径

类似地,“融四岁,能让梨”的历史名人故事(图1-5),在我们的脑海中也是以一张简单的图的形式存在的。我们无时不在将每个文字、每个词组关联、发散、再关联……从孟母择邻处的故事中,我们的大脑推演出了很多字面上没有直接表达的内容,从孟母的居所选择分化出:好邻居与坏邻居、上进子女与厌学子女……这种推演让我们从逻辑层面清晰地理解了孟母“择邻处”的决策。而孔融让梨的故事则是一种图上的行为模式的对比分析:4岁的孔融与4岁的普通孩子,如图1-6所示,由此或可引出中国人的一句老话:三岁看小,七岁看老。

图1-5 传统启蒙读物《三字经》中“孔融让梨”的故事

图1-6 孔融4岁与普通孩子4岁

我们再来看一个《三字经》中的例子:“有古文大小篆,隶草继不可乱”(图1-7),从大篆到小篆,再到隶书、草书,中国书法史的沿革与脉络清晰可见。

图1-7 《三字经》中的汉字演变

每一种书法的时代特征(肇始、鼎盛、衰落、中兴、延续)以及它们各自的代表人物、作品,这是一张可以无限延展的网络,但是当我们聚焦并把延展的幅度限定得很小的时候,可以得到如图1-8所示的一张小图谱。

图1-8 图解书法演变历程

在本质上,每一张网络都是一张图。每一个人的脑子里都装满了图,要善于利用图去思考、发散、归纳总结。如果一张图不能解决问题,那就再加一张!