第1章 图灵测试
故不登高山,不知天之高也。
不临深渊,不知地之厚也。
——荀子《劝学》
机器智能在自然语言理解(natural language understanding, NLU)和图像理解等方面接近或达到人类的水平,如何去评估它呢?计算机科学和人工智能之父、英国数学家、逻辑学家、密码分析专家艾伦·图灵(Alan Turing, 1912—1954)于1950年提出了一个著名的实验标准——图灵测试(Turing test)[2]。
图1.1 图灵与英国剑桥大学
由人类组成的评委会如果无法区分与之进行交流的是一台智能机器还是人类,那么我们有理由认为这台机器具有了人类的智能。双方通过电传设备交流,评委们并不知道电传设备的背后是机器还是人类。
图灵是一位强人工智能(strong AI)学者,他坚信人类能制造出具有真正智能的机器。很多学者持保留态度,认为机器只能做到弱人工智能(weak AI),在某些具体应用(如棋类游戏)上胜过人类,机器根本不可能具有人类的情感和真正的智能。
1980年,美国哲学家约翰·塞尔(John Searle, 1932— )在文章《心智、大脑与程序》中为反对强人工智能而提出名为“中文屋子”(Chinese room)的思想实验(thought experiment):有一个完全不懂中文、只会英语的人,在一个封闭的屋子里通过一本英文版的使用手册将输入的中文信息转化为中文输出,以至于让屋外的中文测试者无法判定屋内的人是否懂中文。塞尔认为,正如屋内的人无法通过手册理解中文,机器也无法通过程序获得真正的理解力,就更谈不上真正的智能了。
图1.2 塞尔
的确,中文屋子里的人不懂中文,但是和那本工具书一起所构成的整体,在屋外的人看来是理解中文的。屋外的测试者并不知道手册的存在,正常的中文交流在其感受中是真实存在的。也就是说,屋内那位不懂中文、只会操作手册的人和测试者之间的交流,在屋内的人那里是无意义的,在屋外的测试者看来是有意义的。我们知道,离开立场谈论“意义”是没有意义的。塞尔巧妙地偷换了立场,将屋内的结论强塞给屋外的测试者,这显然是不合逻辑的。
打个比方,在人类探测仪器永远触及不到的地方,断言那里有天使和没有天使对人类来说都是没有任何意义的。只有我们想象中无所不能的“上帝”,或者观察入微、洞悉未来的“拉普拉斯妖”(Laplace’s demon)知道那里有没有天使,人类还是永远探究不到答案。屋外的测试者不是“上帝”,也不是“拉普拉斯妖”,不可能透视中文屋子看到一切真相。“中文屋子”非但不能反驳强人工智能,反倒为如何理解机器智能提供了一个非常好的思想实验案例。
例1.1 与语言理解类似,在视觉方面,机器和人类之间也有巨大的差别。机器在测量上是精准的,人类视觉有时会犯一些低级的测量错误。
图1.3 中心的两个圆的实际大小是相同的,但看上去似乎右边的大一点。有时,人类的视觉欺骗人脑,基于精确测量的机器则不会犯这类错误。为了通过图灵测试,有必要让机器知道人类的弱点,在这种情况下故意犯错以蒙混过关
虽然机器视觉有精确的测量,但在图像理解方面却大大地弱于人类。有句俗话,“一图胜过千言万语”,图像理解比自然语言理解更难,图片中的物体及其关系等信息都是隐藏的,要表达出来还得先过语言理解这一关。所以,自然语言理解有可能是人工智能首个突破的领域。
图1.4 漫画抓住人物的主要特征,人一看就明白,如何让机器识别出这些特征?感知类的图灵测试对机器智能而言也是一个挑战
例1.2 请非常快速地阅读下面的文字。
研表究明,汉字的序顺并不一定会影阅响读。比如,当看你完这句话后,才发这现里的文字全是都乱的。
大脑有自动补全的功能,能够根据已有经验和知识自动纠偏,给出特定环境下对象的自洽(self-consistent)解释。其背后的原因可能是,大脑需要消耗更多的能量处理矛盾性(或不一致性)。因此,在有模糊性或不确定性的时候,大脑天生地偏向无矛盾性的结果、解释、反应等。
图1.5 (a)图中的白色正三角形看起来像是真实存在的。(b)(c)图中,周围环境诱使大脑自动纠偏,给文字图像一个自洽解释
站在不同的视角,用放大镜还是望远镜看待对象,可能会得出截然相反的结论。如果不能辩证地分析这个世界,认知必然是僵化的、局部的、模糊的、片面的。探讨人工智能的伦理也是如此,辩证法(dialectics)是必备的手段。
图1.6 宏观上(远看)是一个YES/NO,微观上(近看)是一群NO/YES。它到底是个啥?依赖于看它的距离——这就是辩证法,忽略大局和忽略细节都是选择性失明。有的时候,整体和局部并没有因果关系——那些由NO构成的宏观的YES,也可以是由众多微观的YES构成
古希腊哲学家柏拉图(Plato, 前427—前347)在《理想国》[3]第七卷里有一个著名的比喻,被称为“洞穴之喻”(allegory of the cave)。柏拉图借他的导师苏格拉底(Socrates,前470—前399)之口讲述了这个比喻。不懂得哲学思考的民众如同一直生活在洞穴里的人们,只能看到真实之物在墙壁上的投影,导致他们的认知是片面的、狭隘的、臆想的。如果有人勇敢地走出洞穴,看到了真实的世界,他再次回到洞穴讲述其所见所闻,会被已在里面习以为常的人们视为异端,无法得到理解。
图1.7 我们是不是被囚于洞穴却自以为是的人?只有挣脱传统思维的枷锁才能看到真相
图片来源:荷兰画家扬·萨恩雷丹(Jan Saenredam, 1565—1607)的《柏拉图的洞穴之喻》(1604)
如果人们愿意,还可以主动地从不同的角度观察这个世界。如图1.8所示,从三个不同的方向看,可以得到三个不同的答案。每个答案都有道理,但若不综合起来就得不到真相。例如,波粒二象性、主客观概率等,就是理解事物的不同视角。
图1.8 从不同的角度,所看到的实体呈现出不同的像。只有综合了所有的观察,想得更深入,才有可能了解全貌
图片来源:普利策奖获奖图书《哥德尔、艾舍尔、巴赫——集异璧之大成》[4]的封面
例1.3 两个没有共同语言的人通过机器翻译(machine translation)系统无障碍地交流,如果翻译机是隐藏着的,在外人看来,他们所有的表现显然是能听懂对方的语言。相反,如果翻译机是可见的,答案就要打个问号了。也就是说,判断依赖于翻译机是否可见。同理,在图灵测试中,判断者不可见“中文屋子”里发生的一切,只能从效果上下结论,屋内的人是否真懂中文,对屋外的人而言已经不重要了。
在人机交互中,何谓机器理解了人的语言?例如,在自动驾驶(autonomous driving, AD)这种受限的场景,机器对人的所有指令都做出正确的反应,我们可否认为它“听懂”了?假设孔乙己命令他的座驾撞向高速驶来的火车,坚决执行命令和抗命不从哪个行为更智能?对语言交流后果的预测,以及“三思而后行”是否应该作为伦理决策的模块加入到目前依旧冷冰冰的机器决策系统中来?