1.1 人工智能
1.1.1 什么是人工智能
通俗地讲,人制造出来的机器所表现出来的智能,就是人工智能(Artificial Intelligence,AI)。人工智能大致分为两大类:弱人工智能和强人工智能。弱人工智能是能够完成某种特定任务的人工智能,换个角度看,就是一种计算机科学的非平凡的应用。强人工智能或通用人工智能(Artificial General Intelligence,AGI),能表现正常人类所具有的各种智能行为。弱人工智能在翻译、下棋等具体任务上超越人类已不罕见,因此已在工业中广泛应用。强人工智能的实现难度较大,但近年来大语言模型(Large Language Models,LLM)的发展给强人工智能带来了一线曙光。本书重点关注面向弱人工智能的计算系统,也兼顾强人工智能所需的计算系统的研究。
1.1.2 人工智能的主要方法
人工智能按研究学派主要分为三类,包括行为主义(behaviorism)、符号主义(symbolism)、连接主义(connectionism)。
1.1.2.1 行为主义
行为主义的核心思想是基于控制论构建感知-动作型控制系统。1943年,A.Rosen-blueth、J.Bigelow、N.Wiener提出所有有目的的行为都需要负反馈[1]。1948年,N.Wiener在《控制论》(Cybernetics)[2]中提出控制论是研究动物和机器的控制与通信的科学,并讨论了用机器实现国际象棋的可能性。同时期的W.Ashby也探讨过人工智能机器的可能性,并在《大脑设计》(Design for a Brain)[3]中阐述了利用包含适当反馈环路以获取稳定适应行为的自平衡设备来创造智能。通过控制论实现人工智能的可能性,在20世纪50年代引起人工智能研究者的关注。在C.Shannon和J.McCarthy征集出版的《自动机研究》(Automata Studies)[4]中有很多控制论方面的研究工作,涉及有限自动机、图灵机、合成自动机,希望基于控制论构建一些感知动作的反应性控制系统。同样在20世纪50年代,R.Bellman发表了论文“A Markovian Decision Process”(一种马尔可夫决策过程)[5],奠定了强化学习的理论基础。在强化学习中,智能体对环境的状态进行观察,并根据观察和自身的策略做出相应的动作,而环境则根据智能体的动作所产生的影响给予智能体一定的奖励或者惩罚,以此来影响智能体的动作决策。比如在围棋比赛中,比赛胜利就会得到奖励,而比赛失败则会得到惩罚。从比较直观的角度看,行为主义方法可以模拟出类似于小脑这样的人工智能,通过反馈来实现机器人的行走、抓取、平衡,因此有很大的实用价值。但是,这类方法似乎并不是通向强人工智能的终极道路。
1.1.2.2 符号主义
符号主义是基于符号逻辑的方法,用逻辑表示知识和求解问题。其基本思想是:用一种逻辑把各种知识都表示出来;当求解一个问题时,就将该问题转变为一个逻辑表达式,然后用已有知识的逻辑表达式的库进行推理来解决该问题。
在各种符号逻辑中,最常见或许也是最简单的是命题逻辑(propositional logic)。在具体演算过程中,命题逻辑只需要考虑与、或、非三种操作,以及0、1两种变量取值。命题逻辑的表达能力很弱,连“不是所有的鸟都会飞”这样的知识都无法表示[6]。因此,逻辑学家们引入了谓词和量词,形成了谓词逻辑(predicate logic)来加强表达能力。量词包括“存在”(∃)和“任取”(∀)两种;谓词则是一个函数,它以其定义域中的实体作为输入,以0、1作为输出。例如,可以用∀x表示“任意一只鸟”,用谓词B(x)表示“x是一只鸟”,用谓词P(x)表示“x会飞”。“不是所有的鸟都会飞”可以表示为¬(∀x(B(x)→P(x)))。谓词逻辑还可以进一步分为一阶逻辑和高阶逻辑。一阶逻辑的量词不能作用在谓词之上,高阶逻辑的量词还可以作用于谓词之上。
符号主义是人工智能研究发展之初最受关注的方法。在20世纪,学术界普遍认为符号主义是通向强人工智能的一条终极道路。但通过60多年的探索,符号主义展现出一些本质性的问题:
(1)逻辑问题。从逻辑的角度,难以找到一种简洁的符号逻辑体系来表述出世间所有的知识。例如,普通的谓词逻辑无法方便地表示时间、空间、概率等信息。A.Pnueli提出了时态逻辑(Temporal Logic,TL),即在一阶逻辑上加入时间,并因此获得了1996年的图灵奖。但是TL还不能方便地表述对不确定的未来的判断,因此E.Clarke等人进一步提出了计算树逻辑(Computation Tree Logic,CTL),即把时间建模成一个树状结构,而树的每条路径都是历史发展的一种可能性。Clarke等人也因此获得了2007年图灵奖。可以看出,仅仅表述时间相关的信息就已经很不容易。迄今为止,学术界为了表述知识,已经发明了成百上千种逻辑。但今天我们依然还没有一种公认的大一统逻辑来表述所有的知识。
(2)常识问题。人类在做判断决策时,往往基于大量的常识。例如,当有人说他在家里阳台上欣赏落日时,我们根据常识能判断出他一定是在西边的阳台上。而世间的常识数不胜数。20世纪七八十年代广泛研究的专家系统,希望在特定领域把领域内的常识都用逻辑表达式记录下来。但即便是一个领域,其中的常识也太多了。迄今为止,研究者还没能把一个实用领域中的所有常识都用逻辑表达式记录下来。
(3)求解器问题。在符号主义中,解决问题的关键环节是逻辑求解器。它负责根据已有的知识来判断问题对应的逻辑表达式是否成立。但是,逻辑求解器的时间复杂度非常高。即便是最简单的命题逻辑,它的求解也依然是NP完全的(事实上,命题逻辑的可满足性判断问题是第一个被证明为NP完全的问题)。而各种谓词逻辑一般都是不可判定的,也就是理论上不存在一种机械方法能在有限时间内判定任意一个谓词逻辑表达式是否成立。
由于上述原因,符号主义在工业上实用的成功案例很少。如果从国际人工智能联合会议(IJCAI)收录的论文数量看,现在在整个人工智能学术界,研究符号主义的学者的数量远少于10%[1]。
我们认为,符号主义最本质的问题是只考虑了理性认识的智能。人类的智能包括感性认识(感知)和理性认识(认知)两个方面。即便人类自己,也是一步步从底层的感知智能开始,像动物一样识别各种物体、气味、声音,产生本能反应,然后才在此基础上产生了生物界中独一无二的复杂语言,进而产生文字,再进而产生数学和逻辑,最终形成认知智能。符号主义跳过前面这些阶段,直奔逻辑,难免遇到巨大的阻碍。但我们依然相信,在未来通往强人工智能的道路上,符号主义方法会和其他方法融合,发挥重要作用。
1.1.2.3 连接主义
人类大脑是我们迄今已知最具智能的物体。它基于上千亿个神经元细胞连接组成的网络,赋予人类思考的能力。连接主义方法的基本出发点是借鉴大脑中神经元细胞连接的计算模型,用人工神经网络来拟合智能行为。
事实上,连接主义方法并不是完全照抄人类的大脑,因为生物的大脑非常复杂,即便是一个神经元细胞也很复杂。如图1.1所示,一个神经元细胞包括细胞体和突起两部分,其中细胞体由细胞膜、细胞核、细胞质组成,突起有轴突(axon)和树突(dendrite)两种。轴突是神经元长出的一个长而且分支少的突起,树突是神经元长出的很多短而且分支多的突起。一个神经元的轴突和另外一个神经元的树突相接触,形成突触[2]。
图1.1 生物神经元细胞(上)和人工神经元(下)
人工神经网络则对生物的神经元细胞网络进行了大幅度的抽象简化,把每个细胞体的输出、每个突触强度都抽象成一个数字。具体来说,图1.1中的一个人工神经元可以从外界得到输入x1,…,xn,每个输入有一个突触的权重w1,…,wn,对神经元的输入进行加权汇总之后,通过一个非线性函数得到该神经元的输出。
连接主义方法肇始于1943年。心理学家W.McCulloch和数理逻辑学家W.Pitts通过模拟人类神经元细胞结构,建立了M-P神经元模型(McCulloch-Pitts neuron model)[7],这是最早的人工神经网络。此后60余年里,通过F.Rosenblatt(感知机模型)、D.Rumelhart(反向传播训练方法)、Y.LeCun(卷积神经网络)、Y.Bengio(深度学习)、G.Hinton(深度学习和反向传播训练方法)等学者的不懈努力,连接主义逐渐成为整个人工智能领域的主流研究方向。
目前,深度学习等方法已广泛应用于图像识别、语音识别、自然语言处理等领域,产生了换头换脸、图像风格迁移等有意思的应用,甚至在围棋和《星际争霸》游戏中战胜了人类顶尖高手。此外,大模型在问答、搜索、多模态等领域表现出色,彻底改变了当前的人机交互模式,并且伴随着插件、记忆、反思、制造和使用工具等功能的提出,在各种规划推理任务上的表现也迅速提升,能在虚拟小镇中通过智能体之间的对话涌现有意思的现象,以及在《我的世界》游戏中不断地自动学习新的技能。目前围绕深度学习技术,已经逐渐形成了万亿级别的智能产业,包括智能安防、智能教育、智能手机、智能家电、智慧医疗、智慧城市、智慧工厂等。本书重点介绍的也是面向深度学习的智能计算系统。
但是,我们必须清醒地认识到,深度学习不一定是通向强人工智能的终极道路。它更像是一个能帮助我们快速爬到二楼、三楼的梯子,但顺着梯子我们很难爬到月球上。深度学习已知的局限包括:
(1)泛化能力有限。深度学习训练需要依靠大量的样本,与人类的学习机理不同。人类在幼儿时期会依据大量外在数据学习,但是成年人类的迁移学习能力和泛化能力远高于现在的深度学习。
(2)缺乏逻辑推理能力。缺乏逻辑推理能力使得深度学习不擅长解决认知类的问题。如何将擅长逻辑推理的符号逻辑与深度学习结合起来,是未来非常有潜力的发展方向。即便是最新的GPT-4这样的大模型,在很多逻辑推理问题上依然存在幻觉等问题,表现欠佳。
(3)缺乏可解释性。在比较重视安全的领域,缺乏可解释性会带来一些问题。比如,某个决策是如何做出来的?深度学习为什么识别错了?
(4)鲁棒性欠佳。在一张图像上加一些人眼很难注意到的点,就可以让深度学习算法产生错误判断,例如把猪识别成猫,把牛识别成狗。
1.1.3 人工智能的发展历史
人工智能的萌芽至少可以上溯到20世纪40年代。例如,1943年W.McCulloch和W.Pitts提出了首个人工神经元模型[7],1949年D.Hebb提出了赫布规则[8]来对神经元之间的连接强度进行更新。但人工智能概念的正式诞生则要等到1956年的达特茅斯会议[9]。自那以后,人工智能60多年的发展历史几起几落,经历了三次热潮,但也遇到了两次寒冬(如图1.2所示)。
1.1.3.1 第一次热潮,1956年至20世纪60年代
1956年夏天,J.McCarthy、M.Minsky、N.Rochester和C.Shannon等发起了为期2个月的10人参与的达特茅斯人工智能研讨会。该会议认为,如果学习或智能的各种特征可以被精确描述,就可以用一台机器来模拟智能,并尝试让机器使用语言、形成抽象概念、解决人类才能解决的各种问题,甚至自我完善[10]。这次会议的参会者有多人后来获得了图灵奖(包括J.McCarthy、M.Minsky和H.Simon等)。
由于参会者大多有着深厚的逻辑研究背景,达特茅斯会议驱动的第一次人工智能热潮是以符号逻辑为主要出发点的,也就是后来所谓的符号主义。理论上说,如果我们能用某种符号逻辑表示已有知识和要解决的问题,那么通过逻辑问题求解器就可以解决各种智能任务。秉承这个思路,A.Newell和H.Simon在达特茅斯会议上展示了推理计算机程序——逻辑理论家,该程序后来证明了很多数学定理。除此之外,第一次热潮还涌现出了几何定理证明者、国际象棋程序、跳棋程序、问答和规划系统等有一定影响力的成果。除了符号主义之外,连接主义在第一次人工智能热潮中也有所发展。该时期F.Rosenblatt提出了感知机模型[11-12],这一神经网络模型受到了当时很多研究者的关注。
图1.2 人工智能发展历史
在第一次热潮的初期,人工智能研究者对未来非常乐观。1957年H.Simon就提出:“现在世界上已经有机器可以思考、可以学习、可以创造。它们的能力将迅速提高,处理的问题范围在可见的未来就能延伸到人类思维应用的范围。”他还预测计算机将在10年内成为国际象棋冠军,而40年后IBM的深蓝系统才成为国际象棋冠军[13]。由于研究者发现人工智能发展的难度远远超过了当初的想象,很快人工智能的第一次热潮就退去,进入了长达10余年之久的第一次寒冬。
1.1.3.2 第二次热潮,1975年至1991年
人工智能第二次热潮到来的标志性事件是1982年日本启动了雄心勃勃的五代机计划,计划在10年内建立可高效地进行符号推理的智能计算系统。国际上还出现了一批基于领域知识和符号规则进行推理的系统,并有了一些较为成功的案例,包括医学领域的MYCIN和CADUCEUS。有的专家系统甚至在商业中发挥了实际作用。例如,DEC的专家系统R1可以按照用户的需求,为VAX型计算机系统自动选购软硬件组件。20世纪80年代中期,连接主义的神经网络方法也迎来了一次革命。反向传播学习算法[14]的提出,使得神经网络重新成为研究的焦点,成为与符号主义并驾齐驱的连接主义方法。
20世纪80年代末,人工智能开始结合数学理论,形成更实际的应用。隐马尔可夫模型(Hidden Markov Model,HMM)开始用于语音识别,提供了理解问题的数学框架,有效应对实际应用;信息论用于机器翻译;贝叶斯网络(Bayesian network)用于非确定的推理和专家系统,对非确定性知识提供了有效的表示和严格的推理。
应该说,在第二次热潮中,符号主义依然是旗手。无论是日本五代机使用的Prolog,还是专家系统MYCIN使用的LISP,其核心还都是符号逻辑的推理。但是,研究者逐渐发现,符号主义方法存在很多难以克服的困难,例如缺乏有足够表示能力同时又比较简练的逻辑,以及逻辑问题求解器的时间复杂度极高等。另一方面,连接主义方法(如神经网络)也没有找到真正落地的杀手级应用。随着1991年日本五代机计划的失败,第二次热潮退去,人工智能跌入了长达近20年的第二次寒冬。
1.1.3.3 第三次热潮,2006年至今
2006年,G.Hinton[3]和R.Salakhutdinov在Science上撰文指出,多隐层的神经网络可以刻画数据的本质属性,借助无监督的逐层初始化方法可以克服深度神经网络训练困难的问题[15]。业界广泛认为,这篇论文吹响了深度学习(多层大规模神经网络)走向繁荣的号角[4],开启了人工智能第三次热潮。2012年,A.Krizhevsky、I.Sutskever和G.Hinton提出了一种新颖的深度学习神经网络——AlexNet[16],成为2012年ImageNet大规模视觉识别比赛(ImageNet Large Scale Visual Recognition Competition,ILSVRC)的冠军,从此深度学习得到了业界的广泛关注。随着数据集和模型规模的增长,深度学习神经网络的识别准确率越来越高,在语音识别、人脸识别、机器翻译等领域应用越来越广泛。2016年,谷歌DeepMind团队研制的基于深度学习的围棋程序AlphaGo战胜了人类围棋世界冠军李世石,进一步推动了第三次热潮的发展,使得人工智能、机器学习、深度学习、神经网络这些词成为大众的关注焦点。2022年11月,OpenAI的研究人员提出了ChatGPT,该模型的参数量约为1750亿,训练语料超过45 TB,具有可以回答各种开放性问题的能力,并且回答风格非常像人,在文本生成、信息提取、多语种翻译、自动写代码等任务上表现非常惊艳,使深度学习大模型受到各行各业的广泛关注。OpenAI于2023年3月发布了GPT-4,其表现更优于ChatGPT,并且是一个多模态模型,能同时接收图像输入和文本输入。微软的研究人员在对GPT-4进行详尽的实验后表示,它或许是强人工智能的雏形。
第三次热潮中的人工智能与达特茅斯会议时已经有显著的区别,连接主义成为压倒性的主流。而60多年前达特茅斯会议上最核心的符号主义方法,却已经少有研究者关注。