1.2 人机交互与人工智能
人机交互与人工智能是智能信息时代备受关注的两大重要研究领域。通过人机交互与人工智能发展历程可以发现,二者的关系从过去的此起彼伏逐渐变成了当下的相互促进,基于二者深度融合的典型应用也在教育、医疗等关键领域不断涌现。人机交互为人工智能提供了应用需求和研究思路,而人工智能也驱动了人机交互技术的发展和变革。放眼未来,人机交互与人工智能将保持当下这种相互促进、相互驱动的关系,从而更加深入地融合并协同发展。
1.2.1 交替沉浮的历史
人工智能(Artificial Intelligence,AI)最早出现在1956年召开的达特茅斯“人工智能夏季研讨会”上。参加这次研讨会的人员多数是当时著名的数学家和逻辑学家,包括达特茅斯学院的约翰·麦卡锡(John McCarthy)、哈佛大学的马文·明斯基(Marvin Minisky)、IBM的纳撒尼尔·罗彻斯特(Nathaniel Rochester)和贝尔电话实验室的克劳德·香农(Claude Shannon)等。他们被认为是人工智能领域的开拓者。人工智能概念一经提出,就被当时的人们赋予了很高的期望。1960年,诺贝尔奖获奖者、人工智能先驱之一赫伯特·西蒙(Herbert Simon)写道:“机器在20年内将可以从事任何人类可以从事的工作。”1970年,马文·明斯基(Marvin Minisky)写道:“我们将在3~8年的时间内拥有一台达到人类平均智力水平的具有通用智慧的机器,它可以阅读莎士比亚的作品,给汽车添加润滑油,玩弄办公室政治,讲笑话或者吵架。机器会以不可思议的速度自我学习,并在几个月后达到天才的水平并拥有不可估量的能力。”不难看出,当时的研究人员对人工智能发展的期望是构建能复制或超越人类行为和智慧的智能体。这样雄心勃勃的愿景,使得对人工智能的研究备受各方关注和经费支持,迅速成为一个初具规模的研究领域。
人机交互可以说是伴随着计算机的诞生而出现的。它的科学起源可以追溯到1960年约瑟夫·利克莱德(J.C.Licklider)发表的一篇名为《人机共生》(Man-Computer Symbiosis)的文章[2],其中提到人应与计算机进行交互并协作完成任务。然而,在当时人工智能如火如荼的时代,人与计算机交互中的相关问题似乎显得有些微不足道。比如怎样优化界面布局、命令名称、文字编辑器等。人们更愿意相信即将出现的智能机器能解决包括这些问题在内的所有问题。尽管大环境如此,还是有极少数的实验室和一些研究人员专注于人机交互的研究。比如在1963年,MIT的博士生伊凡·苏泽兰特(Ivan Sutherland)在其博士论文中提出一种崭新的交互技术“SketchPad”,其中就涉及了很多与界面相关的概念,包括第一个图形用户界面的雏形。这项技术被认为对后来人机交互技术的发展起到重要推动作用,尤其是在图形用户界面发展方面取得突破性进展。他也因此获得了1988年的图灵奖。1971年,温伯格(Weinberg)的著作《计算机编程心理学》是人机交互领域研究重要的心理学基础。然而,该著作局限于针对当时那些能够操作昂贵机器的程序员,而非广大的普通用户。可以说,人机交互在人工智能的第一次热潮中萌芽并缓慢发展。在之后相当长的一段时期内,两个领域的发展呈现交替浮沉的规律,即在一方发展迅猛的时候,另一方相对沉寂,反之亦然。这种规律实则体现了两个领域在经费、人力等资源上的竞争关系[3]。
1973年,詹姆斯·莱特希尔(James Lighthill)向英国科学研究委员会提交报告,介绍了人工智能研究的现状。他认为:“迄今为止,人工智能在各领域的发现并没有带来像预期一样的重大影响。”这个报告最终导致政府对人工智能研究的热情迅速下降,成为人工智能第一次寒冬开始的标志。人工智能的研究者因为设定的目标过高而陷入窘境。他们错误地估计了为实现自己设定的目标所需要付出的努力。冷静下来后,人们自然想到的问题是怎样才能让人工智能更加实用。1977年,《人工智能》期刊发表了一篇由人工智能和早期人机交互研究者共同署名的文章,讨论了自然语言理解领域中的“可用性”问题[4]。在某种意义上,这篇文章成为当时人们思想转变的代表性标志:如何让人工智能变得实用?在紧接着的10年里,人机交互迅速发展。一批具有巨大影响力的人机交互实验室建立,推动了ACM SIGCHI(ACM人机交互研究兴趣组)于1982年成立。加州大学圣地亚哥分校的唐·诺曼(Don Norman)教授在20世纪70年代和80年代在人工智能论坛上发表了与人机交互相关的研究工作。事实上,70年代中后期,人工智能的第一次寒冬成就了人机交互发展的第一个黄金时期。
1981年,日本国际贸易和工业部向“第五代计算机”项目投入8.5亿美元。该项目的目标是开发出可以对话、翻译并像人一样推理的计算机。这个事件又将人工智能推到风口浪尖,使其进入第二次热潮。美国和欧洲多个国家相继投入大量经费。尽管研究的内容还是像第一次热潮一样,以逻辑表达和启发式搜索为代表,但人们这次明显要谨慎很多。比如,在这次人工智能热潮中,“人工智能”这个词语相对来说被使用的频率并不高,更多被提到的是“智能知识系统”“专家系统”“知识工程”“医疗诊断”等。人们的目标由最初的“通用智慧”逐渐降低到“领域智慧”,更多地希望人工智能能真正解决特定领域的一些难题。然而,以符号为主的表达与推理还是离现实世界太远,难以真正解决现实世界的实际问题。我们很少能够看到这些专家系统取代医生或者其他领域专家,不过这些研究依然为我们提供了有用的技术,并在生产管理与决策优化中得到一些应用。
在20世纪80年代的人工智能热潮中,人工智能研究人员和主流的媒体认为,语音和语言理解将会成为未来人与计算机沟通的主要渠道。虽然图形用户界面在1985年,发布的Macintosh电脑中大获成功,但这些进展依旧无法跟人工智能宏伟的愿景相提并论。1982年,ACM SIGCHI成立,次年召开了第一届ACM CHI(ACM International Conference on Human Factors in Computing Systems)会议。尽管ACM是主要赞助方之一,但初期的ACM CHI却鲜有计算机科学家参加,更多的是认知心理学家和人因工程师。1985年,GUI成功的商业化使得基于GUI的研究不必再基于昂贵的计算机,极大扩展了人机交互相关研究的空间,也因此吸引了大量的计算机科学家参加ACM CHI。与此同时,人机交互和人工智能开始出现了一些融合的迹象。人机交互吸引了一些致力于研究如何辅助用户更好地使用工具的人工智能学者,包括当时在加利福尼亚大学圣地亚哥分校和海军研究办公室的吉姆·霍兰(Jim Hollan)。其建模和可视化的早期成果发表在人工智能会议[5]上。还有格哈德·菲舍尔(Gerhard Fischer)专注于教练系统和评论系统,其研究成果同时发表在人机交互和人工智能会议上[6]。越来越多的人机交互文章涉及当时流行的人工智能技术,比如建模、自适应界面等。政府也对“Usable AI”的概念非常感兴趣,资助了不少研究语音系统、专家系统和知识工程的项目。
人工智能在20世纪80年代末再次因为没有做出实际能够落地的成果而陷入低谷。从人工智能主流会议AAAI的参会人数可见一斑。1986—1988年,AAAI参会每年4000~5000人,1990年降到3000人,1991年不足2000人,后来相当长一段时间稳定在1000人左右。另一方面,人机交互进入了又一个黄金时期。很多学校的计算机系将人机交互列入核心课程,并聘用人机交互教员。人机交互毕业生人数也大幅上升。不少之前在人工智能领域的研究人员开始在ACM CHI上发文章,包括推荐系统的研究人员麻省理工学院的佩蒂·梅斯(Patti Maes)[7]、密歇根大学的保罗·瑞斯尼克(Paul Resnick)[8]、明尼苏达大学的乔·康斯坦(Joe Konstan)[9]等,以及语音识别的研究人员莎伦·奥维亚特(Sharon Oviatt)[10]和机器学习的研究人员埃里克·霍维茨(Eric Horvitz)[11]。这一时期,ACM CHI的投稿数量和参与人数均在稳步上升。
1.2.2 相互驱动的当下
在经历了人机交互与人工智能的两次大起大落之后,人们不再抱有让计算机的能力全面超过人类这种在当前技术条件下不太可能实现的幻想,转而更加注重真正能够落地的更实际的研究工作。这种转变造成的结果就是人工智能领域逐渐分化为以概率模型和随机计算为基础的五大相对独立的学科方向,包括计算机视觉、自然语言理解、认知科学、机器学习和机器人学。关于通用人工智能,即在各个方面都能达到或超过人类水平的智能体的呼声越来越少,而针对特定场景和任务的人工智能研究取得了很大的进展和成功。在图像和语音识别方面,机器已经达到了普通人类的水平;在棋类游戏方面,1997年深蓝在国际象棋上、2017年AlphaGo在围棋上均已经击败了当时最顶尖的人类棋手。这些方面的进展大大驱动了人机交互的发展。以图形用户界面和键盘、鼠标等直接操控设备为主流的人机交互方式很难使人与计算机实现如同人与人之间那样高效自然的交互,而语音识别、手势识别、语义理解、大数据分析等人工智能技术能帮助计算机更好地感知人类意图和用户状态,增强人机之间的交互带宽,使计算机更“懂”用户,实现以人为中心的计算和自然的交互。可以说,人工智能的发展不断驱动着人机交互由传统方式向更智能、更自然的方式发展[12]。
与此同时,人机交互同样驱动着人工智能的发展。机器学习先驱迈克·乔丹(Michael Jordan)提出“人工智能最先获得突破的领域是人机对话,更进一步的成果则是能帮助人类处理日常事务甚至做出决策的家庭机器人”。人机对话的需求推动了相关人工智能技术的研究与发展,例如苹果的Siri、微软的小冰、谷歌的Google Home、亚马逊的Echo等,都是为了解决传统人机对话方式低效不自然的问题而催生的人工智能应用。当前,以图形用户界面为主流的人机交互方式依然面临着交互带宽不足、交互方式不自然等局限,要解决这些交互中的挑战,需要在情境感知、意图理解、语音和视觉等方面取得更大的突破。这些来自人机交互的需求也在不断驱动着人工智能的发展与进步。
近年来,人机交互与人工智能的融合达到了空前高度。专注于人机交互+人工智能的期刊和会议越来越多,论文数量和影响力不断提升。第一届ACM IUI(Intelligent User Interfaces,智能交互领域主流国际会议)在1993年召开(1997年召开第二届,之后每年一届),专注于利用最新的人工智能技术,包括机器学习、自然语言处理、数据挖掘、知识表达与推理等提高交互的效率和体验。IUI的投稿数量在2018年达到了历史最高水平(371篇)。另外,“Usable AI”会议也从2008年开始举办,目的是填补人机交互和人工智能系统设计的鸿沟,使得人工智能的成果能够真正用到人们日常使用的系统中。同时,ACM也创立了专注于智能交互系统的期刊TiiS(Transactions on Interactive Intelligent Systems),并得到了学术界和业界广泛的关注和认可。各大科技公司也先后启动了相关项目,包括谷歌的“Human-Centered Machine Learning”、IBM的“Human Machine Inference Networks”、华为的“Intention Based UI”等,旨在通过研究人工智能和人机交互的融合方法,将人工智能技术变得更加可靠,同时将人机交互变得更加自然和方便。
在早期,我国学者在人机交互领域做了许多研究工作,如语音交互、笔/手势交互、多通道感知、行为理解等,均取得了一定的成果。由北京大学、杭州大学和中国科学院软件研究所三家单位合作承担的国家自然科学基金重点项目“多通道用户界面研究”(1995—1997),是我国学者首次对多通道用户界面进行的系统性研究工作,对多通道用户界面的模型、描述方法、整合算法、开发环境、评估等方面都进行了一定的探索并取得了基础性的研究成果[13]。除此以外,中国科学院软件研究所、中国科学院计算技术研究所、清华大学等单位在笔式人机交互、智能界面、自然语言交互等方向也都做了大量工作[14-17]。2011年11月的《中国计算机学会通讯》“人机交互”专题围绕自然人机交互的基础研究、概念、关键技术和方法等多个层次,邀请了国内多位人机交互领域的专家撰文,从不同角度进行介绍和探讨。2018年5月,《中国计算机学会通讯》组织专题“自然人机交互”,邀请了多位学者从不同角度诠释了自然人机交互的理论、方法、进展及挑战,涵盖了自然交互场景中的心理模型、动作模型等多个基础模型及触觉交互、生理交互等多项交互技术。我国中长期科技发展计划已经把人机交互列入前沿技术和基础研究的重要内容。2009年发布的《中国至2050年信息科技发展路线图》将人机交互列为重要发展内容[18]。2011年,“自然高效的人机交互”被写入《10000个科学难题:信息科学卷》[19]。此外,国家还支持了一批包括重点研发计划“云端融合的自然交互设备与工具”和“人机交互自然性的计算原理”、自然科学重点基金“自然人机交互基础理论和方法研究”等项目,不断推动人机交互与人工智能的融合和发展。
笔/手势交互是人机交互领域重要的研究方向,而将人工智能方法引入笔/手势交互,可以实现更智能、更自然的交互效果。中国科学院软件研究所人机交互研究团队在笔/触控交互方面进行了深入研究,其理论成果笔式界面范式、笔式用户模型、笔式用户界面描述语言、草图用户界面等[14]在国内外产生了深远的影响,应用成果包括笔式电子教学系统、笔式体育训练系统等已成功应用在教学、体育等领域并起到了重要作用。在手写笔迹识别方面,华南理工大学团队提出了基于全卷积多层双向递归网络的Ink识别新方法,研发了CNN手写识别模型的高性能压缩及加速技术,实现了基于云计算平台的云端手写识别引擎。该方法的性能突出,在ICDAR手写中文文本行识别竞赛中正确率达96.6%,联机手写单字符识别准确率达到97.9%,速度比主流方法快30倍,处于世界领先水平[20]。
随着可穿戴设备的兴起,在普适计算环境下,人机交互成为人机协同发展的瓶颈。清华大学在智能交互、普适计算等方面的应用研究做出了重要成果,例如COMPASS[16]、One-Dimensional Handwriting [17]等方法有效解决了智能手表、智能眼镜等普适计算环境下的文本输入问题。同时,清华大学与阿里巴巴宣布达成战略合作,依托清华大学美术学院共同成立清华大学-阿里巴巴自然交互体验联合实验室,探索“下一代人机自然交互”的未来。双方将以“人”为中心,探索“人-机器-环境”之间的关系,让机器以更自然的方式与人类互动,服务人类。双方将在实体交互、多通道感知等领域开展研究,让机器具备听觉、视觉、触觉等“五感”,并理解人类情感,以推动人机交互变革。
情感认知计算是自然人机交互中的一个重要方面,赋予计算系统情感智能,使计算机能够“察言观色”,将极大提高计算机系统与用户之间的协同工作效率。情感认知与理解离不开人工智能方法的支撑。例如,针对人脸自发表情实时跟踪与识别过程中存在的环境复杂度高、面部信息不完整等具有挑战性的问题,中国科学院软件研究所借助内嵌三维头部数据库恢复个性化的三维头部模型研发的人脸情感识别引擎,在非限制用户无意识动作情况下可实现人脸表情稳定准确跟踪,已在上海智臻智能网络科技股份有限公司的“小i机器人”系列产品中进行了应用,获得了业界广泛好评。此外,由中国科学院软件研究所、中国电子技术标准化研究院和上海智臻智能网络科技股份有限公司联合提出的国际标准“Information Technology-Affective Computing User Interface-Model”于2017年2月的ISO/IEC JTC1/SC35工作组会议上获得正式立项。此标准不仅是由中国牵头的第一个人机交互领域国际标准,也是国际上首个关于情感计算的标准。该标准将于2021年发布,可填补国内外该领域标准的空白,并对今后情感交互的发展产生深远影响,推动人机交互往更加人性化、智能化的方向发展。
基于人工智能和人机交互深度融合的典型应用也在教育、医疗等关键领域不断涌现。其中,中国科学院软件研究所和北京协和医院在神经系统疾病的非干扰、定量化辅助诊断方面做了大量的研究工作并取得了突出成果[21]。该工作基于人机交互、医学、心理学等学科理论基础,融合前沿人工智能方法和技术,对笔/触控、步态、伸展等运动建立多通道交互模型,从用户语音、书写、手机触控等日常交互行为中提取关键特征,实现神经系统疾病的早期预警和辅助诊断。相关系统软件作为脑血管神经疾病的常规检测工具,应用在了国家脑血管神经疾病的流行病学调查中,已经在协和医院、湘雅医院等得到了有效应用,并同时扩展到了北京、天津、长沙、大连等多家三甲医院。在工业界,腾讯公司推出了一个可以帮助医生诊断帕金森病的AI辅助诊断技术,将原本需要30分钟甚至更久的帕金森病诊断过程,提速到只需要3分钟就能完成。科大讯飞公司将人工智能引进教育行业,不仅能使未来学校、机构运转的效率更高,还有可能帮助人类实现孔子时代就在提及的教育理想——“因材施教”。
1.2.3 协同共进的未来
放眼未来,我们有理由相信人机交互和人工智能将能保持当下这种相互促进、相互驱动的关系,更加深入地融合并协同发展。回顾历史,人工智能的发展历程在很大程度上反映了计算机技术的发展历程,而计算机技术发展的最终目的是为人类服务。为了让人工智能很好地服务于人类,我们不仅需要不断突破人工智能技术瓶颈,还需要研究人的特性以及人与人工智能技术交互过程中出现的可用性问题。这些也同样是人机交互所关心和研究的问题。因此,人机交互和人工智能具有相同的研究目标和研究对象,是相辅相成、相互促进的关系。在人工智能发展遇到瓶颈之时,人机交互往往能够提供新的研究思路。同时,人工智能的发展会不断突破和创新人机交互技术并最终驱动人机交互的发展。我们相信,两者此消彼长的时代已经结束,将进入一个大融合、大变革的时代。