人工智能:智能人机交互
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

1.1 人机交互的发展历程

1.1.1 人机交互的定义

计算机是20世纪最重要的科学技术发明之一,对人类的生产活动和社会活动产生了极其重要的影响,并仍将以强大的生命力持续发展。计算机技术的应用领域从最初的军事科研扩展到社会的各个领域,带动了全球范围的技术进步,由此引发了深刻的社会变革。计算机已遍及各行各业,并且走进了寻常百姓家,成为信息社会中必不可少的工具。

人机交互的本质就是人类用户与计算机间的信息交流和互动,即通过人机接口技术,使计算机理解人类用户的交互意图,并将计算结果以某种形式的界面呈现给人类用户。一般来说,人机交互涉及计算机、人类工效学、认知科学、心理学等多个学科领域。国际计算机学会(Association for Computing Machinery,ACM)下的人机交互兴趣小组(Special Interest Group on Computer-Human Interaction,SIGCHI)把人机交互定义为一门对人类使用的交互式计算机系统进行设计、评估和实现,并对其所涉及的主要现象进行研究的学科。

人机交互(Human-Computer Interaction,HCI)研究计算机技术的设计和使用,主要研究人类用户与计算机之间的交互界面,属于计算机科学、行为科学、设计、媒体研究等多个研究领域的交叉领域。人机交互这个术语是由Stuart K.Card、Allen Newell和Thomas P.Moran在1983年出版的影响深远的著作《人机交互心理学》中推广开来的,尽管他们在1980年才首次使用这个术语[1]。与其他用途单一的工具不同,计算机有多重用途,这体现出用户和计算机之间交互的开放性。用户满意度是刻画人机交互技术的一个重要方面。

人机交互研究的是交流中的人与机器,从机器和人两方面的知识中获取支持。在机器方面,计算机图形学、操作系统、编程语言和开发环境中的技术是相关的。在人的方面,传播学理论、平面与工业设计学科、语言学、社会科学、认知心理学、社会心理学以及计算机用户满意度等人的因素都是相关的。由于人机交互的多学科性质,因此不同背景的人促成了它的繁荣与成功。

1.1.2 人机交互的发展

人机交互的发展过程伴随着计算机技术的发展过程。人与计算机的交互方式从穿孔纸带到命令行(Command Line)交互,发展到现在占据主流的图形用户界面交互,已经具有直接操控(Direct Manipulation)和“所见即所得”(What You See Is What You Get)的特点。图形用户界面的出现使得计算机成为普通用户可以操控的工具,使比尔·盖茨“每个人有一台电脑”的理想逐渐成为现实。

伴随着图形用户界面的出现,研究人员开始关注交互模型、界面范式和开发平台的研究,在近三十年的发展中取得了不菲的成就。然而,近年来,随着多媒体、多通道、虚拟现实、移动计算和人工智能等技术的迅速发展,新的交互形式和交互需求不断涌现,诸如笔式交互、语音交互、情感交互以及多通道交互等。尽管计算机的处理速度和性能在迅猛提升,但是用户使用计算机的交互能力或交互带宽并没有得到相应的提高。其主要原因就是缺少与新式人机交互需求相适应的、高效自然的交互界面,缺少成熟统一的可满足新式人机交互需求的界面技术。这也是人机交互研究领域面临的一个重要挑战,既包括人机交互基础理论问题,如认知模型、分布式认知理论、基于场景上下文的知识表示等,也包括交互技术问题,如用户界面工具、无处不在的交互计算模式、人机协同的交互技术、支持创新工程的交互技术等。

20世纪末,在美国总统顾问委员会的报告中将“人机交互和信息处理”列为21世纪信息技术基础研究的四个主要方向之一。2007年,美国国家科学基金会(National Science Foundation,NSF)在其信息和智能系统分支(Information and Intelligent Systems,IIS)中把以人为本的计算列为三个核心技术领域之一。其具体主题包含多媒体和多通道界面、智能界面和用户建模、信息可视化以及高效的以计算机为媒介的人人交互模型等。同年,欧盟第七框架计划也包含了自然人机交互的内容。从2012年开始,ACM在计算机学科领域分类系统中把人机交互列为计算机学科的重要分支领域,标志着人机交互在计算机学科中开始占据重要位置。2016年,中国国家自然科学基金委员会在《国家自然科学基金“十三五”发展规划》中把人机交互列为重点支持的课题。目前,全球专注于人机交互的学术期刊有25个,学术会议更是多达100个。活跃的研究单位包括国内外的许多知名大学和研究机构,如麻省理工学院、卡耐基梅隆大学、斯坦福大学、北京大学、清华大学等大学,以及微软研究院、谷歌研究院、中国科学院软件研究所等研究机构。

1.1.3 人机交互的核心问题

1.界面范式

从人机交互历史的发展规律来看,当技术的革新导致已有界面范式不能满足技术发展的需求时,新的交互方式就会不断产生,如何从这些新的交互方式中凝练出具有一定普适性的界面范式是我们必须面对的一个重要问题。

20世纪初,第二次工业革命完成后所积累的大量信息数据需要处理,需要的运算能力远远超出了个体人类大脑处理能力的极限。1945年,Vannevar Bush提出Memex,展望了一种具有强大的信息采集、信息存储、信息检索功能并配有一系列如显示器、照相机等实现功能的其他外部设备的系统。次年,标志现代计算机诞生的ENIAC在美国公之于世。

随着计算机计算能力的发展,人与计算机的信息交流成了阻碍计算机继续发展的瓶颈。1963年,Ivan Sutherland实现了Sketchpad,使用图形化的方法与计算机进行交互,对人机交互和图形交互界面具有启蒙作用。1964年,Dougelas C.Engelbart发明了鼠标,开启了个人计算机和图形用户界面的黄金时代。

在摩尔定律的推动下,单位计算成本急剧下降,随时随地使用计算机的需求推动了可携带计算机的出现。1977年,Alan C.Kay提出了一种平板电脑Dynabook,展现了一种移动的计算设备,可以认为是现代平板电脑和智能手机的雏形。1991年,Mark Weiser提出了普适计算的概念,通过在各种类型的设备中嵌入计算机,以建立一个将计算和通信融入人类生活空间的交互环境,从而极大地提高了个人或与他人合作的工作效率。

在计算机应用发展的过程中,界面范式的变迁起着关键的作用。例如WIMP(Window,Icon,Menu,Pointing)范式的出现使应用图形用户界面的技术门槛大大降低,极大促进了基于图形用户界面的应用发展和繁荣,创造了个人计算机时代的辉煌。但是随着计算能力和交互场景的发展,WIMP界面无法满足日新月异的交互需求。事实上,WIMP范式的“桌面”隐喻、使用感知通道有限、输入/输出带宽不平衡等特征无法适应普适计算下的交互场景。

为突破这种限制,需要新的界面范式来满足新交互技术的需求。为此,一些学者提出了Post-WIMP和Non-WIMP的概念,力图突破图形用户界面限制,以满足新的应用场景交互需求,使交互过程更为自然。例如,针对笔式交互场景的PIBG(Physical Object,Icon,Button,Gesture)范式,面向普适计算交互场景的实物用户界面(Tangible User Interface),基于可控变形材料的基原子交互界面(Radical Atom)等。这些新范式正在推动着人机交互向前发展,激发未来的研究。

2.心理学模型

在人机交互研究中,心理学模型主要用于描述用户如何与计算机系统进行交互,通过对用户交互行为的描述与预测,指导交互系统的设计者设计出更加高效、友好的人机交互界面。针对人机交互过程中的用户认知建模,Card等人提出了著名的心理学认知模型框架,其中包含人类处理器(the Model Human Processor,MHP)模型和GOMS(Goals,Operations,Methods,Selection rules)模型。MHP模型描述了人类信息处理系统的系统架构和量化参数。它的主要思想是将人比喻成计算机,把人脑处理信息的方法看作像计算机一样对外界信息进行加工。在人与计算机的交互过程中,把人的认知模型简化成感知系统、运动系统和认知系统。GOMS模型是关于用户在与计算机系统交互过程中使用知识和认知过程的模型,可以用来预测用户会用什么方法和操作,并且可以计算熟练用户在一定的界面设计条件下所消耗的时间。在很长一段时期里,GOMS 模型在人机交互界面的设计和评价上体现出非常重要的价值。

从心理学模型的描述能力来看,GOMS模型最根本的局限性在于更多关注熟练用户在执行具体操作时的感知运动过程,忽略高层信息加工中的认知处理过程。为了解决这些问题,不少学者在 GOMS 框架下进行了各种新的尝试。任务-动作语法模型(Task-Action Grammar,TAG)用来描述用户在成功处理并执行任务时大脑所需要掌握并处理的规则,为用户掌握任务时所需付出的学习代价提供了良好的量化基础。SOAR(State Operator And Result)模型能够解决非熟练用户的行为建模与预测问题,能够就用户发现僵局的时间、为打破僵局而查找解决策略的时间以及找到解决方案前所需消耗的步骤提供合适的判断细节。ACTR(Adaptive Control of Thought-Rational)是一种严格从认知基础理论出发的认知框架,对人类大脑中的认知和感知操作进行了基本元素的定义,用不可分的认知操作元素和相应的构成框架对用户的认知行为进行建模,在认知研究中具有相当强的描述和预测能力。

随着人机交互研究的关注点越来越倾向于多通道、多任务的自然交互场景,多媒体学习的认知理论研究成果表明,视觉通道和听觉通道的信息融合要优于单独的视觉通道和听觉通道。EPIC(Executive-Process/Interactive-Control)模型把人类感知和运动处理方面的关键因素整合到认知理论框架中,对相应机制在人类行为中的影响进行建模,刻画了交互常用的眼、耳、手等多通道的人类感知和运动系统,以及注意力、工作记忆、大脑处理规则等认知系统的相关描述,为复杂的多通道、多任务场景建模提供了比较完整的可计算描述。

上述的MHP、GOMS、SOAR、ACT-R、EPIC等心理学模型虽然都能够用来对人类的交互操作任务进行认知心理学建模,但是我们还需要更加严谨的认知理论——更容易理解、更加准确并且可计算的心理学模型。

3.用户界面

用户界面(User Interface,UI)是指支持人与计算机之间进行交互的软件和硬件系统。用户界面发展到现在经历了三个主要时代,分别是批处理界面(Batch Interface,BI)、命令行界面(Command Line Interface,CLI)和图形用户界面(Graphical User Interface,GUI)。批处理界面的主要特征是通过纸带打孔编码的方式进行输入,也被称作“无交互”的用户界面。这种交互界面需要用户高度集中注意力,工作负荷超重,出错概率高,用户体验差,不适用于普通用户。命令行界面的主要特征是用户通过键盘和一系列编码进行输入。这些编码输入命令的语法严格,使用前需要学习专业的知识,只适用于专业人员。受益于鼠标的发明,人机交互不再局限于命令行,而是进入了具有空间特征的“图形用户界面”时代。图形用户界面借用“桌面隐喻”与屏幕上的内容或对象进行交互,用户可以更容易地学习鼠标的移动或操作,更多地探索界面空间。例如,“桌面”和“拖动”是视觉的界面元素,通过严格的编码语言,计算机能实现这些直观的界面元素。

随着新的交互场景和交互技术的出现,图形用户界面已经无法满足新的用户交互需求。因此更加自然直观、更为人性化的自然用户界面(Natural User Interface,NUI)被认为是下一代用户界面的主流。在自然用户界面下,用户可以用自然的交流方式(如自然语言和肢体动作)来与计算机交互,与计算机的交互就如同与一个真实的人交流一样。自然用户界面时代,键盘和鼠标等将会逐渐消失,取而代之的是更为自然、更具直觉性的交互工具,如触摸控制器、动作控制器、自然语言操控装置等。但是,有了更自然的交互工具未必就有了好的交互界面。正如Norman所指出的,新的技术需要新的方法,但是拒绝遵循既定的原则,可能会导致可用性的灾难。例如在任天堂推出保龄球游戏时,把甩动和释放游戏中的保龄球设计为与真实情况一致,通过手持控制器上的开关进行控制。释放开关类似于从手中释放球,这是易于学习和使用的。但是在比赛进入高潮时,玩家也会释放他们手中的控制器,其后果是控制器会从手中飞出,甚至把电视屏幕打破。在开发一个新的交互平台时,尝试全新的技术有其合理性,但由于缺乏完整的交互控制说明,忽视与已建立操作习惯的一致性以及对历史的无知等原因会给用户带来极大的困扰。因此,如何设计或评估自然用户界面仍是我们面临的重要挑战性问题。

4.研究框架

当计算机的技术潜能首次被认识到时,Nickerson就曾经总结道:“未来的需求将不再是面向计算机的人,而是面向人的计算机。”如果希望设计一个有用、安全、高效、令人满意的系统,就必须对正在使用或者将要使用系统的人有充分的了解。而了解这些人的特点、能力、相同点和不同点,需要涉及很多学科领域,包括传统的人因工程、人机交互、社会计算等。设计人员和开发人员在学习这些理论和方法时,通常需要去查找、搜集和参考不同领域的书籍和文献,但把来自不同领域的内容融合为一个体系化的知识结构对很多人来说还是一个严峻的挑战。为了把相关学科的知识综合在一起,帮助与设计相关的人类特征,Frank等人提出了一个被称为ABCS(Anthropometrics,Behavior,Cognition,Social Factors)的框架。ABCS框架的缩写代表了在设计系统时需要审视与用户相关的人体测量学、行为、认知和社会因素四个方面。

ABCS框架提供了一种组织用户特征信息的方法,因此关于设计与用户能力相关的信息可以使用ABCS框架来组织,将人的体态、感知、思考,以及与其他人交流的方式都整合起来。但是从系统开发的角度来看,人机交互系统开发的过程归根到底是一个软件开发的过程,因此需要一个软件开发研究框架来指导和支撑人机交互系统的研究和发展。

ACM SIGCHI 2005会议举办了关于“未来用户界面设计工具”的专题讨论会,指明了方法论和研究框架对人机交互发展的重要性,提出了下一代的用户界面应该从范式、模型和软件框架三个层次展开。通过对人机交互核心问题的研究,我们提出了人机交互的研究框架,如图1.1所示。整体研究框架由多个人机交互的核心研究内容组成,如用户界面范式、交互设计原则、心理学模型等。这些研究内容可以被归类到范式、模型和软件框架三大部分:用户界面范式和交互设计原则共同指导界面设计,是用户界面开发的重要组成部分;通过心理学模型的研究构建用户模型,结合应用场景定义语义模型;语义模型和界面设计进一步对界面描述语言的定义和结构起关键作用;心理学模型的成果形成界面评估准则,对界面软件的评估有着指导性的影响;支撑算法和数据结构也是软件开发框架的重要组成部分,它们决定框架的软件结构,是用户界面管理系统软件开发层面的基石。

img

图1.1 人机交互研究框架

1.1.4 人机交互的新进展

人机交互是一个不断变化的领域。这种变化是为了响应技术革新以及随之而来的新的用户需求。从应用场景来看,人机交互从图形用户界面过渡到自然用户界面,更人性化的交互界面会成为迫在眉睫的需求。从研究层面来看,人机交互从微观上升到宏观,使用计算机技术使个人参与到社会管理活动中的方法成为人机交互关注的重点。从研究重心来看,人机交互从交互导向转移到实践导向,其分析单元由个体交互行为上升到日常的社会实践活动。从研究范围来看,人机交互由人类、计算机的二元空间扩展到由人类、计算机和环境组成的三元空间,人类自身所处的环境也成为人机交互研究重点关注的一部分。为适应智能时代,人机交互应用场景提出的新思想理论包括自然用户界面、基于现实的交互、技术媒介的社会参与、实践导向的设计方法、人机共生系统等。

1.自然用户界面

自然用户界面是人机交互界面的新兴范式转变。通过研究现实世界环境和情况,利用新兴的技术能力和感知解决方案实现物理和数字对象之间更准确和更优化的交互,可达到用户界面不可见或者交互的学习过程不可见的目的。其重点关注的是传统的人类能力(如触摸、视觉、言语、手写、动作)和更重要、更高层次的过程(如认知、创造力和探索)。因此,自然用户界面具有简单易学、交互自然和基于直觉操作的优点,能够支持新用户在短时间内学会并适应用户界面,并为用户提供愉悦的使用体验。

20世纪90年代,Steve开发了许多用户界面策略,使用与现实世界的自然交互作为图形用户界面的替代品,并将这项工作称为“自然用户界面”“直接用户界面”和“无隐喻计算”。2008年,微软的用户体验总监August将自然用户界面(NUI)描述为类似于从命令行用户界面(CLI)转向图形化用户界面(GUI)的下一个演进阶段。2010年,Daniel Wigdor和Dennis Wixon在他们的书中详细介绍了自然用户界面,并提供了建立自然用户界面的操作以及可用于实现的技术。简而言之,自然用户界面应该是以人为中心、多通道、非精确性、高带宽的。

2.基于现实的交互

基于现实的交互(Reality-Based Interaction,RBI)是对新一代人机交互方式的概括,涵盖自然用户界面、虚拟现实技术、增强现实技术、上下文感知计算、手持或移动交互、感知和情感计算、语音交互及多模态界面等。RBI强调利用用户的已有知识和技能,不需要额外学习太多新的知识。RBI从不同层面来对新的交互模式进行描述,包括人们对基本常识的理解、对自身肢体动作的理解、对环境的理解以及对其他人的理解,并基于这四个层面建立了基于现实的感知框架。框架从底至上分为以下四个层级:简单物理感知、身体意识和技能、环境意识和技能、社交意识和技能。简单物理感知处于框架的底层,包含人类对外部世界的感知和常识性知识,例如重力、惯性等;框架的第二层是身体意识和技能,包含人类对身体的感知以及控制和协调身体运动的能力;框架的第三层是环境意识和技能,包含人类对周围环境的感知、操作以及导航的技能;框架的顶层是社会意识和技能,包含人类对社会环境中其他人的感知及与其他人进行交流的技能。

RBI框架能够用于分析自然用户界面的真实感特性,为自然交互提供了一个基本的原则,使人与计算机的交互方式更像是在自然世界中的交互,对指导自然用户界面的设计和研究具有非常重要的作用。Flying Kite是基于RBI框架开发的用户界面反馈设计方法的系统原型,通过实验证明了使用RBI框架指导用户界面开发可以显著提升人机交互系统的用户体验。

3.技术媒介的社会参与

随着互联网技术的迅速发展以及互联网在全球范围内的快速普及,越来越多的公众开始接触、熟悉和运用网络平台这一高效沟通工具。他们通过各种表达方式在网络平台上发表对于公共事务及公共话题的意见和建议,促使网络民意表达迅速发展。典型事例如2013年雅安地震事件,救援组织不仅通过社会媒体的方式进行资源协调,还有数百万人向红十字会提供捐款援助,以支持应急响应和救灾重建。可见,以互联网社交工具等为技术媒介,可以让公众更多地参与到共同协作、社会事件和公共管理中来。例如维基百科和百度百科等宏大知识全库的编制、知乎等社会化问答网站的建立等。

可以预见,技术媒介的社会参与(Technology-Mediated Social Participation,TMSP)可在增强个人创造力、促进家庭成员交流、增加社区繁荣、启发企业创新、引导公民参与政策、解决国际冲突等方面大有裨益。TMSP潜在的应用领域和期望产生的效果是多方面的,具体包括医疗、灾难响应、能源、教育、文化多样性、环境和气候、公民科学、经济健康、全球化和发展、政治参与、本地公民参与和公共安全等。

卡耐基梅隆大学的Ben Shneiderman教授等人提出了读者-领导者框架,激励公众通过社会技术媒介参与到社会管理中来。当用户开始关注社会媒体时,他们成了读者,随着参与度的加深,这些读者部分会成为贡献者,再成为合作者,甚至成为管理者。

4.实践导向的设计方法

在早期阶段,人机交互所使用的概念框架是基于认知心理学的MHP方法。其关注点在于人与计算机之间的交互关系,通过用户界面使人的运动和认知状况与计算机的接口之间取得更好的相互适应。在这个框架内,人们做了大量有意义的工作并且许多工作还在进行中。这类工作把主要精力集中在更普遍的界面可用性问题上,寻求制定有助于设计更高可用性界面的措施和方法,其代表性工作是以用户为中心的设计。这一传统理论框架最大的问题在于所采用的用户界面设计方法是基于实验室的研究。而实验室研究作为获取界面使用知识或者新系统设计方法的来源,早已被证明适用性是有限的。

相比于传统的界面设计方法,面向实践的设计方法(Practice-Oriented Approaches,POA)将视角从交互转移到实践活动上,其分析单元由个体行动转变为人的日常实践活动,关注点从个人行为或者社会规范上升到了到日常活动的组织和重组。Shove提出了POA的三个研究主题,包括人机交互研究中的人与计算机去中心化、实践活动的动态和情境本质、设计向实践的转变。

近年来,随着人机交互技术应用范围迅速扩大,组织机构、就业率、 物质性甚至社会责任等问题成了热点。虽然主流人机交互的研究重点仍然在系统的交互性和可用性上,但是越来越多的研究人员逐渐表现出对实践活动和个人经验的兴趣,开始探索一些基于POA的研究课题。

5.人机共生系统

计算机在我们生活的各个方面都发挥越来越大的作用,社会和信息技术在复杂的过程中不断相互渗透和相互影响。在这种情况下,人机共生系统(Cyber-Human System,CHS)由人机交互、以人为中心的计算、通用接入、数字社会与技术等发展而来,并进一步扩展到数字政府、信息隐私、人与机器人交流等概念,其目的是探索潜在的变革和颠覆性的思想以及相关的基本理论和技术创新,研究人与计算机之间日益密切的关系,提出增强人类能力的广泛目标。

人机共生系统是一个迅速发展的领域,得到了美国国家科学基金会研究计划的大力支持。其资助的研究主题包括人类、计算机和环境在内的三个维度。人类维度是把团体作为目标一致的群体和把社会作为非结构化连通的人的集合,将其范围扩展,包括从支持、拓展人的能力到满足人的需求;计算机维度包含从固定的计算设备,到人类随身携带的移动设备及嵌入在周围物理环境中的传感器和视觉/音频设备的计算系统;环境维度包含从离散的物理计算设备到沉浸式虚拟环境及其中间的混合现实系统等。