人工智能:智能人机交互
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 智能人机交互的发展趋势

智能人机交互是人工智能与人机交互不断发展和融合的产物。《埃森哲技术展望2017》指出:“AI is the new UI”。人工智能将从后台运营工具转变为更简洁、更方便的用户服务工具。人机交互必将是实现人工智能这个角色转变的关键所在。随着计算机处理与存储能力的不断提升,使用人工智能技术门槛和成本不断降低,意味着人工智能会越来越多地被应用到人机交互领域。人机交互与人工智能间的纽带将不断增强。2017年7月,国务院发布《新一代人工智能发展规划》,描绘了未来十几年我国人工智能发展的宏伟蓝图。在这个发展规划中,“人机混合智能”被列为亟须突破的基础理论瓶颈之一,重点研究“人在回路”的混合增强智能、人机智能共生的行为增强与脑机协同及人机群组协同等关键理论和技术。从目前的发展来看,我们认为,智能人机交互的发展会朝着下述六个方向进行。

1.多通道交互

由于更符合人与人之间的交互模式,因此多通道交互被认为是更为自然的人机交互方式。相对于传统的单一通道交互方式,多通道人机交互在移动计算和万物互联时代存在着更为广泛的应用潜力,如智能家居、智能人机对话、体感交互、个性化教育等。近年来,人工智能技术的发展使得单一通道感知认知技术,如语音识别、人脸识别、情感理解、手势理解、姿态分析、笔迹理解、眼动跟踪、触觉感知等性能得到快速提升,计算机能够比较准确地理解用户单通道行为。同时,高速发展的便携式硬件技术,催生了一些价格低廉却便于随身穿戴的小巧便捷的传感器。这些传感技术和设备为准确判断用户行为意图提供了更多信息。传统的单一通道人机交互方式,如广泛使用的鼠标、键盘,或者基于笔触的图形界面交互方式,因为输入设备信息精确和直观,所以计算机不用关注用户行为。然而在多通道人机交互环境下,系统需要准确地判断用户在做什么和要做什么,才可能对用户行为进行准确反馈。如何根据不同通道信号进行有效融合并计算是交互意图准确理解的重要手段[22]

2.用户意图推理

自然交互的目标是让用户方便、有效地表达交互意图。人机交互领域近年来在持续研究各种具有低学习成本的自然交互技术,让计算机能够准确识别用户意图。其中的重点内容是对用户动作数据的理解和处理。动作数据包括手指、手部、头部以及身体运动等,是当前用户表达交互意图的主要通道。用户交互意图准确判断是计算机做出正确决策和响应的依据,也是高效完成交互任务的关键。在解释用户的交互意图时,既可以使用“黑盒子”的机器学习方法,也可以利用“白盒子”的基于用户行为建模的方法。用户建模的本质是通过计算的方法来刻画用户的行为能力,对于理解用户意图和探索自然交互的计算原理具有重要的科学意义[23]。实现交互意图理解的关键技术和难点在于:①如何创建计算机知识图谱并使其实现自我更新;②如何有效结合识别的用户数据和环境数据来实现对用户意图的准确理解。众所周知,人与人之间的交互往往是建立在共同的认知基础上的,使得人之间的交互带有很多意图的推理成分。而对于计算机而言,要想与人类进行自然有效的交互也需要建立一个共同的认知基础,有效的方法之一就是构建与交互情境相关的知识图谱。其中包括常识性的知识推理和个性化的知识更新,计算机不仅可以通过感知到的信息对知识图谱进行自动更新,还可以采取主动交互策略来确认不可靠的推理结果。计算机通过利用知识图谱中的相关知识,形成对交互情境中所涉及的人、物、环境的整体认识。

3.智能人机交互范式

智能计算系统的快速发展对交互设计提出了新的挑战。智能计算系统中的人机界面设计往往采用语音、姿态等灵活、自然的模式,简化了用户与系统间的交互操作。但学习和适应各类智能计算系统不同的用户界面也无疑会增加用户的认知负担,影响用户体验。如何为智能计算系统设计好具有一定通用性的用户界面呢? 从人机交互领域的发展历史来看,好的用户界面设计往往依赖于某种界面范式,例如个人计算机系统界面设计中的WIMP(Windows,Icons,Menus,a Pointing Device)界面范式和笔式交互系统中的 PGIS(Paper,Gadget,Icon,Sketch)界面范式。迄今为止,针对智能系统界面范式的研究还是一个空白。目前,智能系统的侧重点在交互层面,即用户如何为系统提供信息输入、如何对系统的输出做出响应。多数交互系统都包含前端和后端两部分:前端负责接收用户的输入信息,并向用户展示相关的系统和结果信息;后端则根据用户的输入信息,产生用户需要的结果。一个交互系统的智能性可以体现在系统的前端、后端,或者二者兼而有之。前端的智能性往往表现为可以接受灵活、复杂的用户信息输入方式,例如语音、手势等方式。后端的智能性往往体现在对信息的处理和整合方面,如对照片的识别和分类、对文本数据的自动翻译等。一个后端智能的系统并不一定要求前端具有智能性,例如百度识图等智能图片识别系统依然依靠基于鼠标、键盘等传统前端交互方式。为此,文献[24]分析了目前智能系统中常见交互界面的特点,并提出包含有角色(Role)、交互模态(Modal)、交互命令(Commands),以及信息展示方式(Presentation Style)4 个基本要素的 RMCP 界面范式。智能系统的界面范式,力图为今后智能系统交互界面设计方法提供一些思路。

4.实物用户界面

实物用户界面的主要研究范畴是人通过抓握、操作、组装等自然行为与实物对象发生交互。相对于图形用户界面(GUI)主要信息均以虚拟方式呈现的形式,实物用户界面(Tangible User Interface,TUI)更强调通过信息与物理实体耦合的方式,实现物理化操作与物理形态的信息呈现。自20世纪90年代 TUI 概念出现时起,经过 20 多年的发展,实物用户界面的相关研究工作取得了广泛的成果。然而,使用实物对象进行信息处理并不是近些年才出现的新方法。事实上,无论是古罗马的算板,还是我国古代广泛应用的算盘,都可以看作实物用户界面最早的概念雏形,尽管它们与今天的实物用户界面看起来非常不同,但是其基本原理——使用实物对象(算珠)表示信息已非常接近 TUI 的概念。进入 21 世纪以来,人类对于自然交互的需求越来越迫切。而 TUI 则是面向下一代自然用户界面的重要范式之一。其接近人类自然操作行为模式的交互方式也蕴含着巨大的应用潜力。尤其在一些有国家重大需求的研究方向,TUI 也可以发挥重要的作用。这些潜在的应用包括:基于城市建筑物和主要设施实物模型的互动规划模拟和信息可视化方法;基于对象区域的物资、救援配置的实物模型进行推演模拟和实时信息集成与呈现;基于战斗单位实物模型的战役推演电子沙盘系统;通过实物组装把设计与调试融为一体;在未来教育领域基于 TUI 的 STEAM 教育方法;等等。实物用户界面是未来重要的交互界面研究领域之一,代表了未来人机交互竞争的热点和高地。

5.智能人机合作心理模型

从最早的命令行到图形用户界面,再到当前蓬勃发展的虚拟现实和增强现实技术,以及各种智能语音交互、手势交互、眼动追踪交互、脑机接口等,人机交互的方式越来越丰富,技术越来越多样,但是人机交互的理论研究却相对比较滞后,现在开展人机交互研究时仍然是基于将近 40 年前的理论。早在 1983 年,Card 等人出版了最早的一本有关人机交互的著作——《人机交互的心理学》,其中不但提出了人机交互的概念,而且提出了至今仍被大多数研究者奉为经典的人类处理器模型(Model Human Processor,MHP),及其衍生版本 GOMS。在过去的 30 多年里,这些模型虽然为人机交互研究和设计提供了必要的理论指导,但是随着人机交互方式的逐渐变革,现有的理论或模型已经不能满足当前的技术发展需求。计算机越来越接近人类的智能和情感处理水平,人与计算机的交互追求更加自然、和谐,力图更加符合人类的认知和行为习惯。但是已有的人机交互模型仍然停留在传统人机交互模式的阶段,无法满足当前人机交互方式多种多样的局面[25],迫切需要一个新的理论模型来指导相关的研究和设计工作。

6.人类智能增强

人工智能的蓬勃发展,使得机器智能不断提高,引发了人们对机器智能是否会对人类智力造成挑战的担忧。在人工智能研究的同时,一些学者致力于另一条路径——智能增强(Intelligence Augmentation,IA)。1963 年,几乎在人工智能研究起步的同时,计算机科学家Douglas C.Engelbart——鼠标的发明者,发表了题为《增加人类智慧的概念性架构》的论文,随后成立了“增智研究中心”。如果说人工智能是让机器像人类一样思考,即“让机器变得更聪明”,那么Douglas C.Engelbart的研究就是试图利用科技手段提升人脑现有的能力。与人工智能不同,智能增强是以基因科技、智能科技、心理学、脑神经提升技术与微生物科技等多学科共同推动的一个领域,其目的是增强以人为核心的人机交互,增强人体自身的智慧与技能。智能增强为人机交互的研究提供了新需求和新动力。当前,人机交互的焦点是机器如何更自然地为人类提供服务。在机器能力增强的同时,如何增强人的能力,尤其是人的认知能力,实现人机共生或者人机和谐,成为人机交互中一个新的研究课题。随着人工智能技术的发展与应用,人与智能机器的交互、混合、共生将成为未来社会的形态特征之一[26]