2.3 智能人机交互模型
近年来,随着人工智能技术的飞速发展,计算机越来越接近人类智能和情感处理水平,人与计算机之间的交互更加自然和谐,力图更加符合人类的认知和行为习惯,从而越来越接近人与人之间的交互。不管是突破人工智能的瓶颈,还是实现自然和谐的人机交互,都迫切需要符合人类认知机理、理解人类行为意图的智能人机交互模型。构建智能时代的人机交互模型,不仅可以解释、模拟和预测人类的行为,而且能够指导相应的智能系统和人机交互设计。本节将介绍两个代表性的智能人机交互模型:人机合作心理模型和基于语义的自然人机交互模型。
2.3.1 人机合作心理模型
为了应对当前智能时代下复杂的人机交互任务与多样的人机交互方式,刘烨等人[3]针对人和计算机这两个交互主体提出了人机合作心理模型(Human Computer Cooperation Model, HCCM模型),如图2.12所示。该模型假设人与计算机的交互本质上可以类比为人与人的交互,具有和人与人交互相似的属性和规律,并且两个交互主体是在各自先验知识和动机的驱动下主动进行交互的。不管是人类还是计算机,其信息处理系统都包含感知、认知和动作三个处理器,或者称为模块。每个模块又各自包含三个子模块。
图2.12 人机合作心理模型示意图
1.感知处理器
感知处理器包括感觉、知觉与注意三个子处理器,负责接收、选择和初步加工输入的信息。对人类而言,感觉是认知加工的初级阶段,通过不同感觉通道获取不同的属性信息;知觉是人类大脑对客观事物的整体属性认识,是人类识别事物的心理加工机制;注意是人脑加工的一种特别机制,可让心理活动在一定时间内指向并集中到某项活动,在人机交互层面,注意可以被界定为个体对交互过程中信息的选择、监督与调节。根据对等的人机合作模式,计算机也应该具备与人一样的感官能力、知觉加工以及注意功能。如果说感觉相当于智能计算机的传感器,知觉相当于模式识别,那么注意功能则能够帮助人类信息加工系统进行信息过滤和筛选,从而实现意图性的交互过程。
2.认知处理器
认知处理器包含工作记忆、记忆缓冲和长时记忆三个子处理器,负责存储信息,并对信息进行整合和精细加工。工作记忆是一个容量有限的信息加工系统,用来暂时保持和存储信息。在HCCM模型中,工作记忆负责接收来自感知处理器的信息,并将加工后的信息传递给动作处理器。同时,工作记忆也接收来自感知处理器的反馈信息,并给感知处理器提供反馈信息。记忆缓冲是工作记忆与长时记忆之间的信息传递桥梁。在信息巩固过程中,通过记忆缓冲器,将工作记忆中加工的信息转化为长时记忆中存储的信息。长时记忆中存储着人类以往学习和经历的所有知识和经验。在HCCM模型中,长时记忆主要通过记忆缓冲器与工作记忆互相传递信息,也可以直接接收来自感知处理器的信息,同时也可以直接给感知处理器提供反馈信息。
3.动作处理器
动作处理器包含动作整合、动作执行和动作监控三个子处理器,负责根据认知处理器的输出结果采取相应的动作反应。动作整合负责动作的选择、规划和动作序列的生成。动作执行负责动作指令的执行和输出。动作监控负责动作执行结果反馈的收集和评价,从而帮助调整动作序列的执行。
4.感知模块与认知模块
感知模块直接获取信息,并认识信息的直接含义,随后传递到认知模块做进一步分析、学习,最后形成一种预期返回感知模块进行验证。感知模块与认知模块的交互结果是实现了人脑对客观事物本质属性的概括化反应。
5.感知模块与动作模块
信息除了通过感知、认知到达动作模块外,还存在另一种更高效的信息加工模式,可以由感知模块中抽取的刺激特征直接自动地启动动作模块,并直接作用于效应器做出反应。这使得感知模块直接作用于动作模块,跳过了认知模块的复杂信息加工程序。
6.认知模块与动作模块
认知模块与动作模块之间主要是通过动作整合子模块中的动作缓冲区相互联系。信息进入认知模块的工作记忆后,认知模块会做出判断和决策,处理后的信息进入动作模块中的动作缓冲区。另外,动作监控子模块获得的反馈信息会进一步传输到认知模块,从而实现对动作的评价、调整和记忆。
人类与计算机之间的交互和合作主要通过三个通道来实现:①计算机动作模块的输入信息进入人类的感知模块;②人类动作模块输出的信息进入计算机的感知模块;③计算机与人类的认知模块之间存在异质同构性。虽然计算机与人类存在诸多差异,但二者认知功能十分相似,具有相同的功能模块,并且计算机具有和人类一样,理解其他个体意图、愿望和想法的能力。此外,在HCCM模型中,人机交互过程被认为是多模态并行、分布式交互的。不管是人类还是计算机,都会同时接收来自多个感觉通道的信息,以及周围交互环境、场景中的各类信息,这个过程持续不断地进行,认知模块负责将所有信息加工整合。
接下来,我们通过一个具体的人机交互实例——智能对话系统来对该模型进行更直观的阐述。智能对话系统需要实现人与机器之间的自然对话,特别是计算机对用户意图和状态需要形成准确理解并做出有效反馈。在使用该系统时,比如用户对计算机给出口语指令“我不知道今天要干什么,怎么办?”,信息首先进入计算机的感知处理器:语音和语义特征被提取(感觉子处理器),然后识别并转化成文本等数据(知觉子处理器)。另外,系统接收到指令后,系统也可以通过控制摄像头捕捉用户的表情和动作,从而对感知模块的输入信息进行筛选(注意子处理器)。识别后的文本、表情和动作信息进入认知处理器:计算机首先需要对语义、情感信息进行持续分析(工作记忆),并从知识库(长时记忆)中查找相关的语义等内容(记忆缓冲),然后进行相似性分析等多种分析,最终形成对语义、用户需求和状态的理解(工作记忆)。经分析后的信息进入动作处理器:根据语义分析结果对需要给出的反馈或反应进行分析和整合,形成动作指令(动作整合),最终通过语音、文字或配合其他形式为用户做出回答(动作执行),如“你心情如果不太好的话,我觉得以下建议可能对你有帮助……”。如果信息输出时发生错误,则系统会自查并进行提示或纠正(动作监控)。输出的信息被用户所接收,也经过感知、认知和动作模块对信息进行分析和评估,最后再给出下一个问题或下一步动作指令,最终共同形成一个有效的活动方案,实现人机之间的良好合作。
2.3.2 基于语义三角形的自然人机交互模型
言语交互是一种重要的人机交互方式。在语言学中,语义三角形模型通过定义“概念”“符号”“实体”三个基本要素及其之间的关系明确了符号表示与事物实体之间的联系,很好地解决了人类语言交流中言语理解的一致性问题。刘胜航等人[23]将这一思路扩展到自然人机交互领域,提出了一个基于语义三角形的自然人机交互模型,用于更清晰地解释自然人机交互行为,如图2.13所示。人与计算机均可作为交互主体,各由一个语义三角形描述。
图2.13 基于语义三角形的自然人机交互模型[23]
标准语义三角形中基本要素的具体含义解释如下:
(1)语义三角形中的概念可以理解为交互意图,是交互主题思想中的概念抽象,是交互行为的抽象体现,用G表示,如领域知识、用户思维方式和操作习惯的抽象。
(2)语义三角形中的符号可以理解为只带交互意图的交互方式与交互指令。符号可细分为两个层次,分别是原语和表示。原语是交互意图在符号中的准确表示,是交互意图最直接的符号体现,与交互意图一一对应,用P 表示;表示是用具体符号方式(如言语等)对交互意图的表示,用L表示,通过符号表示可以提取出符号原语。根据符号表示通道或方式的不同,同一符号原语可以对应多种不同的符号表示。例如,以人作为交互主体时,符号原语是人体生理信号,符号表示是定义好的交互符号表示体系,如言语符号规则、指点操作符号规则等;以计算机作为交互主体时,符号原语是未体现交互方式的交互意图指令,符号表示是定义好的指定交互方式下的计算机符号表示语言或规则。
(3)语义三角形中的实体可以理解为交互实体的行为动作与状态变化。实体可细分为两个层次,分别是行为和呈现。行为是交互意图的具体执行动作,在事实上体现了交互意图的目标,用A表示;呈现是实体行为的执行效果展现,用O表示。例如,以人作为交互主体时,实体行为是人体生理信号,实体呈现是人的具体动作,如在触摸屏上的指点操作动作或根据计算机提示做出的具体动作;以计算机作为交互主体时,实体行为是计算机指令执行过程或控制操作部件完成具体动作的过程,实体呈现是计算机对指令执行结果的状态呈现或操作部件完成动作后的最终状态呈现。
在基于语义三角形的自然人机交互模型中,语义三角形的三条边所代表的含义与标准语义三角形一致,分别代表了“象征”“代指”“代表”关系。人机交互行为体现为代表交互主体的语义三角形各基本元素之间的相互作用关系。交互意图通过语义三角形的概念(G)体现,具体的交互通过语义三角形的符号表示(L)与实体呈现(O)完成。当人直接采用主观表达的方式与计算机交互时,人是通过符号表示(LH)将交互意图传递给计算机的,如人以言语形式直接表达出交互意图;当人采用具体行为动作方式与计算机交互时,人是通过实体呈现(OH)将交互意图传递给计算机的,如人的指点操作动作或根据计算机提示放置物体的动作。当计算机采用计算机交互符号直接展示的方式与人交互时,计算机是通过符号表示(LC)将交互意图传递给人的,如计算机交互指令的直接展示;当计算机采用指令执行效果或操作部件执行效果与人交互时,计算机是通过实体呈现(OC)将交互意图传递给人的,如触摸屏的显示效果或机械手的执行结果。
自然人机交互过程可理解为四个子过程,如图2.14所示。
图2.14 自然人机交互模型的交互过程[23]
(1)用户自然交互表达转化过程,表示将人的交互意图(GH)转化为自然用户界面设定的符号表示(LH)或实体呈现(OH)。
(2)计算机自然交互表达识别过程,表示计算机完成对自然用户界面设定的符号表示(LH)或实体呈现(OH)的识别,并转化为计算机概念(GC)。
(3)计算机自然交互表达转化过程,表示计算机将所需表达的概念意图(GC)转化为自然用户界面设定的符号表示(LC)或实体呈现(OC)。
(4)用户自然交互表达识别过程,表示人完成对自然用户界面设定的符号表示(LC) 或实体呈现(OC)的识别,将其转化为人的概念(GH)。
自然人机交互过程既可以由人发起,也可以由计算机发起:由人发起时,按(1)、(2)、(3)、(4)的顺序完成交互过程;由计算机发起时,按(3)、(4)、(1)、(2)的顺序完成交互过程。由人发起的交互过程和由计算机发起的交互过程是周而复始连续发生的,且它们是同时存在的。
为了能更好地理解基于语义三角形的自然人机交互模型,我们以人控制机械手完成水杯移动的自然人机交互场景为例,解释自然人机交互模型各基本要素的含义及对应的人机交互过程。在该场景下,人可以使用语音或指点操作等交互通道将“移动水杯”交互意图传递给计算机,计算机控制机械手完成水杯移动,并通过图形图像展示等交互通道方式向人传递操作过程与结果信息。
以人作为交互主体时,语义三角形中的概念(GH)是“移动水杯”交互意图的抽象;符号原语(PH)是人体生理信号;符号表示(LH)体现为以语言形式表示为“把杯子移动到桌子右端”和在触摸屏上拖动图标到指定屏幕位置的符号设定;实体行为(AH)体现为人在触摸屏上拖动水杯到特定一个屏幕位置的动作;实体呈现(OH)体现为人在触摸屏上最终的行为状态。
以计算机作为交互主体时,语义三角形中的概念(GC)是计算机识别出的“移动水杯”交互意图的抽象;符号原语(PC)是“移动水杯”交互意图的计算机符号,例如可以定义为四元组的形式(“move”“cup”“time”“device”); 符号表示(LC)体现为机械手的控制指令和其所对应的图形图像符号指令;实体行为(AC)体现为机械手移动水杯的操作过程;实体呈现(OC)体现为机械手完成水杯移动的最终效果和以图形图像形式展示出的水杯移动最终效果。
基于此模型,人控制机械手完成水杯移动这一场景的人机交互过程可解释如下:交互过程首先由人发起,人将“移动水杯”的抽象概念(GH)分别转化为语言符号“把杯子移动到桌子右端”或设定的触摸屏操作符号(LH),然后将语言符号直接传递到计算机,触摸屏操作符号通过人的指点操作(OH)将移动杯子所需的位置及相关控制信息传递给计算机;计算机对人给出的语言表示符号(LH)和指点操作(OH)进行识别,对应到计算机的概念(GC);计算机将识别到的“移动水杯”抽象概念(GC)转化为机械手操作指令(LC),控制机械手完成水杯移动操作并以图形图像形式展现(OC);人识别计算机给出的计算机移动水杯结果和图形图像展示结果(OC),将其转化为抽象概念(GH),从而形成一个交互回路。人与计算机通过多次连续交互,最终完成机械手移动水杯的意图。