课堂学习行为的视觉感知与分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 国内外的研究现状

课堂学习行为主要表现为学生在课堂中的心理情感状况、注意力集中程度、学习意图、参与度、投入度及学习兴趣等方面。在这里对课堂学习行为的视觉感知和国内外的研究现状进行介绍。

1.3.1 课堂学习行为的视觉感知

通过采集学生在课堂中的视频数据,利用视觉感知的相关技术处理这些数据,分析心理情感状况、注意力集中程度、学习意图、参与度、投入度及学习兴趣等状态,辅助教师调整后续教学的方案,从而对学生进行个性化教学,有助于提升学生的学习效果。

早期,Stanley等人使用Kinect设备采集人体骨骼关键点,通过计算学生的人脸姿态转向和人体姿态的倾斜特征来分析学生的注意力。Ashwin等人通过检测学生的面部表情来描述用户表达的情绪,并相应地改变教学策略。实验结果表明,在不同的数据集下,该系统的准确率可达89%以上。Chen等人通过头部姿态、眼睛注视跟踪、面部表情识别、生理信号处理和学习进度跟踪等混合智能方法,利用多模态视觉感知学生的情感状态。基于所提出的学习模型,对收集到的多模态信息进行融合,该系统提供在线干预,并根据学生当前的学习状态调整在线学习的教学策略。华东师范大学杨金朋等人提出了一种在线学习情感计算系统的体系构架,该系统通过在学生端安装深度摄像装置,实时获取学生的面部表情,并进行实时的分析和处理,对分析的情感采取对应的干预措施,从而进一步提高在线学生的学习效率。Wang等人为了帮助学生克服网络学习环境中容易出现的注意力不集中、反应迟缓等不利因素,设计了一种视频分析算法来检测注意力下降的情况,并及时反馈或提前预警。该算法以头部姿态、视线、面部表情特征为注意力的属性,将机器学习的分类器应用于编码行为特征,最后通过行为特征的时间序列统计来评价注意力水平和情绪愉悦度。

近年来,贾鹂宇等人基于课堂视频,采用人工智能的方法,对学生状态进行分析并对指标进行量化:通过深度学习算法对学生数量进行检测,通过机器学习算法对学生位置分布进行分析、对学生人脸关键点进行检测并对学生表情进行分类,该课堂评价体系具有信息反馈的实时性和高效性,可辅助教师改进授课方式。华中师范大学魏艳涛等人为了提高智能化学生行为识别的精度,首先采集了300名志愿者的7种典型课堂行为图像,并进行了数据预处理,将在ImageNet数据集上训练好的经典深度网络模型迁移到学生课堂行为识别任务中,研究表明基于深度学习的学生课堂行为识别能及时、精准地反馈学生的课堂学习情况,有利于教师改进教学方法、优化课堂教学与管理,从而提高教与学的效率,助力教学改革。Revadekar等人提出了一个三重解决方案检测学生的注意力。其中,基于姿势的注意力检测模型的准确率为99.82%,而通过测量睡意和情绪来检测注意力的两种方法也取得了令人满意的效果。华东师范大学王泽杰等人利用OpenPose算法提取的人体姿态全局特征,融合YOLOv3算法提取的交互物体局部特征,对学生行为进行了识别分析,提高了识别精度;选取与学习投入状态紧密相关的4种行为:正坐、侧身、低头和举手进行识别,该检测与识别方法在验证集上的精度达到了95.45%,在课堂上玩手机和书写等常见行为的识别精度较原模型有很大的提高。陈藩等人提出了一种改进的多任务级联神经网络来对课堂中的学生进行疲劳检测,构建眼、嘴数据集,完成眼、嘴状态分类模型训练。实验结果表明,该方法的准确率达到了95.7%,同时实时性得到了极大的改善。

综上所述,越来越多的研究者对课堂学习行为进行了大量的研究,视觉感知的相关技术被广泛应用于课堂教学中,并取得了令人瞩目的效果。这些研究表明,随着技术的发展,将会有更多的方法和手段获取学生的课堂学习数据并进行智能的感知和分析,为教师开展后续的教育教学提供了极大的帮助。

1.3.2 分析国内外的研究现状

目前,面部表情识别、视线估计、头部姿态估计、人体姿态估计等计算机视觉感知技术被广泛应用于课堂教学中,通过相关的识别感知技术和算法,为后期多维度的特征提取与融合奠定了基础。

1)面部表情识别国内外研究现状

面部表情是人类传达非言语行为的重要线索,通过计算机可以尝试分析出人类的面部表情,从而理解人类在互动和交流中的情绪。近年来,面部表情识别在疲劳驾驶、人机交互、课堂情感分析等方面应用广泛,受到越来越多研究者的关注。随着深度学习的发展,采用深度学习的方法进行大规模人脸表情识别相较于传统的手工提取特征的方法,能够获取更具有鲁棒性的特征,因此基于深度学习的方法逐渐成为人脸表情识别算法研究的主流方向。

(1)基于图像的静态人脸表情识别。

早期,卷积神经网络在图像分类领域取得了巨大的进展,Mollahossein等人提出的VGGNet模型,可以缩短模型的训练时间并取得较之前方法更高的表情分类准确率。但是,该方法需要依赖大量的训练参数,并且耗费较多的计算资源。王晓峰等人提出了一种自适应重加权池化深度多任务学习的表情识别,设计孪生神经网络,通过自适应重加权模块动态调整缩放概率参数,得到具有不同置信度的类别标签信息。该方法没有考虑低质量的面部表情图像及标注员的主观性导致的不确定性,Wang等人为了抑制大规模人脸表情识别中的不确定性提出了自愈网络(Self-Cure Network,SCN),该网络建立在传统卷积神经网络(Convolution Neural Network,CNN)的基础上,添加了重标记模块来修改低重要性组中的一些不确定样本,寻找更多干净的样本,增强最终的模型。当给定标签的概率不同时,使用相同的阈值作为重标记的标准是不公平的。Li等人提出了一种视觉遮罩Transformer网络模型,主要包含两个关键模块:遮罩生成模块和动态重标记模块。遮罩生成模块生成的遮罩可以有效滤除人脸图像的背景和干扰,保留表情信息部分,提高分类的精度;不同于SCN模型中重标记模块的固定阈值,动态重标记模块的阈值随给定标签的概率而变化,训练过程更稳定,从而提高了野外环境下人脸表情数据集上的性能。Chen等人提出了一种基于辅助标签空间的标签分布学习,利用相关任务标签空间中的拓扑信息来挖掘隐藏标签重要性的函数。

(2)基于视频的动态人脸表情识别。

Feng等人提出了一种基于双流结构的动态面部表情识别方法,该方法既关注了表情的空间特征,又关注了表情序列中的时间信息。该方法没有考虑到表情数据的拓扑性结构,Liu等人将图卷积网络(Graph Convolution Network,GCN)层引入基于视频的FER模型中,首先利用GCN层在提取的CNN节点特征之间共享信息后,GCN集中在特定区域学习更显著的面部表情特征,然后应用长短时记忆网络(Long Short Term Memory,LSTM)层来学习从GCN层学习到的特征之间的长距离依赖关系,从而对变化进行建模;此外,还设计了一种权重分配机制,通过对每一帧的表达强度进行表征,对不同节点的输出进行权重分配以进行最终分类。考虑到面部表情的特征之间具有长距离依赖关系,Zhao等人提出了一种时空融合多头注意力机制对面部表情进行识别,使用卷积空间Transformer学习所有类之间的相关性。该方法忽略了表情中的细粒度特征,Xue等人提出了一种基于平滑预测由粗到细的级联网络,首先将几种相似的表情进行分类,形成一个粗分类,然后利用网络进行粗略但准确的分类,最后进一步进行细粒度的分类,实验表明该方法提高了人脸表情识别的性能。考虑到人脸的空间信息表征和时间动态建模是动态面部表情识别的关键,Xia等人提出了一种用于动态人脸表情识别的端到端多尺度注意力网络,该方法能够在时空特征两个尺度上编码,学习显著的面部特征。

2)视线估计国内外研究现状

(1)基于眼球模型的方法。

基于眼球模型的方法是将眼球模型建立成两个球体,根据光路在眼球中的传播路径分析眼球转动的角度。人眼结构模型如图1-2所示,人眼的光轴和视轴是不重叠的。基于眼球模型的方法通常使用人眼的几何特征,如瞳孔、角膜或红外光反射形成的普尔钦斑,通过对眼睛特征的变化和注意力位置之间的二维回归函数建模来进行视线估计。这些方法根据实施原理的详细差异,可以细分为瞳孔—眼角法、瞳孔—角膜反射法、交叉比值法和单应变归一化法。

图1-2 人眼结构模型

瞳孔—眼角法假设头部静止时人眼角的位置是固定的,当视线方向改变时,从瞳孔中心指向眼角的矢量会相应改变。因此,首先通过检测红外摄像机拍摄的图像中人眼的瞳孔中心和眼角的位置来计算瞳孔—眼角矢量,然后用一个二维回归函数来拟合这个矢量和视线之间的对应关系。为了简化回归模型,同时保持较高的预测精度,Yu等人通过人眼和屏幕的二维几何模型估算视线。他们利用了一个误差补偿函数,所以模型需要更多的人眼特征,算法也更加复杂。

为了解决在没有光源的单机系统中很难准确检测眼角点的问题,瞳孔—角膜反射法在系统中加入了红外光,用红外光通过角膜反射形成的普尔钦斑代替眼角点,作为眼睛运动的参考点。虽然瞳孔—眼角法和瞳孔—角膜反射法的要求不高,操作简单,但它们需要提取瞳孔、眼角或角膜的多个校准点来实现准确的二维回归模型,这导致了算法的实时性不高。此外,瞳孔—角膜反射法要求受试者的头部保持固定,这限制了它在现实中的应用。

交叉比值法利用了投影几何中的交叉比值不变性。这些系统一般包含至少四个光源,分别位于屏幕的四个角。当受试者看屏幕上的某一点时,四个光源会在角膜上形成反射,形成普尔钦斑。根据交叉比值不变性,四个光源形成的多边形的一侧的交叉比值应等于普尔钦斑形成的多边形对应一侧的点的交叉比值,然后根据公式可以得出屏幕上视线的位置。Kang等人着重研究了基于交叉比值法的估算的误差来源,一是视轴和光轴之间存在一定的偏离角;二是真正的瞳孔中心不在角膜的反射面上。通过比较三种基于交叉比值法的视线估计方法,一些研究者还提出用偏移矢量来补偿视轴和光轴之间的偏离角,并通过实验比较表明这种方法的优越性。而为了改善瞳孔中心不在角膜反射平面上的问题,Cheng等人提出了使用动态虚拟切面的想法,通过动态矩阵描述光源反射点和虚拟点之间的关系,进一步提高了视线估计的准确性。交叉比值法的优点是进一步减少了所需的外部设备,还可以在自由姿态下进行视线跟踪。然而,由于真正的瞳孔中心不在角膜的反射平面上,这种方法只是一个近似的模型。

单应变归一化法与交叉比值法相似,也包括至少四个光源。这种方法放弃了单一的二维回归函数,根据瞳孔中心与角膜反射面共面的假设,从两个投影变换矩阵中计算出视线的位置。这种方法可以弥补瞳孔—角膜反射法和交叉比值法的误差。然而,为了解决这两个转换矩阵,需要四个光源来维持人眼的反射,这就会给受试者带来不便。除此之外,在归一化平面和屏幕之间校准投影矩阵的过程会增加工作的复杂性。

(2)基于头戴式设备的方法。

随着在图像平面或屏幕上预测注视点(Point of Regard,PoR)研究的成熟,人们对估计3D空间中的人类注视越来越感兴趣。通常,3D PoR被计算为两个眼睛注视向量的交集。然而,这种三角测量方法依赖于眼睛注视向量的准确估计。商用眼动追踪系统(如Tobii Pro Glasses)基于多个闪光和两个眼睛摄像头来估计视轴,这需要高度控制和校准的结构,可以使用多层感知获得PoR的深度。然而,它需要系统捕获双浦肯野图像作为输入,其检测在实践中可能非常具有挑战性。Li等人提出了一种改进深度预测的方法,该方法采用两层神经网络,输入瞳孔的中心位置、尺寸和左右眼的旋转角度。尽管如此,它可以在预设距离内工作,并且尚未讨论校准体积之外的性能。有一些研究直接从眼睛外观映射3D PoR,但它们中的大多数都在远程设备上工作,并且需要大量的训练数据来构建回归模型以实现良好的估计。

对于头戴式移动设备(Head-Mounted Device,HMD)的精确注视估计,校准一直是一项重大挑战。由于基于标注的校准方法很麻烦,有时对于移动设备可能不切实际,因此提出了自动校准技术作为凝视研究的关键课题。一些研究采用人类的主动交互动作,如鼠标操作或受试者视野中的手势来确定他们的视觉位置。此外,观看者的注视模式被视为实现系统自动校准的重要线索。然而,这种方法通常依赖于特定的活动或环境,其灵活性是有限的。通过角膜图像和自然特征跟踪,通过将瞳孔中心直接映射到显示器来近似3D PoR。然而,在实践中捕捉角膜上的场景反射可能非常困难,尤其是当瞳孔旋转到极端位置时。Wang和Ji提出了一种不需要显式个人校准的3D视线估计方法,但该方法基于许多约束条件实现,这限制了其应用范围。由于人们在生物学上倾向于观察场景中的显著区域,因此显著区域与人类注意力之间存在密切相关性。事实上,实验已经证明了视觉显著性和PoR之间的相互关系。Sugano等人利用显著性图来校准他们的眼动追踪系统,但它是为远程系统设计的。论文针对HMD提出了一种基于显著性的自动校准方法,尽管如此,它需要用户特定的眼睛参数作为先验知识。

(3)基于外观的方法。

与基于眼球模型的方法不同,基于外观的方法通过对输入的人脸或眼睛图像进行计算非几何图像特征,最终以获取视线的方向。基于外观的方法主要是将视线估计问题转换为学习从图像直接到最终视线方向的一个映射函数,所以说可以利用各种深度学习的方法来对模型进行求解。

基于外观的方法面临着许多挑战,如头部运动和主体差异,尤其是在不受约束的环境中,这些因素对眼睛外观有很大影响,并使眼睛外观复杂化。由于拟合能力较弱,传统的基于外观的方法无法优雅地处理这些挑战。

卷积神经网络(CNN)已被用于许多计算机视觉任务中,并表现出出色的性能。Zhang等人提出了第一个基于CNN的注视估计方法来从眼睛图像中回归注视方向,他们使用CNN从灰度单眼图像中提取特征,并将这些特征与估计的头部姿势连接起来。与大多数深度学习任务一样,网络结构越深,感受野越大,可以提取的信息量越多。其性能超过了大多数传统的基于外观的方法。在这项研究之后,出现了越来越多的基于CNN的注视估计方法的改进和扩展。人脸图像和视频被用作CNN的输入以进行注视估计,这些输入提供了比单独使用眼睛图像更有价值的信息。Zhang等人提出了一些方法来处理在不受约束的环境中的挑战。Zhang等人进一步扩展了他们之前的工作,并提出了一个GazeNet,它是一个从16层VGG网络继承的13层卷积层神经网络。Zhang等人证明了GazeNet优于之前提出的基于LeNet的方法。Chen等人使用扩张卷积来提取高级眼睛特征,这有效地增加了卷积滤波器的感受野大小,而不会降低空间分辨率。

早期基于深度学习的方法从单眼图像中估计凝视。最近的研究发现,连接两只眼睛的特征有助于提高视线估计的准确性。Fischer等人使用两个VGG16网络从两只眼睛图像中提取个体特征,并将两只眼睛的特征连接起来进行回归。Cheng等人构建了四个CNN流,用于从两只眼睛图像中提取特征。两个CNN流用于从左/右眼图像中提取单个特征,另外两个CNN流用于提取两只眼睛图像的联合特征。他们声称两只眼睛是不对称的。因此,他们提出了一个不对称的回归和评估网络来从两只眼睛中提取不同的特征。然而,之前的研究只是简单地将左/右眼特征连接起来形成新的特征向量,最近的研究提出了使用注意力机制来融合两只眼睛的特征。Cheng等人认为,由于其的特定任务,两只眼睛的特征的权重是由人脸图像确定的,因此他们在人脸特征的指导下分配权重。Bao等人提出了一种自我注意机制来融合两只眼睛的特征,他们连接两只眼睛的特征图,并使用卷积层生成特征图的权重。

3)头部姿态估计国内外研究现状

头部姿态估计任务是从二维数字图像中推断出三维空间下学生的头部朝向,包含三个方向角:偏航角Yaw、滚转角Roll和俯仰角Pitch。头部姿态偏转角为分析学生的注意力、动机和意图提供了强有力的线索。现有的头部姿态估计方法主要分为三类:基于关键点的方法、基于辅助信息的方法和基于深度学习的方法。

基于关键点的方法要先检测面部关键点,然后使用平均头部模型解决二维到三维映射问题,从而回归相应的头部姿态角。早期,Sun等人提出了一种级联卷积网络来生成面部关键点检测器,该方法可以避免遮挡、较大的姿态变化和极端光照导致的关键点标注困难的问题。接着,闵秋莎等人利用Hough圆检测方法定位眼睛和鼻子,将眼睛、鼻子定位结果与正脸头部姿态中的眼睛、鼻子进行对比,从而对不同的头部姿态进行粗估计。之后,EVG-GCN先检测面部关键点,选择一部分关键点构建关键点连接图,再利用图卷积网络对图类型和头部姿态角之间的复杂非线性关系进行建模。这类方法的检测精度在一定程度上取决于关键点检测的准确度,同时,检测关键点也会产生额外的时间和空间成本。

基于辅助信息的方法需要利用时序信息、深度图像或3D点云等数据。陈国军等人提出了基于深度图像来估计头部姿态角。深度图像提供了2D图像中所缺少的空间信息,但是深度图像的获取需要特定的摄像机,其价格昂贵,不便于推广。Xu等人提出了一种基于深度神经网络和3D点云的头部姿态估计方法,该方法利用采样的3D点云和图卷积神经网络作为输入。Gu等人提出了递归神经网络来联合估计和跟踪视频中的面部特征。视频序列可以提供额外的信息来帮助姿态估计,但学习时间信息通常是通过递归结构实现的,计算成本很高。

基于深度学习的方法是指利用神经网络对大量头部姿态数据进行学习,以得到一个自动预测模型。本研究团队提出了一种新的各向异性角度分布学习(AADL)网络,其用于头部姿态估计任务。基于AADL的卷积神经网络以端到端的方式提取头部姿势图像的特征。实验结果表明,首先所提出的基于AADL的标签具有多个优点,如对头部姿势图像丢失的鲁棒性,对运动模糊的不敏感性等。接着,本团队提出了一种稳健的三分支模型MFDNet,用于从RGB图像中估计头部姿态。MFDNet由三元组模块和矩阵费雪分布模块组成。通过对不同的位姿对和相同的位姿对三种输入设计三元组模块,可以有效地限制身份、遮挡和光照变化的干扰。齐永峰等人提出了一种基于ResNet101和三个欧拉角所对应的分支所组成的多损耗网络,其从图像中预测头部姿态欧拉角。Valle等人提出了基于深度学习的多任务头部姿态估计,该模型利用头部姿态估计、面部对齐和关键点可见性之间的强大依赖关系,为这三个任务生成一个最佳的执行模型。Hempel提出了一个基于卷积神经网络的头部姿态估计方法,通过为真值引入旋转矩阵形式来解决标签不明确的问题,并提出了一种用于直接回归的连续6D旋转矩阵表示,通过这种方式,该方法可以学习全旋转外观。Dhingra将Transformer编码器和深度可分离卷积层联合构建了一个轻量级的网络,其从图像中提取特征,从而估计头部姿态偏转角。Transformer编码器架构可以通过位置嵌入来学习图像中的空间信息,同时通过自注意力机制捕获长距离的依赖关系。

4)人体姿态估计国内外研究现状

人体姿态是学生课堂学习行为的一个重要组成部分。人体作为一个灵活而复杂的非刚性物理实体,具备众多属性,如身体边缘形状、身体骨骼或身体关节的位置、人体运动学特征结构、人体表面纹理等。一个优异且完善的人体模型需要根据特定任务的要求囊括所有满足其要求的人体属性,从而建立恰当的姿态特征描述符。人体姿态估计(Human Pose Estimation,HPE)方法通常可以分为三类:基于人体骨架的模型、基于体量的模型和基于人体边缘轮廓的模型。本书的姿态估计研究针对基于人体骨架的模型(也被称为棒状图或运动学模型),其代表一组关节位置和相应的骨骼方向,遵循人体的骨架结构。因此,HPE的目标是根据输入的视频或图像,检测其中的人体关节点的位置,并对关节点进行最优连接。相较于传统需要人工设计并提取特征的方法,采用深度学习技术进行人体姿态估计,能够更加充分地得到图像信息,提取更具鲁棒性的特征,故成为人体姿态估计领域的主流研究方向。

由CNN构造的AlexNet模型在2012年的ImageNet图像识别比赛中夺得冠军,且碾压第二名(SVM方法)的分类性能,这使得CNN开始受到众多研究者的注意。基于CNN的体系结构有助于学习到图像的全局上下文信息,并获取不同接收域的多尺度结合点特征向量。因此,它可以提取出最接近真实的场景信息。2014年,Toshev等人提出了DeepPose算法,其首次将深度神经网络模型应用到人体姿态估计领域,将HPE表述为关节点直接回归问题。该模型首先在初始阶段利用深度神经网络基于全局图像上下文粗略推测出关节点位置,然后分别以每一个关节点坐标为中心,裁剪出一个小邻域子图作为本阶段回归的输入,从而为网络提供细粒度图像信息修正原来的坐标值。之后,Wei等人提出了卷积姿态机(Convolutional Pose Machines,CPM)——一种基于序列化的网络结构,其以Pose Machines算法为基础,通过卷积架构的顺序组合学习图像特征和图像相关空间模型,从而进行结构化姿态坐标预测。2014年,堆叠沙漏型卷积网络结构(Stacked Hourglass Networks,SHN)被Newell等人提出。这种基于编码器和解码器的模型结构相较于CPM的顺序卷积结构,卷积核尺寸更小,因此更加简洁、高效。紧接着,Sun等人提出了一个并行连接的高分辨率网络(High-Resolution Networks,HRNet)来代替大多数现有的串联方案。这种方法避免了从低分辨率恢复到高分辨率的低效过程,而直接并行执行重复的多尺度融合以增强分辨率表示。以上所提及的模型都属于自上而下(top-down)的HPE方法,这种方法遵循两个主要步骤:首先通过一个人体检测器检测出图像中的每个人体实例,然后裁剪出单个人体区域对其关节点进行检测。top-down方法的结果准确性严重依赖于人体检测器的性能,且计算复杂度会随着人体实例数量的增多而增长。为了克服top-down方法所具有的缺陷,DeepCut模型首次采用自下而上(bottom-up)的方法解决HPE任务,其基本思路:先检测出图像中所有可能的人体关节点,然后采用一种聚类算法将属于同一人体实例的关节点组合起来得到最终的每个人的关节点预测结果。DeepCut和之后进一步改进的DeeperCut方法应用整数线性规划来解决关节之间的关联问题。之后,其他一些结合贪婪编码的方法被提出,这使得预测时间大大减少,如部位亲合场、部位关联场概念的提出和关联嵌入模型。bottom-up方法的缺陷在于其需要的后处理分组操作是一种试探性策略,在设计时需要人为考虑许多技巧,这导致bottom-up方法虽然比top-down方法时间上更快,但性能更糟糕。

不论是top-down方法,还是bottom-up方法,它们都经过两个不连续的步骤对一幅图像进行人体姿态估计,同时需要一些后处理操作,如感兴趣区域裁剪、非极大抑制和关节点分组等,因此属于两阶段(two-stage)。最近,单阶段(single-stage)方法受到了广泛的关注,它致力于消除众多后处理,克服上述两种方法的缺陷,以端到端的方式得到人体姿态估计的预测结果。SPM提出了一种结构化的姿态表示,来统一人体实例和身体关节的位置信息。由于回归结果较弱,CenterNet提出了将回归的关键点位置与关键点特征图中检测到的最近的关键点进行匹配。Point-set anchors采用类似于可变形的卷积对预定义的姿态锚点进行细化,缓解了特征不对称问题。FCPose和InsPose利用动态实例感知卷积来解决多人姿态估计问题,实现了比其他单阶段方法更好的精度/效率权衡。Xue等人观察到现有的中心偏移方法都面临着定位不准确的挑战,从而导致无法正确预测人体关节点,因此提出了LOGO-CAP模型来学习人体姿态的局部—全局上下文适应。该方法首先在一个小的局部窗口中从局部关键点扩展图学习关键点引力图(KAMs),随后将其作为关键点聚焦的全局特征图上的动态卷积核,用于上下文适应。当前单阶段方法的性能次于top-down方法,因此仍有很大进展空间值得探索。

近年来,兴起于自然语言处理领域的Transformer在计算机视觉领域也得到了广泛的发展,其作用与CNN相当,两者各有优势:CNN中的卷积运算通过聚合来自小邻域中的每个像素,可以很好地减少局部冗余,避免不必要的计算,但有限的感受野使其难以捕获全局依赖;Transformer的注意力机制则能很好地克服卷积所具有的缺陷,即能够方便地捕获远距离依赖,但注意力机制可能会造成高冗余的注意力计算,且编码浅层特征时效率较低。目前,越来越多的HPE方法是综合利用卷积与注意力机制对模型进行设计的,借助各自优点设计出性能、效率更优的模型。PRTR方法和PETR方法同时利用了Transformer中的encoder、decoder两个模块解析出人体关节点坐标,PRTR方法呈现出的是两阶段的结构,而PETR方法为单阶段结构。TokenPose和TransPose首先仅利用encoder部分提取特征,然后经过不同的处理即可得到预测结果,两者的不同之处主要在于token的构造:TokenPose的token只有特征图块,所以需要使用一个预测头处理得到结果;TransPose除了特征图块的token构造,还加入了随机初始化的关键点token,这样预测结果直接保存在了关键点token中,因此只输出关键点token解析得到关键点坐标。考虑到CNN与Transformer所具有的各自互补的优势,构造两者结合的高性能人体姿态模型是目前主流的一种发展趋势。