上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.5 总体研究框架
本书针对学生课堂学习行为的视觉感知与分析,拟解决以下三个关键问题:学生表情、姿态等图像数据集建立;学生表情、姿态等自动识别方法;学生多模态课堂数据融合计算。本书研究内容的逻辑关系图如图1-3所示。
图1-3 本书研究内容的逻辑关系图
首先,本团队通过对试验场景的科学布置采集得到学生课堂学习的序列图像,针对不同的视觉任务,需要进一步对采集到的图像进行去噪、裁剪、旋转等后处理,再通过人为标注或自动标注技术对处理好的数据图像进行真值标注。然后,使用基于深度学习的自动识别技术,预测结果将不断地向真值标注逼近,最终得到一个较为准确的预测结果。本书涉及的自动识别技术包括学生表情识别、视线估计、头部姿态估计、人体姿态估计。在表情识别方面,提出基于高斯先验分布的表情识别方法和基于图卷积网络与K最近邻图的面部表情识别。在视线估计方面,本书涉及基于头戴式设备和基于复合损失卷积神经网络的两种视线估计方法。在头部姿态估计方面,有基于各向异性分布的头部姿态估计、基于三元组网络架构的头部姿态估计和基于矩阵费雪分布的头部姿态估计。在人体姿态估计方面,提出基于骨骼线索感知的HPE模型构建和基于像素表征学习的CHRNet网络设计。最后,为了综合利用各视觉任务的过程性结果和结论性结果来获得学生学习状态的准确分析,本书介绍了三种多模态融合方法:过程性融合、决策性融合和混合性融合。以上通过对学生课堂学习行为的智能分析,实现对学习规律的科学解释,促进教学成效。