基于“专注”与“走神”表情识别的线上课堂学生专注度评价研究

2022-12-12李尽秀孙涛

计算机应用文摘·触控 2022年21期

关键词：专注

李尽秀孙涛

关键词：表情识别；眼部关键点检测；表情持续时间统计；专注度评价

1引言

近年来，随着人工智能技术的快速发展，表情识别已成为感知学习情绪最直接和最有效的方式，备受教育技术领域关注。然而，由于表情与认知之间关联度复杂、教育场景复杂多变等，学生表情识别依然是一个开放问题。心理学家MEHRABIAN通过研究发现：“情绪表达=7%的语言+ 38％的姿势表情+55%的面部表情”，面部表情包含丰富直观的情绪信息。研究表明，在学习环境下，面部表情不仅能直观反映学生的情绪状态，还能反映学生的心理状态[2]。

通常而言，课堂环境下学生的面部表情以中性表情居多。然而，中性表情识别的结果并不能作为准确判断学生听课专注度的依据，无法确定学生在中性表情的状态下是专注听讲，还是走神发呆。因此，本文将线上教学环境中学生的中性表情进一步划分为“专注”和“走神”两种子表情，提出了一种基于Dlib眼部关键点检测的“专注”与“走神”表情识别方法，通过计算眼睛高宽比，实现“专注”与“走神”两类表情的识别，并在此基础上设计学生表情持续时间统计算法，计算各表情持续的时间，为线上教学环境中精准判断学生听课专注度提供技术依据与支持。

2相关研究

随着学生表情识别研究的不断深入，国内外学者建立了许多与学生表情相关的数据库，但其构建标准和方法并不统一。目前，大多数研究者在Ekman六类基本情绪（愤怒、厌恶、恐惧、高兴、悲伤、惊讶）理论[3]基础上开展学生表情识别研究，如表1所列。

现有的面部表情识别技术中魏刃佳等[9]基于ASM定位人脸特征点，获取眼部和嘴巴的形变特征，以识别学习者的疲劳情况。韩丽等[10]基于AAM对课堂环境下学生面部关键点进行标记，依据建立的形状模型提取多姿态人脸特征，有效解决了人脸姿态的多样性，取得了较好的识别效果。徐振国[11]设计了一个7层CNN模型，能够快速准确地识别学生的面部表情，进一步提升判断学生的情绪整体状态的效果。

基于眼睛特征的方法是对眼睛特有的形状、虹膜与眼白的像素差等固有的特征进行检测，这些方法实现简单。侯向丹等[12]根据眼睛与周围区域的对比度检测眼睛候选区域，并利用在水平和竖直方向的积分投影法定位眼睛，而当头部姿态变化时，积分投影误差较大。RUILIAN利用霍夫变换法对眼睛的椭圆形状特征进行检测，但在多姿态下眼睛形状变化较大。为解决多姿态下的眼睛定位问题，KIM等[14]提出一种基于多尺度虹膜形状特征的方法，首先进行人脸定位，然后利用多尺度虹膜特征提取眼睛候选区域，最后对眼睛候选区域进行分类筛选，得到最终的眼睛位置。由于在现实的无约束环境下，眼睛的形状、虹膜等固有特征很容易受到影响，所以这些方法在现实条件下的效果都不理想。

3工具介绍

Dlib是一个现代C++工具箱，其中包含机器学习算法和在C++创建复杂软件以解决实际问题的工具。它广泛应用于工业界和学术界，包括机器人、嵌入式设备、移动电话和大规模高性能计算环境。Dlib的开源许可证允许它在任何应用中免费使用。Dlib包含很多模块，近年来，学者主要关注于机器学习、深度学习、图像处理等模块的开发。它的主要特点也非常多，其中包括文档丰富、高质量的广泛兼容的代码等，而在图形模型推理算法中，加入树算法可以在贝叶斯网络中进行精确推理。在图像处理技术中，用来读取和保存常用图像格式的是一种例行程序。针对各种像素类型之间的自动颜色空间转换，常见的图像操作，如边缘检测和形态学操作，SURF，HOG和FHOG的特征提取算法，还可作为图像中目标检测的工具，包括正面人脸检测和目标姿态估计以及应用高质量的人脸识别。

4基于眼睛关键点检测的“专注”与“走神”表情识别

4.1人脸数据集

视频数据采集于内蒙古科技大学线上腾讯会议授课环境，采集工具为笔记本电脑摄像头，视频来源则是对学生听课场景的录屏操作。所采取的视频为5段不同学生的上课视频，视频格式为MP4，如图1所示。将视频通过Video Crop转变为帧数为3帧的图像并保存。

4.2实验设计与实现

本实验中采用的模型是shape_predictor_68_facelandmarks. dat。这是一个人脸68关键点检测模型，如图2所示，利用68个关键点对人脸进行检测。

首先，将数据利用图像处理中的开运算，去除类肤色块中像素点少于100的区域，并分割出人脸区域。其次，标记眼部的6个特征点，每个眼睛区域表示为6个坐标。眼部特征提取算法如表2所列。

即以右眼目青区域的左角为起点，如图3所示，以顺时针方式在眼镜区域的周围设置6个面部特征点。其中，P1为眼睛区域的左角面部特征点的位置，P2为眼睛区域的左上面部特征点的位置，P3为眼睛区域的右上面部特征点的位置．P4为眼睛区域右角面部特征點的位置，P5为眼睛区域的右下面部特征点的位置，P6为眼睛区域的左下面部特征点的位置。

根据采集的眼部6个特征点的坐标来计算每一个学生图像的眼睛高宽比。如公式（1）所示，W为眼睛高宽比的比例。

4.3

实验结果与误差分析

当人眼睁开日寸，高宽比在某个值域范围内波动；当人眼闭合时，高宽比迅速下降，理论上接近于0。洪子梦[15]提出一种基于眼睛长宽比的船舵手疲劳检测方法以及人工判断，当眼睛的高宽比例大于0.25的时候，判定学生为“专注”，并用绿色进行说明，而“走神”的时候则用比较显眼的红色来说明。图4为眼目青特征点识别展示图。

将采集的学生人脸视频利用视频剪辑器剪辑成一个包含两类学生表情的5分37秒视频，并对通过人工统计方法得出的表情进行筛选和对比分析。学生表情数量统计及误差如表4所列。

表4中第一行是人工统计的表情数量：第二行是本算法识别的表情数量：第三行是两种数量统计方法的绝对数量误差：第四行是两种数量统计方法的相对数量误差，其计算方法如公式（2）所示：

在公式（2）中，RE为两种数量统计方法的相对误差；AE为两种数量统计方法的绝对误差；CE为人工统计的学生课堂表情数量。

在线上课堂学生“专注”与“走神”的表情识别中，将眼睛高宽比作为判断学生“专注”与“走神”状态的重要依据，“专注”时眼睛开合较大，而在“走神”时眼睛的开合较小。实验结果表明，该方法识别准确率为95. 1％，误差相对较小，可为线上课堂教学评价提供技术支持。

5表情持续时间统计

学生听课状态与“专注”和“走神”两种表情的持续时间高度相关。表情持续时间统计是通过人脸眼睛关键点识别出视频图像数据中学生的两种表情，并统计眼睛关键点识别出来的视频中表情的视频帧数，再利用表情的视频帧数与视频帧率的关系计算出学生上述两种表情的持续时间，经由公式（3）实现：

在公式（3）中，T为学生表情的时间，count为学生表情的帧数，rate为每秒视频的帧率。学生表情持续时间统计算法如表5所列。

为了验证学生表情持续时间算法及其误差情况，将摄像头采集的五个学生的单个人脸视频剪辑成一个5分38秒的视频，通过人工统计方法得出视频中学生上课表情的时长，同时采用本文算法，将学生上课表情的时间与人工统计时长进行对比分析。学生表情持续日寸间统计及误差如表6所列。

表6中第一行是人工统计的学生表情持续时间；第二行是本算法统计的学生表情持续时间：第三行是两种时间统计方法的绝对误差：第四行是两种日寸间统计方法的相对误差，其计算方法如公式（4）所示：

在公式（4）中，RE为两种时间统计方法的相对误差；AE为两种时间统计方法的绝对误差；CE为人工统计的学生课堂表情持续日寸间。

从表6可知，本文表情持续时间算法中“专注”表情的误差比较小，只有0.1%，基本上满足学生表情识别的检测需求，而“走神”的误差较大，达到了10.4%。经过实验分析，主要是在眼睛的高宽比小于特定值时，“走神”与眨眼的过渡期是有重合的，当学生眨眼时，本算法采取的帧数（3帧）会出现时间差。所以，针对这一现象，可以在后续的实验中提取“走神”的视频，然后在一定的时间内设定一个阈值，如果高宽比处于眨眼的浮动日寸间（0.2～0.4s）范围且小于该阈值，就可判定为眨眼：如果大于该阈值且保持一定的日寸间，就可判定为“走神”。但总体而言，利用学生表情持续时间统计算法基本上能够统计出学生两种表情的持续时间。

6线上课堂学生专注度评价

基于线上课堂学生“专注”与“走神”两种表情识别结果，从以下两个维度开展线上课堂学生专注度评价，具体如下。

6.1线上课堂学生专注度占比分析

网上授课与传统的线下课堂不同，教师与学生在空间上处于分离状态，除了在沟通的时候会出现一定的障碍，更为重要的是，教师并不能第一时间观察出学生上课时的状态，只能通过课堂测验和考试的形式来判断学生整体的学习状态。其弊端显而易见，即教师不能及时在课堂上对学生状态的变化做出调整。

6.1.1学生整体课堂专注度占比分析

学生的专注度可以较为直观地说明学生的听课状态和效果。首先，将线上授课的视频分别截取为每10分钟为一单位的子视频，在每一单元的视频中，将“专注”与“走神”所占的比例来反映一段时间内学生的“专注”与“走神”程度，如图5所示。

通过计算所得学生的“专注”与“走神”两类表情的占比，可以在一定程度上对课堂中学生的“专注”程度做出大致的判断。经过多次实验和查看相关文献，并结合对课堂视频的人为分析结果，可以得出以下规律公式：

在公式（5）中，a表示学生的专注度。对于一般的线上课堂，当班级整体专注度低于0.5时，学生的课堂专注度较差：当专注度在0.5～0.7时，学生的课堂专注度良好：而当专注度高于0.7时，学生整体通常表现得十分专注。

从图5可以看出，在上课开始10分钟左右以及30分钟左右这一时间段中，学生整体专注度偏高，而在20分钟左右的时间段中，可以看出“走神”的比例明显大于“专注”的比例。至此，可以得出整节课的学生“专注”与“走神”程度在各个时间段内的分布情况。例如，在20分钟左右的日寸间段中，学生因线上授课缺乏交流沟通导致专注度降低，教师可以在此时间段安排学生进行小组内交流或者参加一些与课堂相关的趣味游戏来调动学生的专注度，在后面的时间段中可以通过提问等方式使学生更加集中注意力，以提升学生的课堂专注度。

6.1.2学生个体课堂专注度占比分析

针对学生个体课堂专注度占比的分析，以上图4中的女生为例，将线上授课的视频分别截取为每10分钟为一单位的子视频，在每一单元的视频中，用“专注”与“走神”所占的比例来反映一段时间内学生个体的“专注”与“走神”程度，如图6所示。

通过计算所得学生的“专注”与“走神”两类表情的占比，可以在一定程度上对课堂中学生的专注度做出大致判断。結合规律公式（5），当学生个体专注度低于0.5时，学生的课堂专注度较差：当专注度在0.5～0.7时，学生的课堂专注度良好：而当专注度高于0.7时，学生整体通常表现得十分专注。

由图6可知，该女生整体课堂表现得比较专注，只是在20分钟与40分钟之间的时候专注占比有所下降，而在课程的后半段专注度又呈上升趋势。经过实验分析，学生的专注区间类别大致分为三类，一类是学生刚开始上课时较为积极，而随着课堂时间的推移，专注度有所下降。二类是慢热型学生在课堂开始阶段并不是很专注，但是随着时间的推移，慢慢变得有兴趣。三类是学生在课堂中间阶段比较积极，而在课堂开始与结束时却积极性不高。由此可知，针对不同学生的专注度可以做不同的调整。例如，教师可以在不同的时间段穿插兴趣活动，或者分组使不同类型的学生结合起来达到提升专注度的效果。

6.2线上课堂专注度趋势分析

根据线上课堂学生“专注”与“走神”的时间统计结果，首先将线上授课视频分别截取为每10分钟为一单位的子视频，在每一个子视频的时间段中，用专注度趋势来反映整节课堂学生专注度的走势。如图7所示，横坐标表示每10分钟为一时间段，纵坐标表示“专注”表情的比例。

从图7可以看出，在课堂刚开始阶段，学生的专注度呈上升趋势：在15分钟至30分钟时增长较为平缓：35分钟左右此趋势到达顶峰：在35分钟之后，学生专注度则明显有下降趋势：在即将下课的末尾阶段，学生专注度下降的趋势变得较为平缓。由此，可以判断学生的专注度在一定时间内是变化的。

教师可以根据此研究结果在讲授知识难点与授课方式方面进行改进。例如，将知识难点讲授着重放在课程的前半段左右，而在课程的后半段则利用较为活跃的授课方式与知识点相结合，给学生良好的上课体验。而在学生层面，同样是受到上课时间疲劳等因素的影响，在课程的后半段可根据自身条件做出调整。例如，改变学习方法或者调整自我身体因素等。

7结束语

随着5G与人工智能、计算机视觉等先进技术与教育的深度融合，通过学生线上课堂表情识别可有效判断学生课堂专注度。本文提出了一种基于眼睛特征提取的线上教学环境下学生“专注”与“走神”两类表情检测的方法，采用眼部特征点进行表情检测，优点是数据量小、计算速度快。而且，时间统计同样满足误差需求。针对线上课堂，从学生“专注”占比程度与“专注”趋势两个维度做出评价，不仅有助于教师获取实时精准的教学反馈，及时改进教学策略，还能提高课堂教学质量，为教育领域提供技术支持与依据。在未来的研究工作中，可结合视线偏移，设定眨眼时间阈值以及将多种面部特征进行融合，进一步提高表情识别的准确率以及完善线上课堂教学质量评价体系。