基于深度学习的教师注意力识别与应用
2020-11-11刘荣华
刘荣华, 范 诚
(1 云南大学 职业与继续教育学院, 昆明650091; 2 昆明理工大学 农业与食品学院, 昆明650504)
0 引 言
人类的注意力体现着人们重要的动机和认知取向[1],师生互动是教师教育教学工作实现的重要载体[2]。 师生互动中,教师注意力的分配与转移影响着课堂教学效果,而教师具有较强的注意分配能力是促使学生集中注意的一个必要条件[3]。 因此,对课堂教学环境下,教师注意力的识别与分析具有重要意义。 本研究基于课堂实录视频,采用人工智能中的图像识别技术,提出在教室自然场景下对教师注意力的识别方法,并进行量化分析与评价,进而提高教师对自身注意力的意识,为培养教师较强的注意分配能力提供理论依据。
1 相关研究及进展
在教学过程中,师生的课堂行为、学生的学习记录等环节,都会产生大量的实时数据。 利用深度学习和人工智能技术,可以将这些数据充分利用起来,优化教育教学的发展。 陈靓影等人通过对头部姿态、面部表情、课堂互动多模态信息识别与融合,提出了学生学习兴趣的智能化分析方法[4];徐振国等人提出了基于深度学习的学习者情感识别方法,能够快速、准确的识别学习者情感[5];郭晓旭等人采集了真实课堂环境下的学生数据,提出了基于微表情的学生课堂专注度识别[6]。 以上研究可以看出:关注学生课堂行为数据的研究中,大多集中在学生学习兴趣、课堂专注度和学习者情感等方面,而关注教师行为数据的研究较少;其次,深度学习在教育领域的研究已经取得一定的进展,基于深度学习的教师注意力的识别具有可行性。 然而,在真实课堂环境下,教育场景的复杂性带来了背景信息的冗余,教师注意力的变化涉及头部、姿势、目光等多维度信息。 为解决以上问题,本研究采集了多种真实课堂环境下的教师图像数据集,进一步提高了识别模型的泛化能力;由于YOLOv3 算法对小目标物体检测具有较高的精度和速度[7],本研究采用该算法来满足实时检测需求;头部姿态在注意力方向中的贡献占40.3%[8],人的注意方向可以根据头部姿势预测[9]。 本文在头部姿势的基础上增加了手势、动作等多维度识别特征,提高了教师注意力识别的可靠性。
2 注意力识别方法与模型
2.1 深度学习
深度学习是人工智能领域一个研究方向,它可以高效的提取复杂数据的特征,学习不同类型的知识[10],被广泛应用于图像识别、语音识别、自然语言处理等方面。 卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中具有代表性的一种网络结构,主要用于图像识别。 本研究提出使用基于TensorFlow 开源框架的YOLOv3 神经网络,来实现教师注意力的识别。 YOLOv3 网络结构如图1 所示。
图1 YOLOv3 网络结构Fig. 1 YOLOv3 network structure
YOLOv3 主干网络采用53 层卷积层,包含了多组残差模块。 在训练过程中接收416×413×3 大小的图像作为输入。 具体流程如下:
(1)通过卷积块提取特征,经过残差模块进一步提取深层特征,分别生成13×13,26×26,52×52 三种特征层。 其中,上层特征层的网络会进行上采样后与下层网络进行融合,能有效保留物体的浅层信息,有利于提升物体的检测精度。
(2)通过对特征层的融合进行图像的识别定位。
(3)通过softmax 激活函数对物体进行分类。
由于本研究教师注意行为有4 种,故网络模型的输出有4 种类别。
2.2 教师注意力识别
通过采集真实课堂中教师4 类注意行为的图像作为数据集,进行YOLOv3 网络模型的训练,生成权重文件;对识别结果进行统计,分析教师每节课中的注意力变化趋势,进而传输到相应的教师移动端,供教师参考和反思。 教师注意力检测分析流程如图2 所示。
图2 教师注意力检测流程图Fig. 2 Flow chart of teacher's attention detection
3 数据采集与处理
3.1 特征定义
在日常教学中,经常会发现有些教师的注意力只集中于授课内容,而忽视了讲台下的学生学习活动,因此很容易造成学生缺乏学习兴趣的现象。 因此,本研究提出4 种对教学效果影响较大的典型课堂注意对象类别:首先将教师的注意力对象分为教学内容和学生表现两个方面;其次将教学内容细分为板书和课件两种;将学生表现分为学生听课状态和学生练习情况。在视频观察的基础上,总结出每类教师注意对象的行为特征,包括头部姿势、手势、动作等特征,并且对每类注意行为进行编码,如表1 所示。
表1 教师注意力分布编码表Tab. 1 Teacher attention distribution code table
3.2 数据采集
由于课堂教学环境差异较大,为获取真实环境下的数据,本研究在国家教育资源服务平台中选取了40 节中小学课堂教学实录视频。 其中包括不同年龄、不同性别、不同科目的教师课堂实录视频,每间隔3s 左右采集课堂教学实录视频中的一帧图像作为数据样本,将其中模糊或者不包含教师的图像删除,获得包含4 种编码行为的教师注意力图像。
3.3 数据预处理
通过对原始图像进行裁剪、旋转及镜像等方式来扩大数据集,最终获得的教师注意力数据集共3 600张图片,每种编码行为约900 张图片,将该数据集按比例分为训练集与测试集。 按照教师注意力分布编码表,使用Labellmg 标注工具对图像中的关键特征用矩形框进行标注,标注后的图像数据保存为PASCAL VOC 格式。
4 实验
4.1 实验配置与步骤
(1)实验环境。 本实验的主要设备配置包括:GTX1060(GPU)、6G 显存、I7-8750(CPU);软件环境采用TensorFlow 开源深度学习框架、OpenCV、Cuda、Cudnn、Python 等完成。
(2)实验步骤。 ①数据采集。 采集课堂实录中教师4 中注意行为的图像。 ②数据预处理。 对采集的图像进行预处理,主要包括数据标注和数据增强。③模型的训练与调整。 搭建YOLOv3 网络结构及设置相关参数后,在TensorFlow 框架中迭代生成权值模型。 ④模型测试与评价。 在实验过程中可通过记录每幅图像的检测时间来衡量模型的实时性。 从图像测试集中随机抽取图片作为模型评价数据集,重复进行3 次检测后对各变量取值计算平均值,计算每种注意行为的识别正确率与速率来评估算法性能。
4.2 实验结果与分析
图像检测效果如图3 所示。 图3(a)用蓝色方框标记了教师板书的行为,此时注意对象为多媒体课件,该行为编码为1;图3(b)用紫色方框标记了教师侧对的行为,此时注意对象为讲授内容;图3(c)用红色方框标记了教师面向学生讲授的行为,此时注意对象为学生的听课状态,编码为3;图3(d)用绿色方框标记了教师巡视和个别指导的行为,此时注意对象为学生练习情况,编码为4。
图3 教师注意力检测结果示例Fig. 3 Example of teacher attention detection results
为了达到最好的识别效果,比较多个权重模型,找到准确率、召回率、调和平均值以及精度均值最好的模型,选出最好的训练模型对真实的课堂教师注意力检测中进行识别与分析。 本研究统计了三次随机实验的平均精度,采用F 值作为综合评价指标,其算式如式(1)所示。 式(1)中, RS 表示正确识别图像中的目标,FS 表示非正确识别的目标, FN 表示非识别的目标。P 表示正确率,R 表示召回率, F为调和平均值。 不同类别的检测正确率和速率如表2 所示。
表2 不同类别的检测效果比较Tab. 2 Comparison of detection effects of different categories
5 结束语
综上所述,将基于深度学习的图像识别技术应用到课堂教学教师的注意力识别中,实现对教师注意力分配的智能分析与实时检测,有利于辅助教师教学的评价与培养教师注意分配能力,提高教师专业素养。 本研究训练出的教师注意力识别模型,具有较高的准确率和识别速度。