基于行为表情识别的课堂教学质量评估应用

2019-07-21沈滢

山东青年 2019年3期

沈滢

摘要：随着人工智能与深度学习技术的飞速发展，其应用场景越发广泛，在各个领域中都取得了卓越的成果。本文旨在研究教学分析领域中的课堂教学质量评估问题，基于深度学习技术的优势和特点，本文以实现更高质量的师生交互，精准掌握教学过程为主要目标，重点探索人工智能视频监控分析技术在课堂教学质量评估及课堂教学管理中的运用。本文设计并构建了一套高效率、高准确、高稳定的行为表情识别及分析系统，并将其运用于实际课堂教学中，对实现高质量的课堂教学起到了有效的促进作用。

关键词：深度学习;行为管理;表情识别

提升课堂教学质量是课程改革的重要抓手。实时把控课堂教学质量、洞察学生对教学氛围、教学形式、教学内容的接受程度，有利于教师及时调整课程节奏或授课方式，突出以学生为主导，进而提升教学质量和效率。

传统教学中，教师与学生的互动和交流形式是极为有限的，教师往往只能通过设置提问环节，根据学生回答问题的表现情况获得关于当前教学内容接受程度的反馈，或通过主观观测来判断学生对课堂教学的投入程度，这些交互形式在反馈信息的传输上均存在一定的片面性和滞后性。

近年来，人工智能与互联网得到了飞速发展，其中计算机视觉与视频监控系统的结合在跟踪、检测、行为分析等领域场景中都展现出了极大的性能优势，提供了强大的实时、主动、精准分析能力。

受到智能监控系统所取得的众多应用成果的启发，本文以实现更高质量的师生交互，精准掌握教学过程为主要目标，重点探索人工智能视频监控分析技术在课堂教学管理中的运用，提出利用深度学习算法实现对学生行为、表情等的识别与分析，实时评估并反馈课堂教学质量，以满足高效课堂教学的应用需求。

一、行为表情识别在课堂教学质量评估中的应用及其价值

1.行为管理

学生的课堂行为形态是课堂教学效果的最直观表现，学生在课堂中的行为形态可以初步划分为：正常听讲、举手、书写、站立、俯身这五个类别，分别对应于不同的听讲状态。行为管理指通过一定的技术手段，对课堂上的学生行为进行精确检测和分类，并通过统计方法对课堂教学进行可量化的评估。

本文提出利用基于深度学习的人体检测与行为识别算法，采集、分析学生行为，然后将课堂整体交互状态实时反馈给老师，老师根据结果可以更加有针对性的了解到当前课堂教学中师生的整体互动情况。同时，由于监控系统能够覆盖整个课堂中的每一个学生个体，相比传统课堂教学而言教师会得到更加细致更加全面的课堂教学分析，从而可以用来反思和改正自己教学方法中的不足。

本文提出的课堂行为管理方法中，对于学生行为最终会有五种分类，其中正常听讲和书写两种行为是一个较为普遍的行为，在正常的教学环节中，绝大多数的同学都会处于以上两个状态。而举手、站立和俯身这三种行为，则是属于较为特殊的类别。举手和站立可以非常好的体现当前课堂的学生参与度情况。而俯身，也就是我们通常所说的打瞌睡，在反映了有同学开小差的同时，也一定程度能够反映教师当前的课堂教学可能比较枯燥乏味，从而提示教师需要做出相应的调整措施。

2.表情识别

表情识别指通过一定的算法自动、高效、准确地识别人脸表情状态，进而分析人的情绪表达。心理学研究表明，面部表情在人类情感信息表达中占极其重要的地位。面部表情往往是一种不经意的流露，却通常更真实地反映了一个人的内心活动。

本文在行为检测的基础上，提出通过进一步的表情分析，更细腻地了解学生的真实心理状态，帮助教师掌握学生对课堂教学的感兴趣程度，对当前知识点的关注程度以及理解程度，并根据反馈结果采取相应的教学调控手段。

学生的情感状态极大地影响着学生的学习认知过程，积极的情感状态有利于认知的发生。在传统课堂教学中利用先进的表情分析技术，从而推导学生的情绪及听课状态，有利于教师实施兼顾认知与情感的个性化教学，及时调整授课方式与节奏，主动引导学生学习的积极性，从教师作为课堂教学引导者的角度出发，提升教学质量。

按照通常对于表情的定义，面部表情可以划分为：高兴、吃惊、悲伤、愤怒、厌恶和恐惧这六种类型。但是对于课堂教学这一特殊场景，这样的类别划分适用性不强。在本文的表情分析系统中，我们根据教学场景，重新定義了四种表情状态，分别是：正常、疑惑、不满、开小差，并对学生的表情状态进行整体性的统计，为课堂教学反馈提供一个有利的指标，辅助教师开展更高效的课堂教学。

二、行为表情识别及分析系统的设计与构建

教室课堂场景中对象人数较多，目标形态又较为复杂，对于系统的设计有一定的挑战性。本文针对课堂教学场景设计了一套高效率、高准确、高稳定的行为表情识别及分析系统。该系统主要由以下三个部分组成。分别是：图像采集模块、图像处理模块和数据分析模块。

如图l所示：

1.图像采集模块

整个系统中所有后续的模块都是基于前端摄像头捕获的图像进行处理。因此视频监控图像的成像质量尤为关键。为了保证后续模块能拿到所有学生的正脸图像，摄像机被安装在了讲台的位置。同时为了保证每个人脸表情都能被准确的识别，人脸的最小尺寸要超过80*80。因此本文的系统选用4k高清球机摄像机进行监控画面拍摄。拍摄到的图片通过网络，以rtsp流的形式传送到后台的服务器上以供后续的处理。

2.图像处理模块

后台服务器从摄像头获得监控图像之后，会对图像进行一系列的处理。出于对学生隐私的保护，图像不会被存储或是展示。图像最终会被转化成为一个统计意义上的数字，不会具体针对到某一个学生个体。

图像处理模块主要分为两个子模块，行为管理模块和表情分析模块。这两个模块所用到的方法都是基于深度学习的方法。

基于深度学习的图像处理，主要的方法是通过卷积神经网络对于图像进行处理。卷积神经网络受到了生物过程的启发，用网络中的神经元单元连接模式模拟动物视觉皮层中的组织。个体皮层神经元只在被称为感受野的视野受限区域对刺激作出反应。不同神经元的感受野部分重叠，覆盖整个视野。深度卷积神经网络可以提取图像深层的信息，从而得到人们想要的结果。

在这个系统中，神经网络的输入就是摄像机捕获的画面，其输出就是图像中的人体位置和人脸位置。人体位置用于之后的行为识别，人脸位置则用于之后的表情识别中。

本文中的检测算法采用voloV3网絡结构，采用darknet53作为其主干网络，其网络的输出是每一个检测框在画面中的位置，已经检测框对应的类型。（在这里是两类，分别是人脸或人体）。在输入到yoloV3网络之前，摄像机的头像被缩放到608*608的大小，随后经过了归一化和零均值操作之后送入网络。网络输出的人体框，被送入后一级的行为识别网络中;网络输出的人脸框，被送人后一级的表情识别网络中。

行为识别网络中，输入为所有从监控画面中检测得到的人体图像，输出是当前人体的行为分类。行为识别网络也是一个典型的深度学习网络，网络接收图像作为输出，输出是一个五维的向量，分别代表了当前人体行为是正常听讲、举手、书写、站立、俯身的概率，所有的概率之和为1。举个例子，若输出向量为（0.8，0.1，0.05，0.03，0.02），则可以看出当前人体图像属于第一类行为的概率是最高的（0.8），也就是说当前人体图像被判断为了正常听讲状态。

表情识别网络也是一样的道理，输入是监控画面中检测得到的人脸图像，对于每个人脸图像，表情识别网络都会输出一个四维的向量，分别代表正常、疑惑、不满、开小差的概率。

在行为识别网络和表情识别网络中，都采用的是resnet50作为其主干网络，不同的是行为识别网络最后一层全连接层的输出是5维的，而表情识别网络最后一层的全连接层的输出是4维的。

3.数据分析模块

通过上述系统的处理之后，摄像头捕获的课堂图像被转化为了结构化的信息。信息中包含了所有学生的行为统计以及所有学生的表情统计。在系统的行为分类中，正常听讲、举手、书写、站立这四种行为均为积极的状态，而俯身这一行为属于较为消极的状态。在系统的表情分类中，正常、疑惑属于积极的表情，而不满、开小差则属于较为消极的表情。

系统能够实时拿到当前课堂中所有同学的行为和表情，这是一个具有统计意义的数字。系统会以柱状图的形式实时输出当前课堂状况。如表1和表2所示。

从表l和表2中可以得到一个对于当前课堂情况的详细统计。对于课堂行为而言，一般情况下，“正常听讲”状态一定是占据绝大多数的，若是发现“俯身”状态突然增加的时候，则需要让老师意识到可能当前的教学内容过于乏味，需要及时调整上课节奏并适当提醒学生集中注意力。对于课堂表情管理而言，若发现“疑惑”状态开始激增，教师就要反省自己是否当前的教学内容不太容易被学生接受，是否需要及时调整教学策略等。而当“不满”和“开小差”的数量比例开始增加时，说明教师的上课内容和方式是否有些枯燥乏味，需要教师课后总结并改进。

不仅如此，对于每一个时刻，所有同学的所有行为和状态都会给课堂质量打分。在行为方面，“俯身”是一个扣分项。在表情方面，“不满”和“开小差”是扣分项。在一堂课结束之后，系统会输出整个上课过程中分数的变化情况。如表3所示。

从表中可以很明显的分析出课堂中师生互动的情况。可以看出，在课堂开始后的一段时间，可能会有较多的学生反馈出“不满”“开小差”等表情，说明老师在讲述新知识的时候，学生一时间还并不一定完全可以接受。而课堂的中段都保持在90分左右的评分，说明学生在这段时间进入了一个较为平稳的学习阶段。而在接近尾声的部分，课堂评分开始缓慢的下降，说明学生对于当前课堂可能觉得有些枯燥，或是注意力开始不集中。这时候老师应该反省，如何让学生在整堂课的过程中一直保持一个较为积极的学习状态。

课堂评分表不仅是对学生的行为表情的打分，同时也是对教师的一种督促。可以对教师的备课内容，教学重点等起到辅助的作用。

三、结论

针对提高课堂教学质量的需求，本文引入了一种基于视频监控图像，分析得到当前课堂中所有学生行为、表情的系统。深度学习神经网络方案的加入，使得人脸检测、人体检测的精度高、速度快，同时行为识别和表情识别也能达到非常高的准确度，保障了系统结果的高效可靠。本文中系统结合了行为和表情，对于课堂的每个时刻实时把控，在课程结束之后，也会对整个课堂进行评分总结，很好的帮助了教师发现自己教学中的不足之处。

[参考文献]

[1]韩丽李洋周子佳宋沛轩课堂环境中基于面部表情的教学效果分析[J].现代远程教育研究，2017（04）：99-105+114。

[2]冯满堂，马青玉，王瑞杰.基于人脸表情识别的智能网络教学系统研究[J].计算机技术与发展，2011，21（6）.

[3]廖鹏刘宸铭苏航李启芳韩延巾基于深度学习的学生课堂异常行为检测与分析系统[J].电子世界，2018（8）：97-98.

[4]王竑熹.学生课堂行为视频图像采集和识别系统[J].发明与创新（中学生），2018（6）.