APP下载

基于MTCNN的多特征融合学生疲劳检测算法研究

2021-11-12施一萍胡佳玲谢思雅

智能计算机与应用 2021年9期
关键词:池化步长关键点

陈 藩,施一萍,胡佳玲,谢思雅,刘 瑾

(上海工程技术大学 电子电气工程学院,上海 201620)

0 引 言

在课堂教学中,学生会出现长时间精神不集中的疲劳状态。如果能够及时检测到学生课堂疲劳状态,并进行有效的处理,就能够帮助学生提高课堂的学习效率,提高课堂教学质量,左国才等人将CNN疲劳检测方法用于大学课堂之中[1]。疲劳检测为智慧课堂的实现提供了重要的保证。传统的疲劳检测只是通过眼部的PERCLOS值来判断,判断标准较为单一(特征),结果不够准确[2-3]。也有一些学者如陈建伟提出了视觉特征多通道融合的方式实现疲劳检测,但是鲁棒性不强[4];传统的人脸识别方法存在容易被光照阴影等因素干扰的问题,江伟坚等人提出新Haar-like特征的Adaboost人脸检测,但有较高的时间开销[5];如今这些疲劳检测方法主要应用于疲劳驾驶领域,如褚晶辉、耿磊等人均提出基于驾驶员行为分析疲劳检测方法,然而在教育领域却较少被应用[6-7]。本文提出一种基于卷积神经网络的多特征融合的疲劳检测算法,实现学生疲劳检测。首先,通过MTCNN[8]实现人脸检测和特征点定位,相对于基于多尺度卷积网络,MTCNN有着更强的关键点定位的能力;其次,通过人脸归一化的方式精确提取眼、嘴部特征区域,用神经网络对特征区域的图像分类;最后,将眼部PERCLOS值与嘴部MAR值相结合,实现疲劳检测,并在实际教室环境中取得了理想的效果。

1 算法原理

本文提出的疲劳检测算法的总体流程如图1所示。

图1 疲劳检测流程

1.1 人脸检测及关键点定位

疲劳检测过程中,第一点便是要对学生的面部进行准确的检测和关键点的定位。由于人的面部容易受到光照、发型、佩戴眼镜的影响,在这些复杂的环境下,使用传统卷积神经网络检测效果较差。因此,本文采用多任务级联卷积神经网络(Multi-task convolutional neural networks)进行人脸检测及关键点定位,其基本原理是通过级联的三级卷积神经网络P-Net、R-Net和O-Net组成漏斗状的检测器,形成宽进严出的检测模式。

本文设计的MTCNN的网络结构模型如下:

P-Net:第一个卷积层采用3×3,步长为1的卷积核,池化层采用2×2,步长为2的最大值池化;第二个卷积层采用3×3,步长为1大小的卷积核;第三个卷积层采用了3×3,步长为1大小的过滤器;最后,用1×1大小的过滤器进行面部分类、边界框回归和特征点定位。其网络结构如图2所示。

图2 P-Net层

Q-Net:第一个卷积层采用3×3的卷积核,池化层采用3×3最大值池化;第二个卷积层采用3×3大小,池化层同样采用3×3的最大值池化;最后一个卷积层采用的卷积核大小为2×2,并且全连接层与最后一层卷积层连接。最后进行面部分类、边界框回归和关键点定位。其网络结构如图3所示。

图3 Q-Net层

O-Net:第一个卷积层采用3×3卷积核,池化层采用3×3的最大值池化;第二个卷积层采用3×3卷积核,池化层采用3×3的最大值池化;第三个卷积层采用3×3卷积核,池化层采用2×2的最大值池化;第四层卷积层采用2×2卷积核,全连接层连接着最后一层卷积层。最后,进行面部分类、边界框回归和关键点定位这3项工作。以上卷积的步长为1,池化的步长为2,其网络结构如图4所示。

图4 Q-Net层

上述MTCNN网络中,卷积步长为1,填充方式为“valid”。而池化层的滑动步长为2,并且填充方式为“same”,在所有的卷积层和全链接层之后为激励层。

对于MTCNN而言,主要完成3个任务:

(1)面部分类: 此任务通过交叉熵损失函数来实现,如公式(1)所示。

(1)

其中Pi表示人脸的概率,yi为真实类别的标签,若为人脸,则值为1,若不是则值为0。

(2)

(3)面部关键点定位: 由于人脸关键点检测类似于边界框回归任务,可通过最小化欧氏距离回归获得人脸关键点坐标,如公式(3)所示。

(3)

1.2 目标区域提取

本文是通过MTCNN确定关键点,所以关键点较少,因此提出一种基于稀少特征点提取目标区域图像的方法,即通过仿射变换将不同位置、不同姿势以及不同大小的图像归一化到同一位置尺度。

1.3 人脸归一化

(4)

将矩阵简写为Z=Nk,Z是平均人脸的5点坐标值矩阵;N是通过人脸定位后的5点坐标;k为仿射变换矩阵。通过最小二乘法求出方程的解k=(NTN)-1NTZ。检测定位出的不同姿势、不同位置以及不同大小的图像归一化到同一位置尺度的图像。本文选取学生上课最有可能出现的姿势,分别是歪着头和手托着头听课,通过归一化操作,效果如图5所示。

图5 归一化操作

经过归一化操作之后,需要对目标区域的图像进行快速提取。由于特征点较少,所以对目标区域外接一个最小面积的矩形,来获取目标区域,效果如图6所示。

图6 眼、口提取效果图

1.4 眼、口状态识别

在对眼睛、嘴部进行状态分类时,考虑到待分类的图片尺寸较小,所提取的特征图像排除了眉毛和鼻子的干扰,使得图像特征得到了简化。考虑到教室空间有限而且检测又要有较高的准确性和实时性要求,因此使用网络结构较为简单的网络进行模型训练,模型结构如下图7所示。

图7 眼、口状态识别网络

网络一共包含3个卷积层,第一层和第二层的卷积核为32,第三层卷积层为64,卷积核的大小均为5。除了第一个池化层采用最大池化方式,其余两个均为平均池化,共计3个池化层,共有两个全连接层,神经元的个数分别为64和2,识别效果如图8所示。

图8 眼、口状态识别效果

1.5 疲劳判断及多特征融合

学生在疲劳时会出现闭眼时间较长和打哈欠频率较高的情况,为了更为准确的检测疲劳状态,本文将眼部和嘴部的情况相结合来综合判断。

根据人的面部特征判断疲劳状态时,卡内基梅隆研究所提出的PERCLOS方法是一种较为常用的检测方法,在所选取的时间范围内,人眼处于闭合状态所占时间的百分比,计算公式如公式(5)所示:

(5)

其中,P表示一定时间内,眼睛处于闭合状态的时间占据比;Nc表示某段时间内眼睛闭合状态的帧数量;Nt表示该时间段内的总帧数量。根据经验,当计算值≥0.4时,就表示学生处于疲劳状态,否则为正常状态。

当学生处于疲劳状态时另一个特征就是打哈欠,因此可以通过嘴部开合状态和张开的时间来判断学生是否疲劳。但是在检测过程中,首先要排除说话这一重要干扰因素。据研究,人打一次哈欠的时间大约在3 s,而说话时嘴巴处于不停的开闭合状态,因此可以通过改进的MAR机理来进行哈欠判定。由于嘴部在运动时是处于整体运动的,而且嘴部区域共有8个特征点,如图9所示。所以使用嘴唇内部坐标进行计算,通过嘴唇纵横比的值MAR来判断是否疲劳,如公式(6)所示。

图9 嘴唇区域坐标

(6)

权威研究发现,当MAR值>0.9时,可判定为学生处于疲劳状态。

为了更为准确地检测判定疲劳状态,本文将眼部疲劳和嘴部疲劳特征相融合,若P≥0.4, 或MAR≥0.9时学生处于疲劳状态。本文提出新的综合判断法,如公式(7)所示:

T=α1P+α2Q

(7)

其中,T为综合疲劳度;P为PERCLOS值;Q为MAR值;a1和a2为权重,并且a1+a2=1。经过多组实验可得到P的阈值为0.5,即P≥0.5,学生处于疲劳状态。a1为0.8,a2为0.2。

2 实验及结果分析

2.1 数据集准备

为了解决睁闭眼、张闭嘴样本不均衡的问题,本文通过对ZJU眨眼视频数据集采集包括睁闭眼两种状态共计约9 000张图片,其中1 000张图片(±样本各500张)用于后续的模型测试,其余的样本则用于训练。

嘴部数据集则是通过YawDD疲劳驾驶视频数据集和其它视频数据集所采集的嘴部样本。为了提升嘴部样本数量,本文对样本进行垂直旋转和水平翻转得到样本数量共计2 000张,其中200张(±样本各100张)用于模型的测试,其余的样本则用于模型训练,部分样本如图10所示。

图10 部分数据样本

2.2 实验环境

Windows10操作系统,Intel Core i5-8300H,8GB内存,python3.5编程语言,Tensorflow1.7框架,显卡型号GeForce GTX1060。

2.3 实验结果

为了进一步验证本文所提出方法的优越性,在相同实验条件下,分别与MTCNN结合随机森林[9]的方法以及Adaboost结合CLM[10]的方法进行对比,结果见表1。分别使用3种方法在100张人脸图像上进行测试。

表1 眼、嘴部状态分类测试结果

由实验结果可知,本文提出的方法在准确率上具备了一定的优越性,并且时间开销上能满足实时性要求。本文通过简化图像特征,使得利用结构简单的网络实现眼、嘴部状态分类成为可能。

2.4 运行效果展示

为了清晰的展示运行效果,依据PERCLOS疲劳判断标准,本文用实时视频进行测试,测试效果如图11所示。

图11 疲劳检测系统示意

本文提出疲劳检测方式的实时性也极高,能够及时的帮助老师发现疲劳学生,加以提醒,提高课堂教学效果。

3 结束语

本文提出了一种基于卷积神经网络的多特征融合学生课堂疲劳检测算法。在MTCNN的基础上通过归一化操作完成眼、嘴部区域的精确定位,并且将眼嘴部疲劳状态相结合实现多特征融合的疲劳检测方法。对比采用单一的特征进行检测,识别率有了明显的提升,说明本文所提方法能够提高系统判断的准确性。但是教室是个很复杂的环境,如何更加全面的检测到每个学生的状态,从而实现真正意义上的智慧课堂与智慧教育还需要进一步研究。

猜你喜欢

池化步长关键点
基于高斯函数的池化算法
论建筑工程管理关键点
卷积神经网络中的自适应加权池化
水利水电工程施工质量控制的关键点
董事长发开脱声明,无助消除步长困境
步长制药50亿元商誉肥了谁?
起底步长制药
用于手写汉字识别的文本分割方法
利用定义法破解关键点
步长制药
——中国制药企业十佳品牌