基于卷积神经网络的痛苦表情识别与分析

2023-01-07施书健付晓峰通信作者张佳明

技术与市场 2022年12期

施书健，付晓峰通信作者，张佳明

(1.杭州电子科技大学计算机学院，浙江杭州 310018； 2.杭州电子科技大学通信工程学院，浙江杭州 310018)

0 引言

随着深度学习的迅速发展和智能终端的普及，人脸识别技术正极速地发展。人脸表情识别和痛苦表情识别作为人脸识别技术中的重要组成部分，目前在医疗、安全、驾驶等方面都受到广泛关注。痛苦表情识别在老人监护、检测疲劳驾驶中有一定的现实意义。

我国正进入老龄化社会。有数据显示，我国失能或半失能老人占全体老年人比率为18.3%左右，而护工与失能老人的比例为1:5左右。根据我国人口基数可见，护理人员存在重大缺口，若采用传统的闭路电视监控模式，工作人员需要监视的视频画面过多，远远超出一般人可处理的能力。此外，若人眼长时间盯着视频画面也会导致眼睛对视频画面中绝大部分信息没有起到接收作用。另外，当前疫情时期，各类物资运输主要靠大量的物流人员，为了避开白天的交通高峰时段，物流人员主要在夜间跑长途，光线昏暗、环境单调等因素容易导致疲劳驾驶。为驾驶员生命安全着想，有必要通过识别痛苦表情及时检测到疲劳驾驶。随着人工智能的发展，可以建立新的智能监控技术，由机器自动分析视频画面中老人或驾驶员的脸部信息，进行痛苦表情识别，及时通知养老院、医院的工作人员或者发出声音警告驾驶员。

近几年，卷积神经网络被用于提取表情特征，逐渐取得显著成果，文献[1]提出一种基于卷积神经网络的人脸表情识别方法，并取得较好的效果。本文针对卷积神经网络在表情识别中的巨大优势，以卷积神经网络为基础，进行一定优化，来实现对痛苦表情的识别。文献[2]提出一种改进ResNet网络进行表情识别的方法，取得较佳的成果。本文据此提出改进方法，在ResNet中添加注意力机制进行实验，观察结果。主要工作包括：构建卷积神经网络结构；制作数据集，划分训练集、验证集、测试集；实验、调优参数，提高最终准确率。

1 网络结构

本文采用的卷积神经网络主要是mini_XCEPTION，包含了卷积层、池化层、全连接层和Softmax层(见图1)。其中，base模块中的2个卷积层卷积核都为3，步长为1；因为mini_XCEPTION各层存在重复配置，本文用res和sep封装部分层级，各级res和sep中的配置均相同。res中的卷积层卷积核为1，填充为0，步长为2；sep中的卷积层卷积核为3，填充为1，步长为1，最大池化层池化核大小为3，步长为2，填充为1；last模块中卷积层卷积核为3，填充为1，步长为1，平均池化层池化核大小为2。除了池化和卷积层，还加入了归一化层BatchNorm；使用ReLU激活函数减少计算量、增加网络稀疏性、防止发生过拟合。用Softmax分类器得到每一个表情类型对应的输出概率，选择概率最大的类型作为分类器输出结果。

图1 mini_XCEPTION卷积神经网络结构

2 实验结果与分析

本文采用FER2013表情数据库、MMI表情数据库和AMFED表情数据库混合而成的数据集，使数据集样本数量大大提升。将所有数据集中的图片重新分类，筛选出无效及无法检测出的人脸进行剔除，有利于提高模型训练的精度。其中，将中性和开心表情归类为非痛苦表情，伤心、恶心、害怕归类为痛苦表情，去除生气和惊讶类型表情，然后以一定比例划分训练集、验证集和测试集。

使用模型对训练集进行训练测试，结果如表1所示。初始化的训练准确率在80%以下，经过不断的测试、调优，换用不同的优化器、不同的学习率、batch_size、epoch，准确率逐渐上升。

表1 采用不同网络结构及参数进行训练的结果

由表1可见，实验过程中主要采用的是mini_XCEPTION和ResNet两种网络，对于不同的优化器，这两种网络的表现也各不相同，在经过优化器Adagrad、Adam、SGD、RMSProp、Momentum和Lamb的测试后，得到mini_XCEPTION在Momentum优化器中表现较好。学习率和batch_size参数的大小也影响最后准确率，学习率设置太大会造成网络不能收敛，在最优值附近徘徊；学习率设置太小，网络收敛非常缓慢，会增大找到最优值的时间。经过测试，最后得到学习率在0.001时效果最佳；batch_size从最初的64改变为32后，测试准确率有较为明显的提高，而调整到64以上或者32以下时，效果下降，所以采用32作为batch_size的大小。训练轮数(epoch)在一定限度的增大可以提升最后的效果，采用1 000作为epoch时，网络已完全收敛。

注意力机制的添加并没有提高模型准确率，相比之下反而下降，采用ResNet包含注意力机制的神经网络进行训练，效果并不好，准确率只有85%。最后综合可见，以mini_XCEPTION，用Lamb优化器，学习率为0.001，batch_size为32的效果最好，训练1 000轮后准确率达到88%。

而其他一些相关论文中使用的图像增强方法对本文中的模型并没有带来积极影响。在数据集中添加了水平旋转操作的原图后，经过训练、验证的准确率并没有提升，最终的准确率维持在88%。实验尝试使用经典神经网络在本文创建的数据集下进行训练，得到结果如表2所示。可见本文采用的mini_XCEPTION网络结构相比一些经典网络结构VGG16、ResNet，效果更好。