APP下载

深度多尺度融合注意力残差人脸表情识别网络

2022-04-21高涛杨朝晨陈婷邵倩雷涛

智能系统学报 2022年2期
关键词:集上识别率残差

高涛,杨朝晨,陈婷,邵倩,雷涛

(1.长安大学 信息工程学院,陕西 西安 710000;2.陕西科技大学 电子信息与人工智能学院,陕西 西安 710021)

情绪包含大量的情感信息,当人们面对面交流时,情绪会自动或不自觉地通过面部表情表现出来[1]。随着人工智能技术的飞速发展,人脸表情识别(FER)已成为计算机图像处理中一个重要的研究课题。

人脸表情识别主要包括预处理、特征提取和分类识别3个部分[2]。其中,算法识别精度高低主要由特征提取方法决定。人脸表情特征提取方法主要分为基于传统特征提取的方法和基于深度学习的方法[3]。传统的特征提取方法主要包括局部二值模式(LBP)[4]、类Haar 特征[5]、Gabor 小波变换[6]和方向梯度直方图(HOG)等。Li 等[7]基于LBP 方法提出了一种使用三个正交平面的局部二值基线方法(LBP-TOP),一定程度上消除了光照变化的影响,但旋转不变性使得算子对方向信息过于敏感。为了解决这一问题,Rivera 等[8]学者提出的局部特征描述符LDN 利用梯度信息使得算子对光照变化和噪声具有较强的鲁棒性。然而,传统的表情识别算法无法有效处理由于不同姿势、遮挡等引起的非线性面部外观变化,难以有效提高分类水平。

近年来,深度学习凭借其优异的特征提取能力逐步应用于人脸表情识别领域。Kim 等[9]学者对适用于大规模图像识别的VGG-face 模型进行渐进式微调识别人脸表情,但大多数人脸表情数据库样本较少导致该网络易出现过拟合问题。An等[10]学者提出了一种基于MMN 线性激活函数的自适应模型参数初始化方法,可有效克服过拟合问题,但面对含有大量表情无关因素时算法鲁棒性较差。Xie 等[11]学者提出了一种多路径变异抑制网络(MPVS-NET),但该网络速度较慢且不宜收敛。由于模糊的面部表情、低质的面部图像及注释者的主观性带来的不确定性,对定性的大规模面部表情数据集进行标注是非常困难的。针对这一问题,Wang 等[12]学者提出了一种能有效抑制不确定性的自修复网络(SCN),防止网络过度拟合不确定的人脸图像。一般来说,深层网络更易提取到具有丰富语义信息的深层特征。但过深的网络容易出现梯度爆炸或梯度消失现象。针对这一问题,He 等[13]学者提出了深度残差网络(ResNet),利用短路链接使得梯度正常回传,较好地解决了网络退化问题。但训练参数量仍旧较大,且残差网络并没有考虑不同尺度特征之间的相互关系对特征识别的影响,导致大量有效特征丢失。

上述研究均使用完整特征图作为特征输入,然而在实际分类任务中,特征的作用程度是不同的。为了突出对特征识别有效的信息,一些研究引入了注意力机制。Li 等[14]学者提出了一种具有注意力机制的CNN 网络结构可识别脸部遮挡区域,但网络依赖于人脸关键点检测,遮挡面积较大时,关键点难以与人脸数据集生成映射。在此基础上,Liu 等[15]学者提出了一种条件CNN 增强型随机森林算法(CoNERF),从显著引导的人脸区域中提取深层特征,抑制光照、遮挡和低分辨率带来的影响。然而上述方法仍保留了较多的冗余信息,且均为完整网络结构,不易迁移。Hu 等[16]学者采用全新特征重标定方式提出一种通道注意力网络(SE-Net),显示建模特征通道之间的相互依赖关系,进而提升有用特征并抑制用处不大的特征,且能够直接集成到现有网络中,计算代价小,没有冗余信息。

针对上述问题,本文提出一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network,DMFA-ResNet),主要改进包括以下3个方面:

1)设计了一个由7个注意力残差学习单元构成的注意力残差模块,注意力残差学习单元由2 条包含卷积层的支路和1个短路链接构成,将融合后的特征经过注意力机制,对输入图像进行并行多卷积操作,以获得图像多尺度特征,突出局部重点区域,有利于遮挡图像特征学习;

2) 提出多尺度融合模块,网络整体将各个注意力残差模块的特征输出进行多尺度融合,以获取更丰富的图像特征;

3)在网络模型中增加过渡层以去除冗余信息,在保证感受野的情况下简化网络复杂度。并使用全局平均池化+ Dropout 的设计减少参数运算,使网络具有更好的抗过拟合性能。

1 DMFA-ResNet 算法

1.1 ResNet 网络结构

ResNet 网络通过引入残差模块,在算法前向传播过程中使得卷积层之间形成跳跃连接,实现对输入、输出的恒等映射,并采用1×1、3×3 的小卷积核,在解决网络退化问题的同时进一步加深网络,ResNet-50 的基本残差学习单元如图1所示。

图1 残差学习单元Fig.1 Residual learning unit

图1 中,x表示输入,F(x)表示残差映射,残差单元的输出为

当残差F(x)=0,残差学习单元的功能就是恒等映射;则深层L的输出为

其反向梯度为

1.2 SE-Net 注意力模块

SE-Net 是Hu 等[16]学者提出的一种通道注意力网络,核心为特征压缩操作Fsq和特征激励操作Fex。Fsq从通道维度将[H,W,C]的输入特征图压缩为[1,1,C]的输出特征图,使得每个二维特征通道转换为一个具有全局感受野的实数。Fex通过对每个通道生成权重,显式建模特征通道间的相关性,并逐通道加权到原始特征图上,完成通道维度上的特征重标定,加强关键特征,抑制非显著特征,从而提高网络的整体表征能力。

2 深度多尺度融合注意力残差网络

基于ResNet-50 残差网络,本文提出一种深度多尺度融合注意力残差网络(DMFA-ResNet),该网络由注意力残差模块(attention residual module,ARM)、多尺度特征融合模块、过渡层、全局平均池化层、Dropout 和Softmax 分类层构成,网络结构如图2 所示。

图2 DMFA-ResNet 结构图Fig.2 DMFA-ResNet structure

深度神经网络的输入图片一般较大,为避免后续计算量爆炸,需要将输入图片进行下采样后再输入进卷积神经网络。原ResNet 网络将输入图像经过一个7×7 大卷积层和最大池化层后,再输入进后续残差模块。7×7 大卷积层和最大池化层将输入图片的分辨率从224×224 下采样至56×56,在减少计算量的同时最大程度保留了原始图像细节信息。DMFA-ResNet 使用3个3×3 小卷积层代替原7×7 大卷积层,在保证与原网络层相同感受野的前提下,进一步提升了网络深度,使得网络能够提取到更深层次的语义信息。

2.1 注意力残差模块

注意力残差模块(ARM)由7个具有3 条支路的注意力残差学习单元构成。注意力残差学习单元由两条残差学习支路、一条恒等映射支路和SE-Net 注意力模块构成。为了使输入经过3×3 卷积层后的特征图维数相同,通过残差学习支路的第一个1×1 卷积层对输入进行降维。通过对输入图像进行并行的多卷积操作,使得网络能够提取到不同深度的多尺度表情图像特征。再将这两条残差学习支路所提取到的特征采用Concat 方法进行融合,即将两个需要融合的特征图的通道进行拼接,将两条残差学习支路输出的特征图融合后的特征通过1×1 卷积进行升维,确保输入、输出的维数相等。最后利用注意力机制突出重点局部区域,获得图像更准确的特征以提高识别准确率,有利于遮挡图像的特征学习。注意力残差模块和注意力残差单元的结构图分别如图3、4 所示。

图3 注意力残差模块Fig.3 Attention residual module

图4 注意力残差单元Fig.4 Attention residual unit

2.2 过渡层

随着网络深度不断加深,运算参数量持续增多,容易使得网络过度学习输入与输出之间的映射关系,将大量干扰信息错认为重点特征。

在注意力残差模块之间引入由一个3×3 卷积层和最大池化层组成的过渡层以去除冗余信息。3×3 卷积层能够在不改变特征图大小的情况下增大维数,提升网络线性转换能力。最大池化层能够对输入图像进行下采样以减小参数矩阵的尺寸以及卷积层参数误差造成估计均值的偏移,其结构如图5 所示。

图5 过渡层结构Fig.5 Transition layer structure

2.3 多尺度特征融合模块

经过各个注意力残差模块后,人脸表情图像的多尺度特征具有不同特点:浅层特征图尺寸较大,通道数较少,具有丰富的细节信息;深层特征图尺寸较小,通道数较多,包含丰富的抽象语义信息。因此本文设计了一个多尺度特征融合模块将3个注意力残差模块产生的多尺度特征图进行融合。首先将前两个注意力残差模块的输出特征经过最大池化操作下采样至7×7×128 和7×7×256;然后通过Concat 通道融合方法将下采样过后的输出特征图和最后一个注意力残差模块的输出特征图进行融合;再将融合后的特征图使用1×1 卷积核进行升维,最终得到具有丰富特征信息的7×7×1 024 输出特征图。

2.4 全局平均池化+随机失活

通常情况下,神经网络都会添加全连接层减少特征位置对分类带来的影响。但人脸基本位于图像中央且占据绝大部分像素,位置信息并不重要。因此采用全局平均池化层代替全连接层加强特征图与类别的一致性,直接对空间信息进行求和实现降维,极大地减少了网络参数。Dropout 原理又名随机失活原理,是指在网络训练过程中随意抛弃某些神经元,破坏特征信息之间密切的交互作用,使得网络不会过于依赖某些局部特征,增强模型泛化性。

本文使用全局平均池化+随机失活设计,简化网络复杂度,减少运算量,避免过拟合现象,进而提高网络泛化性。

3 实验结果与分析

3.1 实验环境与评价指标

实验使用的深度学习框架为Tensorflow,计算机操作系统为Windows10,显卡型号为NVIDIA Quadro P4000,显存为8BG。

实验使用错误率(error rate)、准确率(accuracy rate)、混淆矩阵和F1-score 作为评价指标。

错误率是指预测值与真实值不相同的样本数占总样本数的比例,准确率是指预测值与真实值相同的样本数占总样本数的比例。将真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)4个指标一起呈现在表格中称为混淆矩阵。F1-score 为精准率和召回率的调和平均数,取值范围从0~1,其计算公式为

3.2 实验数据集及预处理

3.2.1 实验数据集

实验采取3个人脸表情数据库验证算法有效性,分别为CK+、JAFFE 和Oulu-CASIA。

CK+数据集共有123 名实验者,实验共使用981 张标记图片用于本文实验。JAFFE 数据集共包含213个图像、7 类表情,平均每人每种表情有4 张左右。Oulu-CASIA 数据集由80个人的6 类基本表情构成,实验选取可见光成像系统下的Strong 强光图像集,在每个序列中选取最后5个峰值帧,形成共2 400 幅图像。

3.2.2 数据预处理

由于人脸表情识别数据库样本较少,本文使用裁剪、旋转以及遮挡方法对数据集进行扩充,具体步骤如下:

1)首先对CK+和JAFFE 数据集进行裁剪处理,去除多余的背景,将背景对模型的影响降到最低。

2)分别将JAFFE 数据集图像以顺时针、逆时针旋转5°后的图像扩充数据集,扩充完毕共852 张标记图片用于实验,其中训练集680 张,验证集172 张,如表1 所示。

多数本科高校设置的《中级财务会计》中采用“X+X”模式,理论和实践按照一定的比例实施,但是授课教师极少具有实际会计学操作经历,应该采用培训、进修、定岗实习或者聘请有经验的校外导师等方式,为实践教学顺利开展提供良好的教学团队。

表1 JAFFE 扩充数据集样本分布Table1 Sample distribution of expanded JAFFE

3)通过在眼睛、嘴巴位置添加黑色框来模拟现实中存在的遮挡情况,如由墨镜、口罩等引起。

3.3 实验结果与分析

3.3.1 网络性能实验分析

1)训练样本对性能影响

为探讨训练样本对网络性能的影响,设置训练样本数目对比实验。在其余参数量一致的情况下,在JAFFE 扩充数据集(852 张)上进行训练样本分别为341、511、680 的对比实验,实验结果如表2 所示。

表2 训练样本对性能影响Table2 Effect of training sample number on performance

由表2 可知,随着训练样本不断增多,网络性能逐步增强,当训练样本为680个时,网络识别率达到最高96.3%,因此在网络训练过程中,应尽可能增大训练样本数目,保证网络能够学习到足够信息。

2)网络结构

为验证各个模块的有效性,设置包含针对不同模块的对比网络进行消融实验。在参数量基本一致的情况下,以改进的基础残差模块网络DFR(deep fusion residual network)为对比基准,将多尺度特征融合模块添加进网络结构中构成深度多尺度融合残差网络 DMFR (deep multi-scale fusion residual network),将注意力机制添加进网络结构中构成深度融合注意力残差网络DFAR (deep fusion attention residual network),在Oulu-CASIA 数据集上进行表情识别消融实验,实验结果如表3 所示。

表3 表情识别消融实验Table3 Ablation experiment of facial expression recognition

由表3 可知,改进的基础残差模块网络DFR在Oulu-CASIA 数据集上的识别率为91.16%。当分别增加多尺度特征模块和注意力机制模块后,Oulu-CASIA 的识别率分别提升到91.69% 和91.53%,表明多尺度特征融合模块对网络的贡献大于注意力机制模块。

为探讨注意残差单元数目对网络性能的影响,设置注意残差单元数目对比实验。在其余参数量基本一致的情况下,将注意残差单元数目分别设置为4、5、6、7、8、9,并在JAFFE 数据集上进行实验,实验结果由图6 所示。

图6 注意残差单元个数对性能的影响Fig.6 Effect of the number of attention residual elements on peraformance

由图6 可知,当注意残差单元个数小于7 时,算法识别率随残差单元个数的增加增幅明显。当注意残差单元个数为9 时,算法识别率达到最高96.35%。但注意残差单元个数大于7 时,识别率增幅缓慢,考虑到网络复杂度对计算量及网络运行速度带来的影响,最终选择将7个注意残差单元作为一个注意残差模块。

3.3.2 无遮挡表情实验

表4 是不同方法在Oulu-CASIA 数据集上的测试结果。结果表明,DFR 算法在Oulu-CASIA数据集上的识别率能够达到91.16%。DMFA-Res-Net 的识别率达到92.57%,比LCE 的识别率高出9.31%,比IDFERM 的识别率高出4.32%。

表4 不同方法在Oulu-CASIA 数据集上的测试结果Table4 Test results of different methods on Oulu-CASIA data sets

表5 是不同方法在CK+和JAFFE 数据集上的测试结果。结果表明,DFR 算法在CK+和JAFFE数据集上分别能够达到99.68%和96.25%的识别率。比文献[22]在两个数据集中的识别率分别高出6.22%和1.5%,比文献[23]在两个数据集中的识别率分别高出2.92%和9.51%。

表5 不同方法在CK+和JAFFE 数据集上的测试结果 Table 5 Test results of different methods on CK+ and JAFFE data sets %

图7 分别为DFR 算法在CK+和JAFFE 数据集的混淆矩阵,其中DFR 能够在CK+数据集上对轻蔑、厌恶、恐惧、快乐、悲伤和惊讶这六种表情达到100%识别率;在JAFFE 数据集上对恐惧及中性表情能够达到100%识别率,但惊喜表情容易被误判为中性表情,因此识别精度最低。

图7 DFR 在CK+和JAFFE 数据集上的混淆矩阵Fig.7 Confusion matrix of DFR on CK+ and JAFFE

DFR 算法对比其他先进算法在识别率上有很大提升,充分验证了改进的残差模块和过渡层能够提取更加精确的人脸表情特征。DMFA-Res-Net 算法在CK+和JAFFE 数据集上的识别率分别为99.7%和96.3%,比DFR 算法在两个数据集中分别提高0.02%和0.05%,证明了引入注意力机制模块和多尺度特征融合模块对提升人脸表情识别率是有利的。

3.3.3 遮挡表情实验

实际生活中,人脸表情图像采集会伴有遮挡情况,一般由墨镜、口罩等引起。若局部区域被遮挡,卷积神经网络就难以抓住重点区域进行特征提取,针对这种情况,本章将在遮挡的扩充数据集上进行实验。表6 和表7 分别为各种算法在CK+和JAFFE 数据集上的遮挡。

表6 CK+上遮挡表情识别 Table 6 occlusion facial expression recognition on CK+%

表7 JAFFE 上遮挡表情识别 Table 7 Occlusion facial expression recognition on JAFFE %

表8 和表9 分别为DMFA-ResNet 算法在CK+和JAFFE 数据集上的F1-score值。图8 和图9 分别为DMFA-ResNet 算法在CK+和JAFFE 数据集上的遮挡混淆矩阵。

表8 CK+上遮挡表情F1-score 值Table8 F1-score of occlusion facial expression on CK +

表9 JAFFE 上遮挡表情F1-score 值Table9 F1-score of occlusion facial expression on JAFFE

图8 在CK+数据集上的遮挡混淆矩阵Fig.8 Occlusion confusion matrix on the CK+

图9 在JAFFE 数据集上的遮挡混淆矩阵Fig.9 Occlusion confusion matrix on the JAFFE

由表6、表7 可知,对于遮挡图像,DMFAResNet 比DFR 算法在CK+和JAFFE 数据集上的识别精度分别提升2.5%和1.5%,且DMFA-Res-Net 对遮挡表情的识别在两个数据集上均取得最高识别精度。

由表8 和图8 可知,遮挡眼睛后,DMFA-Res-Net 算法在CK+数据集上能够对害怕和惊讶两种表情达到100% 识别率;遮挡嘴巴后,能够对困惑、快乐和惊讶3 种表情达到100%识别率。而轻蔑和恐惧表情的F1-score 分别只达到0.76 和0.75,说明这两种表情的有效特征大部分在于嘴巴部分。

由图9 和表9 可知,遮挡眼睛情况下的悲伤表情F1-score 仅达到0.82,说明悲伤表情的有效特征大部分在于眼睛部分,虽然该值达到最低,但DMFA-ResNet 在JAFFE 数据集上也取得相当不错的效果。由于该数据集样本间的差异较小,导致算法仍出现较多误判情况,无法完全精准识别某一类表情。以上实验结果证明了DMFA-Res-Net 在应对遮挡图像问题上的优越性,更适用于人脸表情识别任务。

4 结束语

本文提出一种多尺度融合注意力残差网络(DMFA-ResNet)。该网络主要提出一种新的注意力残差模块,提高了网络对局部重点部位特征的提取,有利于学习到非遮挡部位的信息;提出多尺度融合模块,将各残差模块的输出进行融合以提取更加丰富的人脸表情特征;为了减少参与网络运算的参数量,在各个残差模块之间添加过渡层,主要进行下采样操作并使用全局平均池化+Dropout 设计防止网络过拟合。在CK+、JAFFE和Oulu-CASIA 数据集上进行实验均取得了不错的效果,注意力残差模块对局部区域的特征能够进行有效提取,实验验证本文算法具有优越性。但所提算法为针对静态图像的表情识别算法,不适用于动态连续的视频识别,在接下来的工作中,可以重点研究基于视频的动态表情识别技术。

猜你喜欢

集上识别率残差
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于互信息的多级特征选择算法
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
师如明灯,清凉温润