基于改进的双通道网络的微表情识别*
2023-11-12西藏民族大学武文哲
西藏民族大学 武文哲
微表情通常表达人隐藏起来的真实情感,它的特征具有高度的相似性和隐匿性,传统的微表情识别技术主要采用人工制作的方式,其识别效率和精度都难以保证,因此提出一种基于改进的双通道网络识别方法,以CASME II 作为数据集,通过对数据集进行预处理来保证图像特征增强及数据平衡,在七类微表情识别分类下,与双通道网络(Dual Path Networks,DPN)模型进行了性能对比。实验结果证明了所提出的改进的双通道网络模型,在识别精度上明显优于参照模型。
微表情是一种人下意识做出的,具有个人真实情绪的表情,其广泛应用于刑事侦查、医学等许多重要领域。与宏观表情相比,由于它具有持续时间短、动作幅度小的特点,早期专业培训的识别准确度也不到50%[1],因此微表情识别研究在国内外受到广泛关注。
目前研究中,微表情识别研究的相关方法主要分为:传统方法和深度学习方法。(1)传统方法是基于手工特征进行的,含有方法如,时空局部二值模式(LBP)、光流直方图等,由于其需要复杂的实验设计,导致效率及识别精度都难以实现理想状态。(2)深度学习方法被证实在计算机视觉研究中优于传统手工特征方法,提出卷积神经网络(CNN)研究方法[2],可以通过预处理从数据中学到各层特征,广泛应用于人脸识别、车辆识别等计算机视觉工作中。CHEN 等人[3]提出双通道网络(Dual Path Networks,DPN)算法,具有探索特征和细化特征优势,WOO 等人[4]提出注意力模块CBAM(Convolutional Block Attention Module), 具有多方向特征增强的优势。本研究以构建基于CBAM改进的DPN 模型对微表情进行识别分类,把CBAM 和DPN 优势相结合,优化参数,最终实现对于微表情分类效果的提升。
1 数据集处理
1.1 实验数据集
实验所使用的数据库为我国科学院心理研究所的CASME II[5]公开数据库。
1.2 图像预处理
1.2.1 数据增强
数据增强常用在小样本数据集的训练中,主要方法是通过对图像进行几何变换:裁剪、旋转、水平/垂直镜像等方法来增加数据量。图像后的增强效果如图1 所示。
图1 图像增强效果Fig.1 Image enhancement effect
1.2.2 数据平衡
由于CASME II 数据集各标签间数据量差距较大,模型训练结果会导致更偏重数量大的类别,因此需要对所得到的增加数据进行数据平衡处理。具体将每个类别数量进行排序,取中位数作为每类样本数量的最大值,具体分布如图2 所示。
图2 数据平衡结果Fig.2 Data balancing results
2 本文算法
DPN 网络是由ResNet[6]和DenseNet[7]结合而成的网络模型,是典型的混合网络。具备细化特征、特征重复利用、支持探索新细节特征、更少的参数开销等优势。因高度耦合双通道层链路连接特点,针对深层网络训练梯度消失的问题,可以进行有效的解决。
CBAM 结合了空间和通道两个不同方向的注意力模块,将通过新的权值赋值后将输入的数据关键特征进行标记,让网络关注到输入数据中需要被着重学习的特征区域。CBAM 的结构如图3 所示,DPN-CBAM 面部微表情算法的结构图如图4 所示。需先对数据集进行预处理,再把得到的图像矩阵输入到网络中,通过DPN 网络前需对输入数据进行批归一化,以加快收敛速度,然后将得到的数据输入进DPN 的每个模块中去,再经由双通道模块,提取出特征信息,后通过平均池化下采样,实现特征矩阵的降维,优化计算量,再通过Dropout 层进一步降低冗余,解决一定程度上的过拟合问题,最后根据得到的数值权重占比进行概率评估分类。
图3 CBAM 结构示意图Fig.3 CBAM structure diagram
图4 DPN-CBAM 整体结构Fig.4 Overall structure of DPN-CBAM
3 实验与结果分析
3.1 实验环境
本研究方法基于Pytroch 框架,操作系统为Windows11,CPU 为intel i7-12700kf,显卡为英伟达RTX3070 8G,内存为64GB。
3.2 性能度量
因数据集的特点,经过处理后的数据集仍然存在数据类别不平衡的问题,因此,为了更好的度量性能,采用未加权平均召回率(UAR)与未加权F1 值(UF1)评价指标。
3.3 识别效果
本文使用26 层的DPN-CBAM 和DPN 网络与几种用于微表情识别深度网络模型进行对比,识别效果如表1所示。
表1 不同模型的识别效果对比Tab.1 Comparison of recognition effects of different models
表1 中模型实验均使用UAR 和UF1 评价指标,实验均在CASME II 数据集上进行。DPN-CBAM 模型整体的识别效果均优于其他几种方法。同时计算了DPNCBAM 模型的参数量和算例,如表2 所示,从表2 中可以看出,在大大降低计算复杂度的程度上,增强了识别效果。
4 结论
本文以双通道网络(DPN)作为主干网络,融合注意力模块(CBAM),提出实现一种DPN-CBAM 的网络结构。通过对模型训练实验结果证明,DPN-CBAM 网络对于DPN 网络在七类微表情分类效果中具有明显的优势,更加符合实际场景下的多样化识别要求,更具有实用性。此外,本文方法加入了数据增强技术,大大降低了样本数量带来的训练效果不佳问题,采用UF1 及UAR 评价标准,充分保证在数据不均衡下的模型仍有不错的性能计算指标,其UF1 及UAR 在七类微表情分类中达到0.4751 和0.5063。未来将进一步提高DPN-CBAM 的识别精度,也可以通过宏观微表情数据集,如Oule-CASIA NIR&VIS 面部表情、CK+等进行迁移学习后再运用到识别任务当中去。
引用
[1] HOUSE C.MEYER R.Preprocessing and Descriptor Featuresfor Facial micro-expression Recognition[OL].[2016-10-15] .
[2] KIM D H,BADDAR W J,RO Y M.Micro-expression Recogni-tion with Expression-state Constrained Spatiotemporal Featurerepresentations[C]//Proceedings of the 24th ACM InternationalConference on Multimedia,2016:382-386.
[3] CHEN YP,LI J N,XIAO H X,et al.Dual path networks[C]//Proceedings of the 31st International Conference on NeuralInformation ProcessingSystems.Red Hook,NY:CurranAssociates Ine.,2017:4470-4478.
[4] WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional Block Attention Module[C]//Proceedings of the 2018 European Conference on Computer Vision,LNCS 11211.Cham:Springer,2018:3-19.
[5] YAN W J,LI X B,WANG S J,et al.CASME II:An Improved Sponta-neous Micro-expression Database and the Baseline Evaluation[J].PLoS One,2014,9(1):1-8.
[6] 张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视觉领域的应用[J].计算机学报,2019,42(3):453-482.
[7] ZHU Y,NEWSAM S.DenseNet for Dense Flow[C]//Proceedings of the 2017 IEEE International Conference on Image Processing.Piscataway:IEEE,2017:790-794.