基于深度学习的面部微表情识别

2021-02-10诗雨桐袁德成

沈阳化工大学学报 2021年4期

诗雨桐,袁德成

(沈阳化工大学信息工程学院，辽宁沈阳 110142)

微表情是一种非语言形式的微观表达的交流方式，可通过其传递一个人的情感.由于微表情具有动作幅度小、持续时间短的特点,对微表情的人工识别需要专业培训,且识别正确率较低.近年来不少研究人员开始利用计算机视觉技术自动识别微表情,极大地提高了微表情的应用可行性[1].现有的微表情识别研究，例如局部二值模式 - 三正交平面(LBP-TOP)，Gabor滤波器和光流等主要采用手工制作的特征，导致识别效率与精度不高.Ekman[2]在缺乏数据集的基础上开发了微表情训练工具(METT)来帮助人们进行微表情的检测.在使用METT微表情训练数据集进行的心理学实验[3]中，平均识别率仅为50%.为提高深度学习应用在微表情识别中的精度，本文提出了一种基于前人的新的方法进行微表情识别，提高微表情识别的精度，且与相关工作进行比较，实验结果显示该方法对于提高微表情识别精度有积极作用.

1 相关理论

1.1 数据库

目前用于识别任务公开可用的自发微表达数据库有3种：自发微表达数据集(SMIC)[4]，中国科学院心理研究所的CASME[5]和CASME Ⅱ[6].这些数据集记录了正面视图的微表情图像数据.实验使用其中2个已知的数据库：CASME和CASME Ⅱ，以及提供另一个数据库：CASME和CASME Ⅱ的集合，即混合CASME(the mixed CASME),简称为M-CASME.

1.2 卷积神经网络(CNN)

卷积神经网络(CNN)是计算机视觉普遍使用的一种深度学习模型.CNN是一种多阶段全局可训练的人工神经网络模型，其可以针对具体问题设计具体网络结构，通过预处理从原始数据中学习到抽象的、本质的和高阶的特征.

笔者专注于基于图像的静态面部微表情识别任务：CASME、CASME Ⅱ、M-CASME和深度卷积神经网络(CNN).首先识别输入的原始图像，然后对其进行预处理并作为CNN的输入，最后给出预测面部微表情标签，该标签应是以下6个标签之一：厌恶、恐惧、幸福、中立、悲伤和惊喜.

1.3 微表情图像处理中的深度学习

深度学习[7]已成为非常有效的图像分析方法，如图像分类、语意分割、物体检测和图像超分辨率.与传统的手工设计功能[局部二值模式(LBP)[8]和梯度直方图(HOG)[9-10]]相比，深度卷积神经网络由多个层组成，可以直接从原始图像中自动学习层次结构的视觉特征.

微表情识别的最新进展集中于识别更多自发的面部微表情.中国科学院心理研究所的CASME[5]和CASME Ⅱ[6]数据集包含6个基本的微表达类别用以模拟更多的自发情景.两个数据集均在受控环境中记录，采集到的图像虽然不是真正自发的，但至少以比构成数据集更自然、更通用的方式提供面部微表情.随着深度学习方法的引入，为广泛的图像分类工作提供了更好的识别精度.

2 神经网络各部分功能

2.1 数据增强

缺少大型训练数据集是深度学习训练的瓶颈.模型在使用小型训练数据集时会出现过拟合,影响识别精度和实验结果.数据增强是一种通常用于小数据集训练的技术.它是一组保留标签的转换，引入了一些新实例而不收集新数据.这种变换的例子是通过水平/垂直镜像[11]、裁剪、小旋转等来增加数据量.表1表明数据增强过程使样本数量增强了一倍.

表1 数据增强前后的微表达数据库Table 1 Micro-expression database before and after data enhancement

2.2 数据准备

该模型的训练和测试使用了CASME、CASME Ⅱ和M-CASME数据库的人脸图像，每个图像都标有5种情感类别中的一种：厌恶、恐惧、快乐、悲伤和惊喜.此处将“中立”视为第6类.给定的图像分为2组：训练组和测试组.通过数据增强方法，经过垂直镜像、裁剪、翻转、旋转图像等方式生成新图像数据.合成数据库中总图像的80%为训练集，剩余20% 的图像进一步划分为测试集(10%)和验证集(10%).

2.3 人脸检测和预处理

笔者在OpenCV中实现了DLib人脸检测器，从原始图像中检测和裁剪人脸区域.从图1可以看到所有图像经过预处理后形成了面部区域周围的边界框.然后通过计算眼睛眉心之间的角度并随后应用仿射变换来处理裁剪的面部以进行头部姿势校正，变换的图像再次传递到DLib面部检测器以裁剪并保存更准确的面部区域.

图1显示了预处理步骤的具体过程，以及检测到的面部区域和裁剪后形成的面部图像周围的红色边界框.在该步骤中，裁剪面部时运用了头部姿势校正方法.通过使用仿射变换对齐矫正头部姿势，并且再次裁剪面部区域以确保仅给出面部区域作为CNN模型的输入.

图1 人脸检测和预处理原始人脸图像Fig.1 Face detection and pretreatment of original face images

2.4 卷积神经网络(CNN)架构

图2为深度卷积神经网络进行面部微表情识别的基本框架.预处理和裁剪的面部图像作为输入传递到CNN模型，其中图像必须通过CNN的不同层：卷积；整流线性单元(ReLU)；汇集或子抽样；分类(完全连接层).

卷积步骤的主要目的是从输入图像中提取特征.卷积通过使用小方块输入数据学习图像特征来维持像素之间的空间关系，并创建特征图；ReLU是一种组件智能操作，将要素图中的所有负像素值替换为零；空间池可降低每个要素图的维度，但保留最重要的信息；第3个池层的输出充当完全连接层的输入；完全连接层是传统的多层感知器，在输出层使用Softmax启动功能.卷积和合并层的输出构成输入图像的高级特征.完全连接层的目的是利用这些特征，根据训练数据集将输入图像分为6类.

该神经网络主要分为两个阶段：训练和测试.在训练期间，系统接收训练数据，该训练数据包括具有各自微表情标签的面部图像.在测试期间，验证集中的图像被反馈到神经网络当中，该神经网络使用在训练期间学习到的权重来输出预测的微表情标签.

神经网络的学习率(base_lr)设置为0.001，step-size参数设置为10 000，最大迭代(max_iter)为100 000，用于训练的图像批量大小为每批50张图像.学习策略参数(lr_policy)值更改为“step”，其余参数设置均使用默认值.在神经网络的最后一层使用Softmax分类器进行分类.

图2 深度卷积神经网络的CNN架构Fig.2 CNN architecture of deep convolution neural network

3 实验结果

数据库中所有图像都经过预处理并垂直翻转，以增加样本数量，然后将新的合成数据库分为两组，即训练和测试.每个图像被分类为：

0=厌恶，1=恐惧，2=幸福，3=中立，4=悲伤，5=惊喜.

这些模型在CASME上进行100 000次迭代训练，在CASME Ⅱ和M-CASME上进行41 000次迭代训练.当迭代训练次数达到10 000时，学习率从0.001变为0.000 1.在模型训练的每轮迭代中，基于损失更新网络的层参数.设置最大迭代次数，当训练时间达到该次数时，可以获得一个训练模型，该模型本质上是所有滤波器的参数.保存模型，以便使用该模型来预测图像的微观表达.

输入从验证集中给出，验证集从原始数据库收集原始面部图像.对于每个实验，根据训练数据库使用相应的验证集.所用3个数据库的识别准确度结果列于表2.从表2可以看出识别精度随着训练样本数量的增加而提高.

表2 不同数据库的微表情识别精度Table 2 Micro-expression recognition accuracy of different databases

表3列出了笔者所提CNN方法与其他相关方法在CASME、CASME Ⅱ数据库的微表情识别精度对比.由表3可以看出笔者所提出的CNN方法表现出令人满意的微表情识别精度.由于与CASME数据集相比，CASME Ⅱ数据集中的样本数量较多，Kim等[12]选择在CASME Ⅱ数据集中展示深度学习结果.笔者应用数据增强技术增加样本数量，使用CASME和CASME Ⅱ数据集展示所提出的CNN方法的有效性.

表3 CASME与CASME Ⅱ数据库的微表情识别对比Table 3 Comparison of microscopic expression recognition between CASME and CASME Ⅱ databases

4 结论

笔者基于前人的方法，结合卷积神经网络、深度学习和数据增强，提出了基于CASME Ⅱ数据集的方法.在卷积神经网络中加入Dropout防止过拟合，提高模型泛化能力.在小数据集中使用数据增强增加数据集的样本数量，以此为基础训练模型，识别微表情数据集.使用M-CASME数据集运行模型，训练所得的微表情识别模型可识别6种表情，准确率可达78.02%.相比于CASME与CASME Ⅱ，精度分别提高了3.77%和2.45%.为面部表情分配更加准确的标签相当困难，有些面部表情描绘了一些更微妙的微表情，其影响着模型的性能.未来可在模型中加入更加先进的技术，如使用高级增强方法(条件对抗神经网络cGANs、神经风格迁移NST等)、在分类函数层加入对比损失函数和使用迁移学习的思想来训练神经网络模型等.相信在此之上，微表情识别的精度会进一步提高.