基于卷积神经网络的人脸表情识别

2015-10-18徐鹏薄华上海海事大学信息工程学院上海201306

网络安全与数据管理 2015年12期

徐鹏，薄华（上海海事大学　信息工程学院，上海　201306）

基于卷积神经网络的人脸表情识别

徐鹏，薄华（上海海事大学信息工程学院，上海201306）

传统的神经网络表情识别系统由特征提取和神经网络分类器组成，利用人的经验来获取模式特征，很容易丢失表征表情特征的细节信息。提出一种基于卷积神经网络的识别方法，避免了对图像进行复杂的特征提取，直接把图像数据作为输入。通过在Cohn-Kanade表情库上的实验结果表明，该方法能够取得很好的表情分类效果。

卷积神经网络；人脸表情识别

0　引言

表情识别已成为人类交流甚至人机交互过程的一个重要研究课题。关于面部表情识别的研究能帮助人们建立更加智能化和交互性良好的计算机系统。1971年，EKMAN P和FRIESEN W V研究了6种基本表情：高兴、悲伤、惊讶、恐惧、愤怒和厌恶，并系统地建立了上千幅不同的人脸表情图像库［1］。由于人机交互研究的不断深入和巨大的应用前景，表情识别一直是模式识别和人工智能领域的一个研究热点。

在过去的几十年内，研究者已经提出了很多基于神经网络（Back Propagation algorithm，BP）面部表情识别的方法。典型的多层神经网络（MLP）一般包括1～2个隐藏层，单纯采用BP算法进行训练［2］。有研究表明，增加MLP的隐藏层并不能提高网络的性能，甚至会大大降低，另外BP算法容易陷入局部最小值［3］，而且识别效果的好坏取决于人工选择的特征是否合理。人工选取特征是一件费时、费力的方法，为了达到好的效果需要大量的特征，甚至需要依赖专业知识，有些领域难以实现。特征的数量和质量成为识别系统发展的瓶颈。

为解决上述问题，本文提出一种基于卷积神经网络的识别方法，直接在输入表情图像上自动地学习多层特征和分类。实验证明，基于卷积神经网络的表情识别有较高的精度和很好的鲁棒性。

1　卷积神经网络

1988年，LECUN Y等人［4］提出的卷积神经网络（Convolutional Neural Networks，CNN）是第一个成功训练多层网络的学习算法。CNN作为深度学习模型的一种，通过局部空间映射关系减少需要训练的参数数目来提高反向传播算法的训练性能。2012年，HINTON G E等人［5］将CNN应用于ImageNet（图像识别目前最大的数据库）上，采用deep net结构，最终取得了非常惊人的结果，其结果相对原来方法好了很多（前5个错误率由25％降低为17％）。由于CNN可以直接从原始图像中学习模式特征，避免了复杂的特征提取和数据重建过程，已成功应用于手写字符识别［6］、人脸识别［7］、人眼检测［8］、车牌字符识别［9］、交通信号识别［10］等众多应用领域。CNN的结构框架和理论推导可参阅参考文献［11］。

2　基于卷积神经网络的算法结构设计

本文采用6层结构的卷积神经网络，包括2层卷积层（C）、2层抽样层（S）和1层全连接层（F），如图1所示。

图1　表情识别CNN框架

CNNs网络模型学习步骤如下：

（1）在C1层做卷积操作，本文使用5×5的窗口对输入图像进行卷积操作，在这一层，如果需要，还会进行包括图像归一化（本文将图像大小归一化为64×64）。本文在该层设置5幅特征图，此时特征图的大小为60×60。

（2）在S2中对C1进行抽样，抽样窗口设置为2×2，此时特征图数目不变仍为5幅，大小为30×30。

（3）C3设置了9幅特征图，对S2进行卷积，用5×5的卷积核，此时特征图大小为26×26。

（4）在S4层对C3抽样窗口设置为2×2，此时该层特征数目仍为9，大小为13×13。

（5）通过全连接到F5层，设置神经元个数，神经元的个数通常与分类的类别数有关，因此在输出层F6设置6个神经元。

（6）设计好网络结构后，用反向传播算法，求取网络的解。

（7）当得出所有未知参数后，输入一幅图像，在网络输出层会给出输出类别。

3　实验结果及分析

本文选取的实验样本包括两个部分：Cohn-Kanade表情库和自拍的表情图像。其中，Cohn-Kanade表情库包含的图像总数为1825幅，分为愤怒（386幅）、惊讶（360幅）、厌恶（265幅）、恐惧（255幅）、高兴（300幅）、悲伤（259幅）共6类；自拍的表情图像包含的图像总数为1 264幅，分为愤怒（211幅）、惊讶（215幅）、厌恶（204幅）、恐惧（214幅）、高兴（210幅）、悲伤（210幅）6类。

为了验证本文方法的有效性，分别进行3组实验。

（1）用Cohn-Kanade表情库的样本进行训练和测试，一部分表情为训练样本，一部分表情为测试样本，且来自不同的人；每种表情均选择其中90％作为训练样本，10％作为测试样本，循环10次，将10次的平均误差作为测试结果，且实验中参加训练和测试的表情来自不同的人。测试结果如表1所示。

表1　Cohn-Kanade表情测试方案

由表1可以看出，在Cohn-Kanade表情库测试的识别率达到90％以上，实验证明，不做特征提取的卷积神经网络表情识别系统具备正确率高、泛化能力较强的能力。

图2显示了输入表情图像在卷积神经网络前几层产生的特征图，最左侧是输入人脸表情图，从左到右依次是输入层、C1层、S1层、C2层、S2层。从图中可以看出，神经网络可以很好地提取表情特征。

图2　卷积神经网络中间层神经元输出的特征图

（2）为了验证该算法的鲁棒性，这部分实验采用自拍的图像作为测试图像。参加训练的表情图像仍然来自Cohn-Kanade表情库，测试表情来自实验室拍摄视频剪辑成的图像。测试结果如表2所示。

表2　自拍表情测试方案

由表2可知，自拍表情方案的识别结果普遍较低，由于缺少充足的先验知识，并且亚洲人和欧美地区人的表情存在差异性，因此识别率偏低。

（3）为了提高识别率，将自拍图像与Cohn-Kanade表情库的图像合并，然后重复第一个实验的方法，将合并后的表情库图像的90％作为训练样本，10％作为测试样本，循环10次进行训练和测试，得到测试结果为10次的平均值。测试结果如表3所示。

表3　混合表情测试方案

由表3可知，部分表情识别率有所提高，而另一部分有所下降，平均识别率基本持平。实验表明，卷积神经网络能够学习到样本的共征，后一种情况间接证明了第二个实验的结论。

4　结论

卷积神经网络在处理二维图像时有多个独特优点：（1）无需复杂的特征提取；（2）可以将二维图像直接输入到神经网络中，大大减少了预处理的难度；（3）局部野和权值共享技术减少了参数空间，大幅度降低了算法的复杂度；（4）次抽样技术增强了网络的鲁棒性，能容忍图像一定程度的畸变。本文将卷积神经网络的算法用于人脸表情的识别，实验结果显示该方法有较高的识别率和较好的鲁棒性。为了提高自拍图像的识别率，下一步除了建立一个更丰富的表情库之外，需要进行将不同的卷积神经网络试验，寻找更适应表情识别的卷积神经网络结构。

［1］EKMAN P，FRIESEN W V.Constants across cultures in the face and emotion［J］.J Pers Soc Psychol 1971，17（2）：124-129.

［2］RUMELHART D E.Parallel distributed processing：exploration in the microstructure of cognition［M］.Cambridge，MA：MIT Press，1986.

［3］韩力群.人工神经网络理论、设计及应用［J］.北京：化学工业出版社，2001.

［4］LECUN Y，BOSER B，DENKER J S，et al.Backpropagation applied to handwritten zip code recognition［J］.Neural computation，1989，1（4）：541-551.

［5］KRIZHEVSKY A，SUTSKEVER I，HINTON G E. Imagenet classification with deep convolutional neural networks［C］.Advances in Neural Information Processing Systems 25（NIPS′2012），2012.

［6］LECUN Y，BOTTOU L，BENGIO Y，etal．Gradient basedlearning applied to document recognition［C］.Proceedings of the IEEE，Berlin：IEEE，1998，86（11）：2278-2324．

［7］LAWRENCES，LEEG C，TSOIA C，etal．Face recognition： aconvolutionalneuralnetwork approach［J］．IEEE Transonactions on Neural Networks，1997，8（1）：98-113．

［8］TIVIVE F H C，BOUZERDO W N A，et al．An eye feature detector based on convolutional neural network［C］. Proceedings ofthe Eighth InternationalSymposium on Signal Processing and Its Applications，2005，1：90-93.

［9］赵志宏，杨绍普，马增强，等.基于卷积神经网络 LeNet-5的车牌字符识别研究［J］.系统仿真学报，2010，22（3）：638-641.

［10］陈先昌.基于卷积神经网络的深度学习算法与应用研究［D］.杭州：浙江工商大学，2013.

［11］BOUVRIE J.Notes on convolutional neural networks［J］. Neural Nets，2006.

ADI推出ADuM4135隔离式IGBT栅极驱动器

Analog Devices，Inc.（ADI），全球领先的高性能信号处理解决方案供应商，最近推出ADuM4135隔离式IGBT栅极驱动器，其可提高工业电机控制应用的电机能效、可靠性和系统控制性能。单封装ADuM4135集成ADI公司备受赞誉的i Coupler®数字隔离器技术，通过成熟的电流隔离技术来确保安全性和可靠性，同时实现业界最佳的特性组合——CMTI（共模瞬变抗扰度）为100kV/μs且传播延迟为50ns（典型值）。

利用ADuM4135，客户产品将符合IE3和IE4电机效率标准，从而与电机控制和电网逆变器均转向更高频率切换技术的业界趋势保持一致。安全特性包括集成米勒箝位和去饱和检测。

系统设计人员可以利用ADuM4135栅极驱动器的低传播延迟和偏斜来缩短低高端切换之间的死区时间，从而将损耗降至最低并改善系统整体性能。突破性的CMTI性能和低传播延迟还支持新型功率开关技术，包括SiC和GaN，以便在瞬变更大的系统中使用更高的开关频率。ADuM4135采用16引脚宽体SOIC封装，提供8mm的爬电距离和电气间隙。

（ADI公司供稿）

Facial expression recognition based on CNN

Xu Peng，Bo Hua
（College of Information Engineering，Shanghai Maritime University，Shanghai 201306，China）

Traditional neural network face recognition system consists of feature extraction and neural network classifiers，using human experience to get the pattern features.It is easy to lose face features characterizing details.This paper proposes a method based on the convolutional neural network without the complex feature extraction of the image.Results of the experiment on Cohn-Kanada show that the method described in this paper has a promising performance.

convolutional neural network；facial expression recognition

TP391.9

1674-7720（2015）12-0045-03

2015-01-28）

徐鹏（1988-），男，硕士，主要研究方向：图像处理与机器学习。

薄华（1971-），女，博士，硕士导师，主要研究方向：遥感图像处理、模式识别、人工智能。