特征集和分类器融合技术在表情识别中的应用

2014-10-15汪传建

河南科技大学学报(自然科学版) 2014年2期

高攀，郭理，汪传建

(石河子大学信息科学与技术学院，新疆石河子832000)

0 引言

近年来，面部表情自动识别技术因其各种应用而被广泛关注，如人机交互(HCI)、情感分析、自动辅导系统、交互式视频、图像和视频数据库的检索、图像理解和人脸动画合成等［1-5］。文献［6］提出的6种基本的情感，包括快乐，悲伤，恐惧，厌恶，惊讶和愤怒。表情识别方法基本上可以分为几何分析和基于外观分析两大类［6］，第1种方法考虑到一些预定义的几何位置，也被称为基准点，以面部特征来表示面部，然而，几何特征的表示通常需要精确和可靠的人脸特征检测与跟踪，这很难适应于许多情况［7］。第2种方法是通过整体空间分析模仿面部外观的变化，这种方法所使用的工具通常是主成分分析(PCA)［6］、独立成分分析(ICA)［8］、Gabor 滤波器和局部二进制模式(LBP)［9］。Gabor滤波器因为其在面部分析上优越的性能而被广泛采用［10］，但其缺点是在时间和内存上花销较高，LBP作为有效的外观特征图像分析［11］技术与Gabor滤波器相比，节省了大量计算资源，同时又有效地保持了面部信息［12］。

虽然技术上已经取得了很大进展，但由于面部表情的变化具有微妙性、复杂性和多变性，所以高精确识别面部表情仍然有困难。为处理这类复杂的模式识别问题，本文利用Gabor滤波器和LBP这两个当前最广泛应用于面部表情识别的特征集创建分类器组，使用多目标遗传算法搜索最佳的集合作为目标函数。为验证所提出的方法，本文设计了两个不同的方案分别在JAFFE和Cohn-Kanade两个不同的人脸库上进行实验，通过实验可以证明:所提出方案比使用单一特征集和单分类器的传统方法分别提高了5%和10%的识别率。

1 特征集方法综述

本文选择用来进行面部表情建模的特征集。

1.1 Gabor滤波器

Gabor滤波器已被成功地应用于人脸表情识别，因此被选为一个特征集用于训练基分类器。一组Gabor内核是一个高斯包络和平面波的产物，定义如方程(1)［9］:

其中，z=(x，y)是一个空间域上的变量;kμ，v(定义如方程(2)［6］)是一个频率矢量，用来确定 Gabor内核的尺度和方向。

图18 个方向(列)和5个尺度(行)的Gabor滤波器

可以使用方程(3)［10］，通过Gabor内核的卷积得到给定的图像I(z)在特定位置上的Gabor变换，

由方程(4)［10］得到复图像的幅值:

其中，N是人脸图像中标记的基准点数量;xl和yl是基准点的坐标;k是用来形成区域的周边像素的数量。文献［12］提出的一组来自74个不同界标的20个基准点，根据作者的观点，这些点分布在脸的突出特征上。图2显示了作者使用的20个基准点。

根据方程(5)，用一个大小为K×K掩模计算出特征向量。在本文的实验中，测试了K={1，3，5，7，9}。如前所述，提取了尺度为160的5个特征集，方向为100的8个特征集，和一个尺度和方向都为800的特征集。考虑到5个不同的掩模，用70个不同的特征集训练70个分类器。

1.2 局部二进制模式

局部二进制模式(LBP)最早是作为一种有效的纹理描述算子提出的［13］，由于其对图像局部纹理特征的卓越描绘能力而获得了十分广泛的应用。LBP特征具有很强的分类能力和较高的计算效率，因此被选为用于训练基分类器的另一个特征集。图3为原始LBP算子，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3×3邻域内的8个点可产生8 bit的无符号数，即得到该窗口的LBP值，并用这个值来反映该区域的纹理信息。

图2 文献［8］提出的20个基准点

图3 原始LBP算子

基本LBP算子的局限性在于它的小邻域不能吸收大尺度结构中的主要特征。为解决这个问题，算子被扩展以应对大邻域，采用圆形邻域并结合双线性插值运算，能够获得任意半径和任意数目邻域像素点。图4是扩展的LBP算子，(P，R)表示半径为R的圆上P邻域等距采样点。

LBPP，R算子产生2P个不同的输出值，对应于邻域集中P个像素形成的2P个不同的二进制模式。对人脸图像使用LBP分割成小区域Z0，Z1，…，Zn以提取LBP直方图，然后每个区域提取的特征合并成一个单一的向量。图5举例说明这一过程。

图4 扩展LBP算子的3个例子

图5 从分区的面部图像提取LBP特征

本文把人脸分为42个区(7×6)，使用3个不同的特征组合训练3个分类器，这3种LBP算子的组合分别是前两种组合产生的特征向量每区有 59 个特征，合计 2 478 个，而最后一个组合产生的特征向量每区有243个特征，合计10 206个。

2 实验结果和讨论

使用两个实验方案来评价面部表情识别方法。实验I中，测试对象来自训练对象集，实验II中，训练集对象均不用于测试。第1个实验方案经常在文献中出现，但是，第2个方案更为切合实际，因为该系统必须能够对没有被用来训练的对象进行表情分类。

本文采用支持向量机(SVM)作为基分类器。面部表情识别是一个多分类问题，假设d表示类的数目，则需训练d×(d-1)/2个分类器，并组织成树形结构，如7种不同类别的面部表情需要21个分类。

接下来简单介绍JAFFE和Cohn-Kanade数据库并在这两个数据上做相关实验。

2.1 数据库

JAFFE数据库包含10名女性对象及其213个图像的面部表情。每个图像分辨率为256×256像素。7个类别的图像表情(中性，快乐，悲伤，惊讶，愤怒，厌恶，恐惧)是相同的，如图6所示。

图6 JAFFE数据库中7类面部表情

Cohn-Kanade数据库描绘每一个表情从中性状态演变直到它在最后一帧达到其最高的强度的序列图像。数据库由1 281个图像构成。图7是这个数据集的一些例子。

图7 Cohn-Kanade数据库中7类面部表情

2.2 在JAFFE数据库上的实验

根据所提出的方法，第1步是训练基分类器池。所有的分类都是基于LibSVM高斯内核训练的支持向量机。通过使用JAFFE数据库进行实验I和实验II，得到73个分类器的精度。分类器分为3组:3个LBP分类器、30个基于尺度的Gabor分类器和40个基于方向的Gabor分类器。可以观察到，实验II的分类器性能远不如实验I的表现。

训练后的分类器池作为MOGA的输入，本文使用NSGA-II多目标遗传算法建立分类器集合，实验中采用如下参数:种群=100，子代数=300，交叉概率=0.7，变异概率=0.01，小生境距离=0.05。因为实验中使用73个分类器，所以染色体的个数是73;集合的错误率通过求和规则计算;采用组合优化方法定义交叉概率和变异概率;使用实证法确定种群规模与子代数。

图8显示了实验I和实验II在目标平面上的种群演变。可以观察到，在这两种情况下，该算法收敛到Pareto前沿产生一组可能的解决方案。为了进行搜索，使用10倍交叉验证。每个实验重复10次，以验证其重复性。因此，所有结果是这10次重复的平均值。

图8 在目标平面上的种群演变

下一步是从Pareto选择最佳的分类器集合。如前所述，高精度很重要，但集合的大小也是这类应用的一个重要问题。从图8可以看出:提供了准确性和大小之间的最佳权衡的集合被安置在靠近Pareto的末端。选定的集合用箭头标记在图8a和图8b中，选定的分类器及其个体性能如表1所示。

尽管分类器规模相同(实验I和实验II分类器规模分别是5和6)，但除了LBP分类器LBP8，2以外，该集合的组成完全不同。从表1可以看到:实验II比实验I有相当多的难度，但是，所提出的方法能够为实验找到合适的集合。

表1 选择的分类器(JAFFE数据库)

在实验I中，集合性能相比较最佳分类器提高了约5%。但实验II表现更佳，分类器集合相对最好的单分类器识别率提高了10%左右。实验II选择的分类器的性能快速查看的结果表明似乎可以抛弃3个基于Gabor的分类器，因为与基于LBP的分类器相比，他们表现欠佳，但这些弱分类器仍然非常重要，因为他们提供补充信息，这是集合良好性能的关键，如果移除3个基于Gabor的分类器，则集合的性能将下降到62%。

表2和表3比较了两个针对所有分类器和所提方法产生的集合实验的混淆矩阵。表2显示实验I中分类器解决了绝大多数的分类问题，在实验II中(如表3所示)也解决了几个问题，但还有很多改进的余地，如“悲伤”类。为了进一步减少这些问题，一个可能的选择是使用更多的数据库图像来增加训练集。

表2 实验I的混淆矩阵(JAFFE数据库)

表3 实验II的混淆矩阵(JAFFE数据库)

表4为不同方法在JAFFE数据库的比较，从表4可以看出:所提出的方法优于已有文献。

2.3 Cohn-Kanade数据库的实验

与JAFFE数据库相同的方案被施加在Cohn-Kanade数据库上进行实验。同样得到了73个分类器在实验I和实验II中的精度。通过比较两次实验可以很清楚地看到:Cohn-Kanade数据库比 JAFFE数据库简单，因为Cohn-Kanade数据库中面部表情图像的变化细微。一些分类器的性能令人非常满意，特别是在实验I中同一对象同时参与了训练和测试时的精度。

与在JAFFE数据库上的实验一样，算法也是收敛到Pareto前沿产生一组可能的解决方案。选定的集合用箭头标记，如图9a和图9b所示。选定的分类和他们的性能如表5所示。同样，对选择的集合进行了10次重复以保证其可重复性。

表4 不同方法在JAFFE数据库的比较

图9 在目标平面上的种群演变

表5 选择的分类器(Cohn-Kanade数据库)

如前所述，该数据集比前一个简单，所以它需要更小的集合减少整体的错误率。在这种情况下，最佳的分类器(LBP8，2)连同一个基于尺度的Gabor分类器被选定。表6显示了实验II的混淆矩阵，从表6中可以观察到“恐惧”类的问题得到了解决，“恐惧”是公认最难识别的表情。

表6 实验II混淆矩阵(Cohn-Kanade数据库)

表7显示了文献中报道的不同方法在Cohn-Kanade数据库的性能。由于已有实验方案的差异，直接的比较是不可能的，尽管实验方案有所差异，但所提出的方法优于已有文献。

表7 不同方法在Cohn-Kanade数据库的比较

3 结论

本文提出了一个面部表情识别新方法，该方法依赖于两个不同的特征集相结合为一个集合以提高识别的准确性。该方法结合了两种不同的特征集，即Gabor滤波器和LBP。两个特征集相结合为分类器集合的识别率明显优于个体特征集和单分类器。例如，在实验I的情况下，集合方法的性能比最好的个体分类器提高了约5%。特别是在实验II中，集合方法的识别率比最好的个体分类器提高了约10%。

与文献中的各种方法相比，本文得到的识别率都略有提高。尽管取得了良好的效果，但所提出的方法仍有一些缺点。一个缺点是在Gabor特征的情况下，基准点定位存在问题。由于没有可靠的算法在人脸图像找到这样的点，不正确的位置会导致噪声特征向量，这个特征向量会减少对应分类器的精确度。尽管如此，这个问题可以被集合在某种程度上缓解;另一个缺点是整个系统的复杂性增大，因为它需要提取两套特征以及分类器的训练和选择，但这个缺点相对于面部表情识别率的增长是值得的。

［1］Aleksic P S，Katsaggelos A K.Automatic Facial Expression Recognition Using Facial Animation Parameters and Multistream Hmms［J］.IEEE Transactions on Information Forensics and Security，2006，1(1):3-11.

［2］Bartlett M，Littlewort G，Frank M，et al.Recognizing Facial Expression:Machine Learning and Application to Spotaneous Behavior［J］.IEEE Conference on Computer Vision and Pattern Recognition，2011，3(1):568-573.

［3］吴丹，林学訚.人脸表情视频数据库的设计与实现［J］.计算机工程与应用，2004(5):177-180.

［4］杨得国，杨勐，姜金娣，等.一种改进的局部区域特征医学图像分割方法［J］.河南科技大学学报:自然科学版，2012，33(2):30-33.

［5］翁阳，程明.基于相位相关的指纹序列图像配准新算法［J］.郑州大学学报:理学版，2012(4):63-67.

［6］Besinger A，Sztynda T，Lal S，et al.Optical Flow Based Analyses to Detect Emotion from Human Facial Image Data［J］.Expert Systems with Applications，2010(7):8897-8902.

［7］Liao S，Fan W，Chung C S，et al.Facial Expression Recognition Using Advanced Local Binary Patterns［C］//International Conference on Image Processing(ICIP).2006:665-668.

［8］Cheng F，Yu J，Xiong H.Facial Expression Recognition in Jaffe Dataset Based on Gaussian Process Classification［J］.IEEE Transactions on Neural Networks，2011，21(10):1685-1690.

［9］Cohen I，Sebe N，Garg A，et al.Facial Expression Recognition from Video Sequences:Temporal and Static Modeling［J］.Computer Vision and Image Understanding，2003，9(1):160-187.

［10］Geetha A，Ramalingam V，Palanivel S，et al.Facial Expression Recognition a Real Time Approach［J］.Expert Systems with Applications，2013，3(2):303-308.

［11］Duan H，Xu C F，Xing Z H.A Hybrid Artificial Bee Colony Optimization and Quantum Evolutionary Algorithm for Continuous Optimization Problems［J］.International Journal of Neural Systems，2010，20(1):39-50.

［12］Koutlas A，Fotiadis D.An Automatic Region Based Methodology for Facial Expression Recognition［J］.IEEE International Conference on Systems，Man and Cybernetics，2008(6):662-666.

［13］Liu W，Wang Z.Facial Expression Recognition Based on Fusion of Multiple Gabor Features［C］//18th International Conference on Pattern Recognition.2006:36-539.

［14］Shan C，Gong S，McOwan P W.Facial Expression Recognition Based on Local Binary Patterns:A Comprehensive Study［J］.Image and Vision Computing，2011，27(3):803-816.

［15］Zavaschi T，Oliveira L，Koerich A.Facial Expression Recognition Using Ensemble of Classifiers［C］//Proceedings of 36th International Conference on Acoustics，Speech and Signal Processing.2011:1489-1492.

［16］Lu J，Plataniotis K N，Venetsanopoulos A N.Regularization of Linear Discriminant Analysis in Small Sample Size Scenarios with Application to Face Recognition［J］.Pattern Recognition Letters，2011，46(2):181-191.

［17］Nandakumar K，Chen Y，Dass S C，et al.Likelihood Ratio Based Biometric Score Fusion［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，47(2):342-347.

［18］Jumutc V，Zayakin P，Borisov A.Ranking-based Kernels in Applied Biomedical Diagnostics Using Support Vector Machine［J］.International Journal of Neural Systems，2011，21(6):459-473.