基于多尺度等价模式LBP的人脸表情识别

2016-04-08庞作超鱼冰洋施以鹏

计算机与数字工程 2016年1期

关键词：图像融合特征提取

叶　棪　陈　蕾　庞作超　鱼冰洋　施以鹏　徐　焱

(苏州大学电子信息学院　苏州　215006)

基于多尺度等价模式LBP的人脸表情识别

叶棪陈蕾庞作超鱼冰洋施以鹏徐焱

(苏州大学电子信息学院苏州215006)

摘要人脸表情识别是近年来计算机视觉和模式识别领域的一个研究热点,论文提出了基于多尺度等价模式LBP(Local Binary Patterns)的人脸表情识别方法。首先,为了消除光照影响,对图像分别进行对数变换和直方图均衡化处理,并按照一定的比例关系融合。然后,提取图像的等价模式LBP谱图,对图像进行多尺度分解。为了减少运算量,提高识别率,仅以人眼和嘴部区域的LBP直方图作为表情特征向量。最后,对重点区域的特征向量进行了加权处理,以加权欧氏距离对表情进行分类。论文用JAFFE表情库进行了测试实验,实验结果表明,该方法识别率较高,速度快。

关键词图像融合; 等价模式LBP; 特征提取; 表情识别

Facial Expression Recognition Based on Multi-scale Equivalent LBP

YE YanCHEN LeiPANG ZuochaoYU BingyangSHI YipengXU Yan

(School of Electronics and Information Engineering, Soochow University, Suzhou215006)

AbstractFacial expression recognition is a hot research topic in the field of computer vision and pattern recognition in recent years. In this paper a novel method based on multi-scale equivalent local binary patterns for facial expression recognition is proposed. First of all, in order to eliminate light effects, the logarithmic transformation and histogram equalization processing are used respectively on images, and two images preprocessed are fused according to certain proportion relationship. Then, the equivalent model of LBP spectrogram is extracted and the image is divided in multi level. For reducing the computational complexity and improving the recognition rate, only the LBP histograms of eye and mouth areas are reserved as a facial expression feature vector. Finally, the feature vectors of the key area are weighted and Euclidean distance is used for expression classification. This paper introduced the test experiment with JAFFE facial expression library, the experimental results show that the method proposed in this paper improve recognition rate and the operation speed is faster.

Key Wordsimage fusion, equivalent LBP, feature extraction, facial expression recognition

Class NumberTP301

1引言

20世纪90年代,计算机技术迅猛发展,人脸表情识别作为人机交互的重要方式,逐渐成为热门的研究领域。人脸表情含有丰富的人体行为信息,是情感最主要的载体,是智能的体现,对它的研究可以进一步了解人类对应的心理状态[1]。20世纪70年代,美国心理学家Ekman与Friesen提出面部运动编码系统(Facial Action Coding System,FACS)。在这个系统中定义了六种最基本的表情:高兴、生气、伤心、厌恶、害怕、惊讶以及33种不同的表情倾向[2]。人脸表情识别主要分为三个过程:预处理、人脸表情特征提取、表情分类。其中,人脸表情特征提取是最重要的一个过程,常用的方法有:主成份分析法PCA、Gabor小波法、基于局部二进制模式等[3~4]。LBP纹理描述算子由于在人脸图像分析中面对诸如姿态和光照等因素的变化时仍体现出很强的鲁棒性,获得了越来越多的关注[5]。尽管在国内外众多学者的努力下,人脸表情识别技术已经取得了很大进展,但目前仍处于研究探索阶段。研究表明,人脸表情识别的难点在于人脸、光照和表情,提取鲁棒性的人脸表情特征成为表情识别中的重要难题。本文选用JAFFE表情库(日本女性人脸表情数据库)进行了实验,具体流程如图1所示,首先将原始表情图像经预处理变换成标准图像,然后对其进行多尺度的LBP特征提取,最后计算出测试图像的特征向量与六种基本表情的训练样本的欧式距离,其中距离最小的项对应训练样本的表情即为该测试图像的表情识别结果。

图1人脸表情识别流程图

2图像预处理

光照对人脸表情识别的影响很大,为了减少该影响,需要对原始的人脸图像进行预处理。图像预处理过程如图2所示。首先对人脸图像进行尺寸归一化,然后分别进行直方图均衡化以及对数变换,并将两者相互融合,最后将图像的灰度值归一化,使得所有图像的平均灰度值相近。

图2　图像预处理框图

2.1直方图均衡化

直方图均衡化就是使用累积函数对灰度值进行调整以实现对比度的增强[6]。在Matlab中可以直接调用histeq函数来实现图像直方图的均衡化。具体计算过程如下:

1) 计算出原始图像各灰度级的频数,用Pr表示,其中n(k)为原始图像各灰度级的像素个数,n为原始图像像素总个数,k=0,1,…,L-1。L是灰度级总数:

(1)

2) 计算累积直方图:

(2)

3) 计算输出图像的灰度级gi,i=0,1,…,P-1,P为输出图像的灰度级个数,int为取整符号:

gi=int[(gmax-gmin)Pk+gmin+0.5]

(3)

4) 计算输出图像的直方图,n(i)为映射过后的各灰度级的像素个数:

(4)

2.2对数变换

对数变换可以将图像变得柔和[7]。假设输入图像的像素值分布函数为f(x,y),经对数变换后的像素值分布函数为g(x,y),k为对数变换的比例常数,其公式为

g(x,y)=k*ln(f(x,y)+1)

(5)

2.3融合

图像融合是把同一场景的几个图像按照一定规则合成新图像,使得新图像具有更全面的信息[8]。直方图均衡化后的图像虽然看起来清晰,在一定程度上削弱了光照的影响。但对比度被过分增强,图像明显变亮,而对数变换处理后的图像变得柔和,但是边缘容易模糊不清,将二者融合,能改善人脸的光照补偿效果,提高人脸的识别率。假设直方图均衡化后图像的像素值得分布函数为m(x,y),图像融合后的像素分布函数为h(x,y),计算公式为

(6)

图3为两者融合的过程,可以看出,融合后的图像改善了人脸光照不均匀的情况,图像变得更加清晰。

图3　图像融合结果

2.4灰度归一化处理

(7)

3人脸表情特征提取

3.1LBP算子简介

LBP算子是由Ojala提出,它的基本原理是:对于一幅图像中的各个像素点,以其中一个像素点为中心,取其四周紧邻的P个像素点。再以该像素点的灰度值为阈值,将环绕该点的P个像素点二值化(若某一点的灰度值大于等于中心点像素的值,则该像素点被标记为1,否则标记为0)。最终得到一个P位的二进制数,转化为十进制数所得的值即为该中心像素点的LBP值,共有2P种,一幅图像中2P种LBP值构成的直方图可看作纹理描述算子。计算公式如式(8)所示,其中(xc,yc)表示中心像素点的位置,gp表示采样点的灰度值,gc表示中心点的灰度值。图4以采样点P取8为例展示了LBP算子的基本原理[9]。

(8)

(9)

3.2LBP算子的等价模式

LBP算子在实际应用中常有两种模式:旋转不变模式和等价模式。本文采用的是LBP算子的等价模式,它规定对于任意一个LBP模式,最多只能有两次0、1之间的跳变,为此,引入变量U,公式如式(10)所示,U≤2的模式即为等价模式,LBP值的计算如式(8)所示;其余则为非等价模式,LBP值为0。图5所示的模式均为LBP等价模式,其中亮点表示1,黑点表示0。

U(LBPP,R)=|s(gP-1-gc)-s(g0-gc)|

(10)

图4　基本LBP算子原理

图5　等价模式LBP

研究表明,少数的等价模式便可表达一般图像绝大部分的纹理信息,使用等价模式可以对传统的LBP算子进行降维,而且获得的图像能够保留有效信息,数据的处理量也大大降低。图像中各个像素点的值经LBP变换后得到新的像素值,由其组成的新图像即为LBP图谱。在等价模式下,LBP算子值输出的种类为P2-P+2种,考虑到非等价模式类别,则人脸中的每块矩形区域的直方图向量共有P2-P+3维[10~11]。测试时选取的LBP参数:采样半径R为2,采样点数P为8,LBP模式为等价模式,由此计算出的LBP直方图的维数为59。原始图像及其对应的LBP图谱及LBP直方图如图6所示。

图6　等价模式下的LBP图谱及LBP直方图

3.3多尺度的LBP特征向量

在LBP特征提取的过程中,首先大致划分出人眼、嘴等区域,这些部位对表情识别的贡献最大,然后对每个部分进行分块处理,计算各个分块的LBP特征向量,最后按照一定顺序将各块图像的LBP向量堆叠起来作为该图像的特征向量。

图7　表情图像的多尺度分解

以左眼2×2分块为例,计算出每个分块以及整个左眼的LBP特征向量,多尺度的LBP特征向量可以更加有效地表示图像的表情信息,具体过程如图8所示。

图8　多尺度下提取的LBP直方图

将左眼图像和4个分块的直方图顺序连接起来得到的向量即为该左眼区域的特征向量,其长度为295,所得的特征向量如图9所示。

图9　左眼区域的LBP特征向量

4相似性度量及实验结果

本文通过计算测试样本与训练样本之间的加权欧式距离,来实现相似度检测。假设测试表情的特征向量为FV_test,训练样本表情的特征向量为FV_train,相似性度量计算公式为

(11)

距离最小的一项对应的训练样本表情即为该测试表情的最终识别结果。

在人脸表情中,人眼和嘴对表情的贡献程度也不相同。如果表情的识别率不理想,可以将嘴部分的特征向量增加权重,实验表明,通过加权的方法可以提高某些表情的识别率。

本文使用的是日本JAFFE表情库,JAFFE表情库中一共有213幅表情图像,包含10名女性,每人7种表情(生气、厌恶、害怕、高兴、伤心、惊讶、中性),实验时,我们没有使用中性表情。我们作了两种实验,一是针对特定人的表情识别,二是针对非特定人的表情识别。针对特定人的表情识别方法的过程是:在每个表情库中任意选择一张图片作为测试表情,其余的图片作为训练表情,依次循环即将每张表情测试一次,最后将各测试表情的识别结果按照表情类别统计识别率。根据本文方法统计得到的各个表情的识别率如图10所示。其中,高兴的识别率最高,达到97%,所有表情的平均识别率是91%。

图10　特定人的表情识别率统计图

针对非特定人的表情识别方法具体过程是:任意选定一个人表情作为测试表情集,用其他人作为训练表情集,循环10次,分别统计出每个表情库每种表情的识别率。实验结果显示对于高兴的识别率比较高,达到85%,惊讶的识别率是77%,但是,对于害怕和伤心的识别效果不是很理想,这主要原因在于表情定义的个体差异比较大。

5结语

本文主要研究了基于多尺度等价LBP的人脸表情识别方法。在特征提取之前先对图像进行了预处理,有效地改善光照强度影响。然后对图像进行多尺度分解,并以多尺度下的LBP直方图作为表情特征,以加权的欧氏距离进行相似度检测。从实验结果可以看出,针对特定人的人脸表情的识别率较高。在非特定人表情识别中,高兴表情的识别率要高于其他表情,因为对每个人每种表情的定义有所差异,但是对高兴表情的定义大致相同。通过实验可以发现,人脸的差异性是表情识别的一大难点,本文采用的划分关键表情区域并加权的方法在非特定人识别中取得了一定的效果。人脸表情很复杂,如何提高非特定人的识别正确率还值得进一步研究。

参考文献

[1] Pantic M, Rothkrantz L J M. Facial Action Recognition for Facial Expression Analysis from Static Face Images[J]. IEEE Transactions on Systems, Man, and Cybernetics,2004,34(3):1449-1461.

[2] 王志良,陈锋军,薛为民.人脸表情识别方法综述[J].计算机应用与软件,2004,20(12):63-66.

WANG Zhiliang, CHEN Fengjun, XUE Weimin. A Survey of Facial Expression Recognition[J]. Computer Applications and Software,2004,20(12):63-66.

[3] 蒋斌,贾克斌,杨国胜.人脸表情识别的研究进展[J].计算机科学,2011,38(4):25-31.

JIANG Bin, JIA Kebin, YANG Guosheng. Research Advance of Facial Expression Recognition[J]. Computer Science,2011,38(4):25-31.

[4] 薛雨丽,毛峡,郭叶,等.人机交互中的人脸表情识别研究进展[J].中国图象图形学报,2009,14(5):764-772.

XUE Yuli, MAO Xia, GUO Ye, et al. The Research Advance of Facial Expression Recognition in Human Computer Interaction[J]. Journal of Image and Graphics,2009,14(5):764-772.

[5] Ahonen T, Hadid A, Pietikainen M. Face Recognition with Local Binary Patterns[C]//Proceedings of the 8th European Conference on Computer Vision, Prague, The Czech Republic,2004:469-481.

[6] 李开端,李树军.基于直方图统计学的图像增强算法研究[J].科学技术与工程,2011,11(23):5572-5575.

LI Kaiduan, LI Shujun. Research of Image Enhancement Algorithm Based on Histogram Statistics[J]. Science Technology and Engineering,2011,11(23):5572-5575.

[7] 王群,陈小松,崔志明.图像增强技术在DSA减影中的应用[J].计算机应用与软件,2007,24(10):48-49.

WANG Qun, CHEN Xiaosong, CUI Zhiming. Application of Enhancement Technology to Subtraction Function of DSA[J]. Computer Applications and Software,2007,24(10):48-49.

[8] 韩潇,彭力.基于改进拉普拉斯金字塔的图像融合方法[J].自动化与仪器仪表,2014,5:191-194.

HAN Xiao, PENG Li. A New Image Fusion Algorithm Based on Laplacian Transform pyramid[J]. Automation and Instrumentation,2014,5:191-194.

[9] Zhao G, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2007,29(6):915-928.

[10] Moore S, Bowden R. Local Binary Patterns for Multi-view Facial Expression Recognition[J]. Computer Vision and Image Understanding,2011,115(4):541-558.

[11] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2002,24(7):971-987.

中图分类号TP301

DOI:10.3969/j.issn.1672-9722.2016.01.010

作者简介:叶棪,女,硕士研究生,研究方向:图像处理与模式识别。陈蕾,博士,副教授,研究方向:图像处理与模式识别。

基金项目:苏州大学大学生创新创业项目(编号:2013XJ040)资助。

收稿日期:2015年7月8日,修回日期:2015年8月28日