基于空间多尺度HOG 特征的人脸表情识别方法
2014-12-20童莹
童 莹
(南京工程学院 通信工程学院,江苏 南京211167)
0 引 言
人脸表情识别 (facial expression recognition,FER)由预处理、人脸检测与区域分割、表情特征提取和分类3部分组成,其中表情特征提取是研究的重点,表情特征描述是否合适将直接影响分类准确性。目前常用的表情特征提取方法有局部二值模式 (local binary pattern,LBP)、Gabor小波变换和尺度不变特征转换 (scale-invariant feature transform,SIFT)等。LBP 算子是一种有效的纹理描述子,Heikkil等[1]提出了CS-LBP算子,通过对图像中关于中心像素点对称的邻域像素的灰度值变化进行二值编码,获取特征向量;Zhang 等[2]提出了高阶局部模式描述子,采用二阶局部导数进行人脸识别。Gabor小波变换是一种公认的优秀频域变换算子,能够很好地模拟哺乳动物视觉皮层简单细胞的感受域,符合人眼视觉特点,可以多尺度多方向检测人脸表情变化,具有较好的识别效果。但由于Gabor小波核数量多,特征提取时间冗长,特征维数巨大,后期特征选择与降维处理将直接影响识别结果。Marios Kyperountas等[3]采用Gabor滤波器获取表情特征,针对多个一对一的二分类器选择有效Gabor特征进行分类,不熟悉人脸表情识别率有明显提高,但运算开销巨大,不适合实时应用。SIFT 算子是Lowe在2004年提出的,是一种基于空间多尺度的局部不变量描述子,对尺度缩放、图像旋转甚至仿射变换保持不变性,在场景匹配、目标识别等领域都有出色的表现[4-5]。虽然LBP、Gabor和SIFT 算子均可以描述人脸表情特征,但由于LBP编码受邻域灰度值变化影响较大,对噪声敏感;Gabor小波变换和SIFT 算法计算量大,特征维数太高,不具有实时性,因此这些特征提取算法仍有局限性。
针对这些不足,Dalal在SIFT 基础上提出了梯度方向直方图 (histograms of oriented gradients,HOG)算法,它是一种边缘形状描述子,近几年被广泛应用研究。O.Dénizd等[6]采用规则网格和不同尺度的HOG 特征进行人脸识别,在4个数据库上均取得理想实验效果;Rodrigo Minetto等[7]采用THOG 算子进行文本特征提取,采用SVM 分类器进行字符识别,在2种公共数据上的仿真结果表明,THOG 算子是一种有效的文本描述子。可以看出,HOG 算子通过计算梯度方向分布可以很好地描述图像的边缘信息,受灰度分布、光照变化和噪声影响较小。同时,相比传统特征算子 (如LBP、Gabor、SIFT 等),HOG 特征维数大大降低,具有实时性。因此,本文选择HOG 算子进行人脸表情特征提取有实际意义。但由于经典HOG 算子忽略了局部特征之间重要的空间排列信息,同样的梯度信息可能对应着完全不一样的边缘结构,因此存在着特征描述不够精细的问题。鉴于此,本文提出了空间多尺度HOG 模型,首先逐层将图像从粗到细分割成一系列不同尺度的子区域,然后采用改进HOG 算子分别计算各个子区域的梯度方向分布,用直方图表示,最后按顺序将各层各块的梯度方向直方图连接起来,获得整幅图像的 “空间多尺度”HOG 特征。在JAFFE 数据库上的大量实验结果表明,该方法是一种表达能力较强的形状描述子,在把握图像边缘信息的同时也引入了空间信息,相比LBP、Gabor、SIFT 等传统特征算子,无论在识别率还是运行时间上均具有显著优势。
1 HOG 算法基本理论及改进
1.1 HOG 算法基本理论[10]
HOG 算法的基本思想是通过计算目标的梯度方向分布来描述目标的形状,其具体实现步骤如下:
步骤1 遍历图像每个像素点,以其为中心取8×8像素邻域作为网格 (block)区域。
步骤2 将每个网格 (block)区域平均分成4 个大小相等的块单元 (cell),每个单元的大小是4×4个像素。
步骤3 利用一维微分模板 [-1,0,1]计算所有单元 (cell)中的每一个像素的梯度幅值和梯度方向,如式(1)、式 (2)所示,其中I(x,y)代表图像(x,y)坐标的像素值,m(x,y)为梯度幅值,θ(x,y)为梯度方向。图1 (a)描述了一个网格 (block)区域中4个单元 (cell)的所有像素点的梯度方向分布,箭头代表梯度方向
m(x,y)=
步骤4 将梯度方向θ(x,y)限定在[0,π]范围内,平均分成8个区间,用有符号的8个方向表示。根据图1 (a)中椭圆圈的高斯加权范围将单元 (cell)上所有相同梯度方向的像素点的梯度幅值按照权重累加,组成该单元的8维梯度方向直方图,如图1 (b)所示。
图1 HOG 特征提取过程
步骤5 计算得到单元 (cell)的8维梯度方向直方图后,将一个网格 (block)区域中4个单元 (cell)的梯度方向直方图连接起来,得到一个网格 (block)区域的4×8=32维的梯度方向直方图特征。连接所有网格 (block)区域的直方图特征,并采用L2-norm 归一化,得到最终HOG特征。一幅大小为128×128 的图像,可以分为16×16=256个无重叠网格 (block)区域,其HOG 特征向量长度为256×32=8192。
1.2 本文改进算法
考虑原始梯度算子的单一性,本文采用canny模板计算梯度幅值和梯度方向,如式 (3)~式 (6)所示
另一方面,由于使用不同尺寸大小和纵横比的cell和block取值参数会影响HOG 捕获目标特征的能力,本文选用32×32大小的矩形block区域进行HOG 特征计算,在一个block区域中仍然包含4 个cell单元。同时,为了增加HOG 特征描述表情变化的能力,本文将[0,π]区间平均分成10个等分,这样可以更加精细的描述人脸中额头、眼睛、嘴巴等部位的方向变化,有效区分不同人脸表情。最后,研究表明高斯加权窗口仅对特征的性能有1%的提高,为了简化计算,提高运行速度,本文不考虑高斯加权,每一个梯度方向的取值即为各像素点的梯度幅值的累加。
从图2可以看出,采用canny算子计算的梯度幅值图像相比传统梯度算子的幅值图像边缘更清晰,细节更丰富,因此实验效果更理想。并且本文对block、cell和bin的参数设置进行改进,一方面可以提高HOG 捕获目标特征的能力,另一方面也可以大大降低特征向量长度。对于一幅128×128大小的图像,采用改进参数,得到HOG 特征向量长度为4×4 (block)×4 (cell)×10 (bin)=640,相比传统HOG 特征向量,其长度下降了近93%,因此可以大大分类时间,具有实时性。
图2 不同算子梯度幅值图像
2 空间多尺度HOG 模型
HOG 算子是一种有效的形状描述子,但它有一个重要的不足,即丢弃了局部特征之间的空间排列信息。研究发现,这种局部特征之间空间位置关系对提高图像表示性能是非常重要的,因此本文提出了空间多尺度HOG 模型,它是一种能同时对物体的形状以及空间布局进行良好描述的算子。具体步骤如下:
(2)采用上述改进HOG 算子,分别逐层计算每个网格(block)子区域的梯度方向直方图。梯度方向的取值范围仍限定在[0,π]内,量化区间数k个。
图3 空间多尺度HOG 特征提取过程
3 实验结果与分析
本文采用KNN 最近邻分类器对JAFFE数据库进行实验仿真。JAFFE数据库由10位日本女性在愤怒、厌恶、恐惧、高兴、悲伤、惊讶6种情况下自发产生的表情图像组成。部分人脸表情图像如图4所示,每人每种表情约3幅,共180幅,图像尺寸大小128×128。此数据库完全开放,且表情标定标准,现为大多数研究者仿真使用。本文采用文献 [3]中 “leave-one-sample-out”和 “leave-one-subject-out”这2种样本选择方式进行仿真实验。“leave-one-sample-out”是一种熟悉人脸样本选择方式,选取1幅图像作为测试样本,剩余179幅图像作为训练样本,交叉验证180次。采用这种样本选择方式可以最大程度选择所有数据作为测试样本,以确保每幅图像的表情特征都被考虑到,实验结果更具有真实性。“leave-one-subject-out”是一种不熟悉人脸样本选择方式,选取同一个人的所有表情作为测试样本,剩余人的所有表情图像作为训练样本,交叉验证10次。这种样本选择方式可以用来评价分析人脸识别时不同表情变化对识别系统的影响。下面本文将从多个方面分析空间多尺度HOG算法的优越性。
图4 JAFFE数据库人脸表情图像
3.1 改进HOG 算子与传统HOG 算子[10]的性能比较
根据本文1.1和1.2描述,采用改进HOG 算子和传统HOG 算子在JAFFE 数据库上进行实验仿真,样本选择采用文献 [3]中 “leave-one-sample-out”(缩写为 “L-O-Sap-O”)和 “leave-one-subject-out” (缩写为 “L-O-Sub-O”)2种方式进行,实验结果见表1。可以看出,相比传统HOG算子,改进HOG 算子采用canny模板计算梯度幅值和方向,且增大cell区域范围和bin值,可以有效描述人脸表情变化,在2种样本选择方式下分类效果均优于传统HOG 算子,且分类时间大大降低,具有实时性。
表1 改进HOG 算子和传统HOG 算子的性能比较
3.2 不同金字塔层数和梯度方向量化区间的影响
实验研究了不同金字塔层数L和梯度方向量化区间bin值对空间多尺度HOG 特征的分类准确率的影响。仍采用“L-O-Sap-O”和 “L-O-Sub-O”这2 种 样 本 选 择 方 式 在JAFFE 数据库上进行仿真实验,实验结果如图5、图6所示。
空间多尺度模型考虑了局部特征之间的空间位置关系,相比基本特征算子具有优越性。但是随着分级层数的增加,这种加入位置信息的策略对目标在图像中的位置、姿态越来越敏感,当分层到一定深度,该策略相对于基本算子优势就消失了。从图5可以看出,当金字塔层数增加至4时,无论 是 “leave-one-sample-out”样 本 选 择 方 式 和 “leaveone-subject-out”样本选择方式,均达到识别率最优,若继续增加层数,则会增加背景块的概率,造成信息冗余,降低识别率。
图5 不同分层下空间多尺度HOG算子的分类效果比较
图6 不同梯度方向量化区间下空间多尺度HOG 算子的分类效果比较
同时,空间多尺度模型不再对局部区域进行block 和cell划分,而是直接计算各层各个子区域的梯度方向,并统计分布。从图6可以看出,将[0,π]角度范围平均划分为10个区域和20区域时效果最佳,这是因为梯度方向量化区间的取值数目过多或过少都会对识别率造成影响,量化区间数目过少无法准确描述目标的形状变化,量化区间数目过多则会造成信息冗余。考虑特征维数增加会造成分类时间加长,对算法实时性有影响,因此本文选用参数bin=10进行角度区间划分。由此可见,本文提出的空间多尺度HOG 模型的最佳参数设置为层数L=4,梯度方向量化区间数bin=10,且梯度模板为canny算子。
3.3 空间多尺度HOG 算子与传统特征描述子的性能比较
比较空间多尺度HOG 算子与LBP 算子、Gabor特征算子[11]以及金字塔梯度方向直方图算子 (pyramid histogram of oriented gradients,PHOG)[12]的分类效果。这里空间多尺度HOG 算子采用3.2中的最佳参数设置,Gabor特征采用文献 [11]中的方式进行特征降维,PHOG 算子参考文献 [12]的方法实现。仍采用文献 [3]提出的2种样本选择方式对JAFFE数据库进行实验仿真,4种算子的分类结果见表2。
表2 LBP算子、Gabor特征算子、SIFT 算子、PHOG 算子与本文算子的识别率比较/%
结合表1分析可得,本文算子和HOG 算子与传统特征算子 (LBP、Gabor)相比,无论是对熟悉人脸样本还是不熟悉人脸样本分类,识别率均有明显提高,这说明边缘形状描述子更能准确表征人脸表情变化。另一方面,本文算子又考虑了局部特征之间的空间位置信息,因此相比表1中改进HOG 算子分类效果,识别率也有提高,尤其是对不熟悉人脸样本的分类,识别率提高近5%。由于改进HOG算子的细胞单元大小是16×16,而本文算子的最小尺度子区域 (即最后一层子区域)大小也是16×16,提取细节特征的处理单元一致,分类结果具有可比性。因此空间多尺度HOG 算子是一种能同时对物体的形状以及空间布局进行良好描述的算子,对不同人脸的不同表情变化具有较好的识别能力。再与PHOG 算子比较,虽然PHOG 算子也引入了空间信息,但仅考虑了图像边缘的梯度方向分布,表情信息不充分,因此分类效果不理想。
为了说明空间多尺度HOG 算子具有实时性,本文从特征提取时间与分类时间2个方面与传统特征算子 (LBP、Gabor)进行比较,仿真结果见表3。
表3 本文算子与传统特征算子的运行时间比较
表3中LBP算子采用LBP (8,1)模板对图中8×8=64个子区域分别进行局部二值模式计算,得到256×64=16384大小的特征向量;Gabor特征采用文献 [11]中的降维方法得到132维大小的特征向量。而本文提出的空间多尺度HOG 算子则将梯度方向取值范围限定在[0,π]内,最佳参数bin=10和L=4,特征向量长度大小为850。由于KNN 最近邻分类器的运行时间与特征向量大小呈线性关系,因此由表3 可以看出,本文算子分类时间高于Gabor算子,但若考虑特征向量的提取和降维时间,Gabor算子耗时巨大,本文算子的平均运行时间最短,实时性最佳。
4 结束语
人脸表情识别是一个跨学科富挑战性的前沿课题,其中表情特征提取是否准确,将直接影响分类效果。本文针对这一关键步骤进行改进,将空间多尺度概念应用到HOG算子中,提出空间多尺度HOG 模型,指出局部特征之间的空间排列信息在模式分类中具有重要性。本文采用熟悉人脸和不熟悉人脸2种样本选择方式,在JAFFE 数据库上进行仿真实验,实验结果表明,本文算子的识别性能远高于LBP、Gabor和PHOG 等算子,最大限度地提取人脸表情的有效特征,尤其对陌生人脸表情具有较好的分类效果。并且平均时间也低于传统特征算子,具有实时性。
[1]HeikkilM,Pietikinen M,Schmid C.Description of interest regions with local binary patterns [J].Pattern Recognition,2009,42 (3):425-436.
[2]Zhang Baochang,Gao Yongsheng,Zhao Sanqing,et al.Local derivative pattern versus local binary pattern:Face recognition with high-order local pattern descriptor [J].IEEE Transactions on Image Processing,2010,19 (2):533-544.
[3]Marios Kyperountas,Anastasios Tefas,Ioannis Pitas.Salient feature and reliable classifier selection for facial expression classification [J].Pattern Recognition,2010,43 (3):972-986.
[4]ZHENG Yongbin,HUANG Xinsheng,FENG Songjiang.An image matching algorithm based on combination of SIFT and the rotation invariant LBP [J].Journal of Computer 2 Aided Design &Computer Graphics,2010,22 (2):286-292 (in Chinese).[郑永斌,黄新生,丰松江.SIFT 和旋转不变LBP 相结合的图像匹配算法 [J].计算机辅助设计与图形学学报,2010,22 (2):286-292.]
[5]Pan Xunyu,Siwei Lyu.Detecting image region duplication using SIFT features [C]//IEEE International Conference on Acoustics Speech and Signal Processing,2010:1706-1709.
[6]Déniz O,Bueno G,Salido J,et al.Face recognition using histograms of oriented gradients [J].Pattern Recognition Letters,2011,32 (12):1598-1603.
[7]Rodrigo Minetto,Nicolas Thome, Matthieu Cord,et al.THOG:An effective gradient-based descriptor for single line text regions [J].Pattern Recognition,2013,46 (3):1078-1090.
[8]Bosch A,Zisserman A,Munoz X.Representing shape with a spatial pyramid kernel [C]//International Conference on Image and Video Retrieval,2007:401-408.
[9]Kobayashi T.BFO meets HOG:Feature extraction based on histograms of oriented p.d.f.gradients for image classification[C]//CVPR,2013:747-754.
[10]XIANG Zheng,TAN Hengliang,MA Zhengming.Performance comparison of improved HOG,Gabor and LBP [J].Journal of Computer-Aided Design & Computer Graphics,2012,24 (6):787-792 (in Chinese). [向征,谭恒良,马争鸣.改进的HOG 和Gabor,LBP 性能比较 [J].计算机辅助设计与图形学学报,2012,24 (6):787-792.]
[11]Ruan Jinxin.Study on key technology for multi-pose face dection and facial expression recognition [D].Guangzhou:South China University of Technology,2010:64-83 (in Chinese).[阮锦新.多姿态人脸检测与表情识别关键技术研究[D].广州:华南理工大学,2010:64-83]
[12]ZHOU Xia,QIN Lei,WANG Xian,et al.The face recognition algorithm based on improved PHOG and KPCA [J].Opto-Electronic Engineering,2012,39 (12):143-150(in Chinese).[周霞,秦磊,王宪,等.融合改进PHOG 与KPCA 的人脸识别算法[J].光电工程,2012,39 (12):143-150.]