基于ENM-Gabor差分权重的人脸表情特征提取方法
2020-03-13周华平张道义孙克雷秦黄利桂海霞
周华平 张道义 孙克雷 秦黄利 桂海霞
1(安徽理工大学计算机科学与工程学院 安徽 淮南 232001)2(安徽理工大学经济与管理学院 安徽 淮南 232001)
0 引 言
人脸表情是人与人之间交互的基础,是情感计算的一部分,是计算机视觉、人机交互、图像处理等领域的研究热点;大部分研究人员将人脸面部表情分为7种:生气,厌恶,害怕,高兴,悲伤,惊讶以及不包含任何情绪的中性表情。
目前表情识别研究的热点主要集中在表情特征提取方面。现如今,常用的表情特征提取方法有:基于局部二值模式(Local Binary Pattern,LBP)[1]的特征提取,它能够有效地提取图像的局部纹理特征,但容易受到噪声的影响;线性判别分析(Linear Discriminant Analysis,LDA)[2]对于特征的提取有着较快的速度,但其过于依赖灰度图像之间的相关性;基于主元分析(Principal Component analysis,PCA)[3]可以有效降低表情特征的维度;基于Gabor小波[4-5]可以在多方向和多尺度上提取有效表情特征,其因有着较强的鲁棒性和对噪声有着一定的容忍能力,一直是表情特征提取的研究热点。
LBP能够较强地描述图像的局部纹理特征,而Gabor在多方向尺度上可以有效减弱噪声的干扰,因此融合Gabor和LBP特征既可以描述图像局部纹理又可以减弱噪声带来的干扰。牛连强等[6]将人脸区域按照表情特征重要程度分块,将各个部分的Gabor多方向尺度特征进行融合并结合LBP,有效降低了特征维数并加强了全局特征表示,大大提高了表情识别率,证明了Gabor特征提取的优越性,但其算法复杂度较高时间损耗较大;王燕等[7]针对LBP鲁棒性差,把Gabor同CS-LBP结合,在JAFFE数据集上得到了较好的识别率。
以上的研究工作都是基于将表情分为7种来考虑,其中包括了中性表情。近些年,有些研究者[8-11]将面部表情分为6种,中性表情不作为表情的一种,且将其余表情与中性表情做差分纹理得到的差分图像特征代替原表情特征作识别。
李树娟[8]深度分析了差值LBP和LBP差值对表情分类识别的影响;夏海英等[9-10]运用主动形状模型将人脸映射到参考模型中再求差分纹理,有效解决了人脸有效区域对应不齐的问题,一定程度上提高了表情识别率,但没有考虑不同区域重要程度问题;Sharma等[11]利用现有表情反合成虚拟中性表情,有效解决了差分纹理过分依赖表情库的问题,但合成后的虚拟中性表情较原图像有着较大误差,且识别率不是太高。
Gabor小波可以多方向、多尺度地提取图像特定区域的频率特征,能够对眼睛、鼻子和嘴以及其他局部特征的灰度进行放大。但是,由于多方向、多尺度的变化使得提取出的人脸图像维数较高,而导致算法的性能受到影响。表情的差值图像可以较直观地描绘出人脸对应区域灰度的变化情况,利用差分纹理作为表情的分类特征可以有效减少个体之间带来的差异,但差分纹理特征会一定程度上丢失原图像的细节信息。基于以上考虑,本文提出一种结合Gabor特征和差分权重的表情特征提取方法:(1) 提取人脸的眼睛、鼻子和嘴巴三个表情有效区域,而不是全部人脸,从而降低了Gabor特征维数;(2) 对提取的ENM区域分别进行Gabor特征提取,得到三个区域的特征向量;(3) 利用表情图像和中性图像计算出ENM差分权重;(4) 将三个区域的Gabor特征结合ENM差分权重,得出ENM-Gabor特征;(5) 利用BP神经网络进行分类。实验结果表明,本文方法较其他方法在表情识别率上有着明显的提高。
1 人脸区域划分及特征提取
1.1 ROI获取
为解决在表情特征提取时,提取特征维数高而导致算法复杂度过高、分类识别效率低的问题[6],本文提取面部局部有效区域特征,有效降低特征维数。ROI(Region of Interest)感兴趣区域[12],在图像处理、机器视觉领域通常指的是以各种表现形式(如圆、方框、椭圆等)圈出图像中需要处理的区域。据心理学家研究分析,通常最能够体现出表情特征的ROI为三个部分,分别是眼睛E(Eye)、鼻子N(Nose)、嘴巴M(Mouth),在本文中表示为ENM区域。诸如背景、头发等其实并没有对表情的特征提取提供太多的信息,因此不予考虑。
在ROI获取之前,先对表情图像进行预处理。去除背景头发等无关特征干扰,将图像统一裁剪为140×100的人脸图片,裁剪效果如图1所示。
(a) 原图像 (b) 人脸剪切图1 人脸裁剪
人脸裁剪完后,对裁剪后的人脸图像进行ROI提取。人脸表情库并不是太大的情况下,采用人工选取将会更加精确。图2展示了ENM区域选取过程。在程序运行弹出的图像窗口,进行四点标注以确定ENM大致区域,标注完后将用虚线框圈出并裁剪保存下来,直到ENM所有区域均获取完毕。
图2 ROI获取
因手动标注区域,每次标注的同样区域的大小有所区别,所以当所有ENM区域获取完毕之后,再对三个区域进行尺寸的归一化和灰度均衡化。如图3所示,在本文中眼睛区域尺寸归一化为30×100大小,鼻子区域归一化为30×45,嘴巴区域归一化为30×50大小。
1.2 Gabor特征提取
二维Gabor滤波器是一组平面波,它具有高斯包络。其对于表情图像的特征提取有着极强的优势,对于局部特征的提取更加精确,且对于亮度和人脸姿态有一定的容忍能力。
Gabor小波核函数具有与人类大脑皮层简单细胞的二维反射区相同的特性[6],二维Gabor滤波器可以用以下核函数表示:
(1)
式中:参数u、v分别表示滤波器的方向和尺度;z=(x,y)表示图像中像素的位置;σ代表滤波器的带宽,本文实验取2π;i为复数单位。在Gabor的特征表示中,经常取8个方向、5个尺度即v=(0,1,2,3,4)、u=(0,1,2,3,4,5,6,7)共40个Gabor滤波器。
一幅图像的Gabor特征由上述核函数和图像卷积得到,其卷积定义为:
G(x,y,v,u)=f(x,y)×ψ(z)
(2)
式中:f(x,y)表示图像的灰度分布。
图像f(x,y)经过卷积运算后,在每一个像素点将会得到40个复数值,代表图像中每个像素点的40个幅值,也就是说,每一个像素的特征将由该像素的40个幅值表示。反复计算每个像素点的幅值,即得到图像f(x,y)全部的Gabor特征表示。
2 ENM自适应加权
针对人脸面部不同区域对各表情的贡献值不同,分配不同的权重可以有效挖掘各区域之间的潜在联系,提高表情识别率[13-16]。文献[13]利用灰度级数的计数值的比例表示权重,有效地体现局部纹理特征对表情识别的影响,但对噪声比较敏感;文献[15]通过迭代自调整权重,区分了遮挡人脸与有效人脸的贡献程度,在遮挡人脸表情识别中取得了较好的识别率;文献[16]通过特征信息熵来自适应计算权值,解决了因固定分配权重造成的误差。
综合以上考虑,人脸表情对人脸各区域的影响因子不同,对人脸各区域分配权重将有利于提高表情分类的识别率。本文利用富含表情的图像与中性图像之间的差值,提出一种权重计算方式即差分权重。
2.1 表情差值图像计算方法
在表情识别领域,常常将中性表情作为一种类别进行分类。事实上,中性表情作为一种不含情绪的人脸状态,在表情分类时可以为其他表情提供偏差值参考。有研究者[8-9]指出一幅富含情绪的表情图像与中性人脸图像之间的差异可以体现出表情的偏差特征。
将表情图像与中性图像作差值得到差值图像记为Subing(i,j),其公式如下:
(3)
式中:f1(i,j)表示表情图像在(i,j)处的像素值,f2(i,j)表示中性图像在对应位置(i,j)的像素值;每幅人脸图像的大小为M×N(宽度×高度);abs()为绝对值函数。
两幅图像的差值也即是两幅图像对应位置像素的差值,将两幅图像对应位置的像素做差即可得到差值图像在该点的像素值,使用同样的方法遍历两幅图像所有的像素值来求取差值像素,直至最终得出两幅图像的差值图像。图4展示了“高兴”表情图像与中性图像得到的差值图像。可以看出,两幅图像的差值图像很好地保留了原有表情图像的变化特征。
(a) 表情图像 (b) 中性图像 (c) 差值图像图4 表情差值图像
2.2 ENM差分权重计算方法
考虑到表情识别中人脸不同区域所体现的重要程度不同,本文将对提取人脸的眼部、鼻部、嘴部三个区域自适应加以权重。表情图像相比于中性图像突出的表情特征,本质上是特定区域或者像素的像素值的变化。所以本文将表情图像与中性图像作差值,以期得到人脸对应区域像素值的变化幅度。考虑到因光照不均等噪音可能对表情图像或中性图像造成一定的影响,导致差值后的像素变化幅度产生一定误差,所以在图像作差时设定阈值T,将像素差值大于T的像素保留,否则舍弃。ENM差分权重分配算法思路如下:
1) 得到差值图像在点(i,j)的像素值为Subimg(i,j),以下表示为差值像素。
2) ENM区域变化的像素值计数。设定count值,用以记录表情图像相对于中性图像对应位置像素变化的数量;遍历表情子区域的所有像素值,当差值像素大于阈值T时,将该像素保留并对其计数,即当Subimg(i,j)>T,count加1;分别对眼睛、鼻子、嘴巴三块区域所有像素进行遍历,统计并记录对应区域像素值的变化数量,分别记为Ecount、Ncount、Mcount。
3) ENM各区域权重计算。将眼睛、鼻子、嘴巴区域的权重分别设定为Eweight、Nweight、Mweight,设定Allweight为所有权重之和,其公式如下:
Allweight=Ecount+Ncount+Mcount
(4)
(5)
(6)
(7)
4) 人脸表情的ENM-Gabor特征表示。本文分别对人脸表情图像的ENM三块区域进行Gabor滤波,得到各区域Gabor特征分别记为GE、GN、GM,记一幅图像的ENM-Gabor特征为ENM_Gabor,则其定义为:
(8)
2.3 关于阈值T的分析
差值图像由表情图像和中性图像作差值得到,会因其中一幅图像的像素变化而受到影响,所以本文在两幅图像作差值时,考虑设定一个阈值T用以平衡因图像噪音造成的误差。两幅图像作差值即对应位置像素作差值。对差值像素(两幅图像对应像素的差值)绝对值大于T做记录并将其像素值设为0(黑),对差值像素绝对值小于T不做记录并将其像素值设为255(白)。在本文中,记录下来的像素变化数量即是权重的体现。
T值是表情特征变化误差的体现,T值过小可能会导致部分误差保留无法消除,T值过大也会导致表情的部分特征丢失影响识别精率。如图5所示,当T=0时,已基本看不出脸的轮廓,这对权重的计算产生一定的影响;而当T=100,如鼻子、眼睛部分特征已明显丢失。本文将在实验部分对比不同T值下的识别率,选取最佳阈值。
(a) 高兴表情 (b) 中性表情
(c) T=0(d) T=10(e) T=25 (f) T=40 (g) T=100图5 不同阈值T下的差值图片
2.4 改进后的算法流程
本文实验采用JAFFE数据集,分类器使用BP神经网络分类器。改进后算法流程如下:
1) 从数据集中剪切有效人脸区域,去除背景头发等干扰;
2) 从剪切后的人脸中提取ENM有效表情区域;
3) 创建样本信息矩阵:存放人脸的ENM和全脸数据(包括人名、表情、表情序号以及眼睛、鼻子、嘴巴等数据);
4) 获取人脸ENM区域Gabor特征,再利用2.2节计算方式求得人脸ENM-Gabor特征;
5) 使用BP神经网络对ENM-Gabor特征数据集进行训练;
6) 表情分类测试:除中性表情外,数据集中所有个体的2/3的各类表情作为训练集,1/3的各类表情作为测试集;
7) 进行多组实验,得出除中性表情外的6种表情最终分类识别率。
3 实验与分析
本文特征提取方法的数据集为JAFFE人脸表情库。该库总共包含10名女性,每名女性包含7种表情(生气、厌恶、害怕、高兴、悲伤、惊讶和中性),每种表情2~4幅图片,共计213幅图片。其中包含每人三幅中性图片,实验中抽取每人一幅中性图片作参考,与个体其他表情图片作差值计算权重。本文实验以每个人6种表情的一幅表情图片共60幅图片作为测试,123幅图片用作训练,并且选用BP神经网络作为分类器。
3.1 基于不同阈值下的识别率分析
表情图像与中性图像作差值时,不可避免地会因光照、对齐等因素的影响导致最终差值特征产生较大误差。因此,本文设定一个阈值T,它的意义在于允许两幅图像之间特征在T的范围内存在误差,那么差值像素减去T即是表情特征的像素表示,即该差值可参与该区域的权重计算。因T是人为设定,考虑不同T值对实验结果产生的影响,本文实验采取逐步设定T值大小。
表1给出了不同阈值T下,6种表情差值图像的区别。为方便观察和计算,本文实验图像的获取满足:当差值像素大于T时,像素记为0(黑),否则记为255(白)。从图中可以看出,随着T值增加,表情的轮廓逐渐清晰,表明T值的增加会消除一定的噪声影响;但当T值过大(T=100)时,悲伤和惊讶的嘴部、鼻部区域特征有明显丢失,因为T值太大在做差值时会对特征像素造成一定的丢失。
表1 不同T值下六种表情差值图像
表2中给出了不同T值下各种表情的分类识别率。可以看出,T值对实验结果虽然产生了影响,但识别率的差异并不是太大。当T值过小时(如T=0),虽然一些误差像素点可能掩盖了表情特征,但经过前期光照归一化的处理,T设定为某一值时,其作用在人脸图像全部区域,所以使最终权重的分配并没有产生太大差异;当T值为10时,悲伤的识别率只有88.6%,T为40时,害怕的识别率为86.5%,所以针对不同表情不当的T值也可能会造成分类的错误,从而影响识别率。
表2 不同T值下的六种表情识别率 %
图6给出了不同T值下表情识别率变化曲线。可以看出在T<60时,识别率趋于稳定;但当T>60时,过高的T使得表情大部分特征丢失,表情的识别率呈现降低趋势;当T过大时,权重分配基本失效,不利于表情的分类识别。
图6 不同T值下的识别率变化
从表2和图6中可以看出,当T值等于25时识别率达到最高。此时再分别抽取JAFFE表情库中每人三幅中性图片作为参考图片,重复实验6次最终得到平均识别率为99.1%。表3给出了T=25时,重复6次的实验结果。
表3 T=25时多组实验识别率 %
3.2 基于不同算法的识别率对比
表4给出了在同一JAFFE数据集上,不同算法之间的平均识别率对比。可以看出,相比于其他算法,基于Gabor的特征提取方法取得更高的识别率。其中基于Gabor的BP特征提取方法取得了97.7%的较高识别率,本文在此方法的基础上加入差分权重使得识别率提高了1.6个百分点,证明了本文基于ENM-Gabor差分权重特征提取方法的有效性。各算法在6种表情上的识别率如图7所示。在生气、厌恶、害怕以及高兴五种表情上,本文算法都取得了较为不错的识别率。相比于基于Gabor的BP算法,本文对各区域加以权重,在生气和厌恶两种表情识别上取得了明显的提高,验证了差分权重的有效性。
表4 不同算法平均识别率对比
图7 不同算法在6种表情上的识别率对比
4 结 语
本文提出了一种基于Gabor小波和人脸ENM区域差分权重的面部表情特征提取方法。该方法利用Gabor小波提取人脸的眼睛、鼻子和嘴巴三块区域的表情特征,并利用表情图像与中性图像所得到的差分图像来计算各区域的权重,较好地解决了子块权重分配问题,在JAFFE数据集上实验取得了较好的识别率。但本文方法较依赖于数据集中的中性表情,因此,怎样使本文方法摆脱中性表情的依赖以用于实时识别以及自动调整阈值T,将是下一步研究的重点和方向。