基于人脸T型区域Gabor小波变换的表情识别方法
2019-04-13段晓珊王坤侠
段晓珊,王坤侠
(安徽建筑大学 电子与信息工程学院,安徽 合肥230601)
0 引言
面部表情是人类情绪一种直观的外在表达方式,是人与人之间非语言交流的有效手段。心理学家Mehrabian[1]在对人们交流过程中的信息传达进行了一系列的研究中得出一个公式:“信息的总效果=7%言词+38%语调+55%面部表情。”由此可见,面部表情在信息传达中占有很重要的比重。人脸表情情感识别的研究可以使计算机更智能、更高效的为人们服务。
作为一种良好的人机情感互动方式,表情识别的研究在近些年受到了众多学者的重视。根据人类情感的不同,Ekman等[2]定义了六种基本情感:愤怒、恐惧、厌恶、快乐、悲伤、惊讶。并且提出了面部运动编码系统(FACS),根据脸部特征部位的运动来更好的描述表情动作。表情识别系统一般包括人脸检测与定位、表情图像预处理、表情图像特征提取和情感识别分类四个步骤。表情特征的好坏直接影响到识别性能的好坏,因此提取到鲁棒性强的特征在表情识别中起到很重要的作用。人脸表情特征主要有几何特征、统计特征、频率特征等特征。不同的特征在识别中各有各的优缺点。提取表情特征的方法主要有几何特征提取方法[3,4]、外貌特征提取方法[5]、特征点跟踪法[6]、弹性图匹配法[7,8]等。
Gabor滤波器的频率和方向与人类的视觉系统类似,适合用于纹理表示与判别。因此,Gabor小波变化在人脸表情识别的研究受到广泛研究者的关注。龚安等[9]使用Gabor变换进行人脸表情图像的特征提取,并利用局部线性嵌入(LLE)系列算法进行数据降维。公维军等[10]提出了一种改进的基于基于Gabor的局部敏感人脸识别算法,该方法先用Gabor小波提取局部敏感人脸特征,再用改进的边界Fisher分析(MFA)算法进行分析。
一些研究者将提取图像的Gabor特征和其他特征融合之后进行情感识别。陈鹏展等[11]融合Gabor、LBP、LPQ三种特征,并利用基于ELM神经网络面部表情分类器来进行分类。江渊广等[12]融合了Gabor特征和几何特征,对提取的特征块分别进行Procrustes Analysis,提出了一种基于特征块权重化的Bp神经网络算法来进行分类。
Gabor特征具有很好的识别性能,但其冗余度和特征维数较高。为了克服这些缺点,本文提出一种基于人脸T型区域Gabor小波变换的表情识别方法。该方法先提取检测表情图像的人脸区域并进行分割,对该区域进行尺寸归一化和直方均衡化预处理之后,利用构造好的Gabor滤波器对图像进行不同尺度和方向的卷积。之后提取人脸T型区域的Gabor特征构造成特征向量,通过PCA方法对特征向量进行降维。实验中通过改变Gabor的不同参数、降维的维数、划分测试集训练集的方式和比例,在SVM不同核函数下进行分类,来分析不同参数的识别效果。
1 基于Gabor小波的特征提取
根据人脸表情识别系统的步骤,本文分为表情图像预处理、Gabor小波特征提取和情感分类三个步骤。本实验的流程图如图1。
图1 系统流程图
1.1 图像预处理
由于图像采集设备的不同和采集环境的不同,原始的表情图像往往存在着噪声、光照明暗不均、对比度不够的问题。为了保证人脸图像中人脸大小,眼睛位置以及人脸图像质量的一致性,在表情识别过程中,首要环节就是对输入的原始表情图像进行预处理。
原始的JAFFE表情图像库存在背景、头发等干扰因素,在实验中先进行人脸检测,只提取人脸部分进行识别,可以很好的去除干扰。实验中先用OpenCv下的Haar级联分类器进行人脸检测,对原始表情图像截取到人脸部分之后,由于得到的人脸部分图片尺寸不一,需要将图片尺寸归一化为100*100尺寸。为了保证表情图像消除光线和光照强度的影响,再对表情图像进行灰度化和直方图均衡化处理,预处理之后的图像如图2:
图2 预处理后的表情图像
1.2 Gabor特征提取
Gabor小波变换[13]具有时域信号和频域信号的局部化的优点,能够很好地提取目标图像的不同空间位置、频率和方向上的特征,并且能够克服光照、尺度、角度等全局干扰对识别效果的影响[14]。因此在人脸识别领域获得了广泛的应用。
Gabor变换是一种采用高斯函数作为窗函数时的短时傅里叶变换,二维Gabor小波定义如下:
其中μ,ν分别表示Gabor滤波器的方向和尺度,‖‖.表示范数,z(x,y)表示图片的某一点像素的坐标,σ表示高斯包络,kμ,ν决定控制高斯窗的宽度、震荡部分波长及方向。定义kμ,ν为:
其中,kν为滤波器采样频率,kmax为最大频率,fυ表示限制频域中核函距离的间隔因子。实验中经常采用5个频率和8个方向组成的40个滤波器,采用 σ=2π,μ=0,1,2,3,4。υ=0,1,2,3,4,5,6,7。滤波器核函数的图像如下图3。
图3 Gabo核函数图
对经过预处理之后的图像,用构造好的Gabor小波核函数与其进行卷积。用I(z)表示经过预处理之后的图像,ψ(z)表示 Gabor核幅值特性,Iμ,ν(z)表示Gabor核函数和图像进行卷积后的结果。图像的卷积输出为复数形式,该复数的量值为提取的Gabor特征值。得到的40个卷积后的图像如图4。
图4 与Gabor卷积后的图
1.3 T型区域的提取
由于人脸信息大部分存于眼睛、鼻子、嘴巴等区域,且Gabor小波变换存在着冗余度大的问题。如实验中预处理之后的图片尺寸为100*100,使用40个Gabor滤波器与图像进行卷积后得到的特征维度为400000(100*100*5*8)。本文提出的提取人脸T型区域进行识别的方法,区域包括眼睛,鼻子,嘴巴。T型区域主要包括两部分,第一部分选取滤波后图像的0-100行中间20-50列的像素,第二部分选取滤波后图像的20-75行中间50-95列的像素。T型区域共5475(100*30+55*45)个像素,为原图像一半的像素,进行卷积后得到219000维特征维度,因此采用T型分布的Gabor特征,不仅可以保留绝大部分重要的Gabor特征点,同时很好地降低Gabor矢量的特征维数。得到的T型区域如下图5。
图5 人脸T型图
1.4 PCA降维
经过Gabor变换后的特征向量维度高,实验采用PCA方法,即主成分分析法进行特征向量降维。PCA应用在人脸识别的基本思想就是从人脸图像中找出最能代表人脸的特征空间,去除一些不能代表人脸特征的属性。图片经过PCA降维投影到特征空间,使得数据在一个低维的空间里被处理,减少的冗余同时还可以保留原始数据的绝大部分信息。PCA方法步骤如下:
(1)按列计算数据矩阵的均值。
(2)计算步骤(1)的协方差矩阵。
(3)计算步骤(2)的特征值和特征向量。
(4)按从大到小顺序排列特征,选择前k个组成特征向量。
2 实验结果及分析
实验在日本JAFFE库上进行,该库由10名女性的7种表情构成,分别为生气、厌恶、害怕、高兴、中性、悲伤和惊讶。每种情感有3-4张图像,总共有213张图像。实验中随机选取170张图片作为训练集,43张图片作为测试集。选取支持向量机(SVM)作为分类方法,根据SVM的核函数可应用于不同的分类情况。实验中在不同核函数条件下分别计算了相对应的识别率。
实验结果经过整理如表1、表2。由表1可见,生气、厌恶、害怕和中性表情的识别率最高,其次为惊讶和悲伤,高兴的识别率最低,平均识别率可达88.37%。因为在多角度多方向的Gabor滤波器作用下,生气、厌恶、害怕和中性的特征容易提取,而高兴的表情特征相对于不容易提取,因此识别效率相对于较差。表2未经过T型提取的实验结果,表情识别率可达86%,对比可知,T型区域(眼睛、鼻子和嘴巴)进行人脸识别可有效提高识别性能和效率且T型区域具有明显的人脸表情特征。表3给出了主要分类指标的文本报告。根据每种情感的精度、召回率和F1值的结果综合评价,可以看出生气和中性的F1值达到了1,表明这两种情感的特征比较明显,精度和召回率都达到了最佳。
表1 人脸T型Gabor小波变换识别效果
表2 人脸原脸Gabor小波变换识别效果
2.1 Gabor滤波器参数的影响
Gabor滤波器可构造不同方向和不同角度的核函数,与图像进行卷积即可得到不同方向和角度的特征图像,实验中选择了Gabor核函数为5*8、4*8和3*8的三组滤波器分别进行,得到的结果如表4。可以看到,当选择了3*8的Gabor核函数可以达到90.7%的准确率,在时间效率上也有一定提高。
表3 人脸T型Gabor小波变换分类报告
2.2 PCA降维维度的影响
经过Gabor滤波器之后的特征向量特征维度较高,实验采用PCA进行降维,根据实验可知,不同的维度可产生不同的识别率。不同维度的识别率结果如表5.根据表5所示,进行PCA降维后,与未进行降维相比,可达到同样的准确率88.37%,但是大大缩短了识别时间。
2.3 划分数据集方式的影响
实验采用了随机划分和交叉验证的两种划分方式来探究对识别率的影响。train_test_split是将数据集随机划分为矩阵训练集和测试集。StratifiedKFold分层采样交叉切分,确保训练集,测试集中各类别样本的比例与原始数据集中相同。由表6可知,选取随机分配方式,测试集比例为0.1的时候可达最高准确率95.45%。
3 结论
人脸T型区域Gabor小波变换的表情识别方法很好的降低了Gabor滤波器提取的特征维度。与人脸全脸表情识别相比较,该方法具有更高的表情识别率以及更强的鲁棒性,并且在时间效率上也有很大的提升。实验结果证明,选择构造合适的Gabor滤波器组、PCA降维维度和图像测试集训练集划分方式和比例对识别结果都有一定的影响。
表4 不同Gabor参数的识别率效果
表5 不同维度的识别率效果
表6 划分方式不同的识别率效果