APP下载

基于Gabor小波变换和神经网络的人脸识别研究

2017-03-21许亚军李玮欣

中国电子科学研究院学报 2017年5期
关键词:小波人脸人脸识别

许亚军,李玮欣

(1. 太原理工大学信息工程学院,山西太原 030024;2. 天津大学精密仪器与光电子工程学院,天津 300072)

0 引 言

小波理论出现于20世纪80年代,尽管出现较晚,但小波理论越来越受到欢迎,其发展速度也很快[1-2]。学者们普遍认为小波变换是傅里叶变换的一个突破。此外,Gabor滤波对光照变化以及图像与人脸表情的对比度变化具有很强的鲁棒性,在人脸识别的过程中它表达的是对人脸识别最为有用的局部特征[3],因此Gabor小波已被广泛应用于人脸特征的提取。目前,学者们已经加深了对神经网络理论的研究。人工神经网络[4-5]是人类模拟人脑神经系统的信息处理过程而产生的一种智能系统,这种系统是基于人脑组织结构和活性机制的初步了解而产生的新型结构计算系统。因为它可以模拟人脑的神经系统并且赋予机器人脑的感知、学习和推理能力,它已被广泛应用到各种领域的模式识别中。

但是,如何将神经网络与非线性理论,如小波理论、模糊集和混沌理论相结合是一个新的研究方向[6-7]。神经网络拥有一系列的有利特征,包括容错、自适应、自学习、泛化能力和稳健性,而小波变换具有良好的时频局部化特性和变焦能力,所以Gabor小波变换可以被用来减少神经网络中的输入节点数量,并且一方面可以加快收敛速度,另一方面能够充分有效地表达人脸特征和改进神经网络识别能力。然而,如何将两者的优点结合起来并将其应用到人脸识别技术中,成为双方专家学者一直关注的一个问题。文献[8]提出了一种通过组合Gabor滤波器和卷积神经网络的人脸检测方法并获得了87.5%的检测率。Singh等[9]使用基于Gabor滤波的特征向量作为前馈神经网络(Feed Forward Neural Network, FFNN)的输入。文献[10]在Java环境下提出了类似的方法,主要用于目标定位和分类。

因此,本文的研究重点是基于Gabor小波变换的图像特征提取。结合BP神经网络的智能识别,本文提出了基于小波变换和神经网络模型的图像智能识别。采用人脸识别作为一种例子。首先,对照明变化和复杂纹理下的模型检测表现进行了分析。然后,在相关人脸数据库的基础上进行了测试。给出了该模型的识别准确率,从而为图像智能识别的进一步研究提供了一个新的视角。

1 Gabor小波理论与特征变换

为了引入Gabor小波并将其应用到图像特征提取,本文首先引入一维Gabor小波[11]的分析推论以便引入二维Gabor小波。其中,一维Gabor小波由三角函数乘以高斯函数构成。见式(1):

W(t,t0,ω)=e-σ(t-t0)2eiω(t-t0)

(1)

进行公式(1)和信号频率的整合,一维Gabor小波变换可以如下表示:

(2)

其中,频率为ω,时间为t0,公式左边代表信号x(t)的频率信息,将式(1)置入式(2)中,拓展出一个复合的公式:

C(x(t))(t0,ω)=

(3)

通过尺度变换和旋转变换,二维Gabor小波可以通过由一维Gabor函数拓展成二维Gabor函数来生成[12]。就任何尺度和任何方向而言,二维Gabor小波可以获得图像信息。通过一维Gabor小波函数,可以看出,二维Gabor小波函数是独特的,并且可以用来作为图像提取和分析的主要函数。换句话说,图像的完整描述可以根据时空域和频域得以实现。小波变换反映了一个比较直观的概念:当纹理都比较细致,样本域的采样范围相对较小,而相对的频域取样范围是比较大的。然而,当纹理是相对粗糙的,空间域的采样范围是比较大的,频域的采样范围则相对较小。因此,二维Gabor小波可以捕捉纹理,包括选择空间位置、Gabor方向、空间频率和正交相位关系。

这里,二维Gabor小波函数的核[13]如式(5)所定义:

(4)

图1 基于5个频率和8个方向的Gabor滤波模板

因此,当ku,v不同,可以得到一组不同的Gabor滤波器。基于5个频率(0.2,0.22,0.24,0.26 和0.28)和8个方向(0°,45°,90°,135°,180°,225°,270°和315°)的Gabor滤波器的实、虚部如图1所示。

小波变换被应用到图像处理时具有以下优点:1)小波分解可以覆盖整个频域;2)通过选择适当的滤波器,小波滤波可以在很大程度上减少甚至去除提取到的不同特征之间的相关性;3)小波变换具有“变焦”的特点,在低频部分采用宽分析窗口,并在高频部分采用狭窄分析窗口。

因此,图像特征提取过程中,Gabor图像特征提取是进行输入图像和如公式(7)所述Gabor小波的卷积。假定输入图像灰度是I(x,y),则I和Gabor核Gu,v之间的卷积,用公式(6)表示如下:

Ou,v(x,y)=I(x,y)*Gu,v(x,y)

(5)

其中,*代表卷积因子;Ou,v(x,y)代表相应于尺度u和方向v的卷积图像。

2 神经网络模型结构及其算法

2.1 BP神经网络结构

神经网络是一种高度非线性的系统。在不同的功能和研究方面,也有不同的神经网络模型。BP神经网络是一种前馈网络,神经网络模型采用这种前馈网络的误差反向传播实现模型的自学习[14]。它主要由输入层,输出层和隐藏层组成。层与层之间的神经细胞采用全互联方式,并通过相应的网络权重系数w建立连接。此外,每一层内的神经细胞之间没有任何联系。BP算法的基本思想是,学习过程是由两个过程,即信号向前传播和误差向后传播组成。 图2示出了神经网络模型的具体结构[15]:

图2 BP神经网络结构

这里,xj代表输入层第j节点的输入(j= 1, …,M);wij表示从隐藏层节点i到输入层节点j的权重值;θi代表隐藏层节点i的阈值;φ(x)代表隐藏层的激励函数;wki表示从输出层节点k到隐藏层节点i的权值(i=1, …,q);ak代表输出层节点k的阈值(k=1, …,L);ψ(x)代表输出层的激励函数;ok代表输出层节点k的输出。

2.2 BP神经网络模型算法步骤

当信号通过信号前馈进入神经网络中,输入样本通过输入层输入,并通过隐藏层处理被发送到输出层。如果输出层的实际输出未能与所期望的输出一致,将进入误差向后传播期。上述信号向前传播和误差向后传播的本质是一个网络迭代过程。在网络迭代过程中,权重值不断调整。直到网络的输出错误被减小到低于设定的误差值,或直至达到预先设定的迭代,该过程结束。因此可以看出,神经网络输入与输出之间关系是一种具有“多输入多输出”特点的高度线性系统[16],这适用于预测和识别处理系统。

根据输入节点和输出节点的权值,输入节点与隐藏节点之间、隐藏节点与输出节点之间的权值,各层节点之间的迭代关系如下:

(1)信号前向传播过程:

隐藏层节点i的输入neti:

(6)

隐藏层节点i的输出yi:

(7)

输出层节点k的输入netk:

(8)

输出层节点k的输出ok:

(9)

(2)误差反向传播过程

误差反向传播,首先计算输出层神经细胞的输出误差,并逐步反向计算各个层的输出误差。然后,根据误差梯度下降调整权重值和各层阈值,使最终的改进网络输出接近于预期值。每个采样P的二乘误差评价函数,如公式(11):

(10)

总而言之,神经网络的主要思想是调整阈值和权重值以使误差函数沿梯度方向下降,输出层通过处理在隐藏层中的输入信息获得实际输出。如果实际输出与样品输出不一致,该错误将被逐层反馈。每层的权重值根据算法规定的学习规则进行调整。通过重复迭代,收敛或动态平衡就可以实现。换句话说,根据实际输出和目标输出之间的总误差是否达到所需的最小值来判断步骤是否结束。

3 基于Gabor特征提取的BP神经网络人脸识别

基于Gabor特征提取的BP神经网络人脸识别步骤如下:

(1)对要识别的图像和标准模板图像进行卷积,并提高对图像光照变化的抵抗性。标准模板图像如图3所示。

(2)根据n个频率、m方向生成Gabor滤波器。这里取n=5并且m=8;

(3)上传人脸图像和非人脸图像作为训练样品,利用步骤1中生成的滤波器提取特征,所提取的特征数据作为神经网络模型的输入信息;

图3 标准模板图像

(4)建立BP神经网络模型,并参考下面的核网络参数;

(5)将提取的特征数据输入根据第3步已经建立的BP神经网络,并训练网络。对已训练的网络进行人脸检测并提取图像上的人脸区域;

BP神经网络模型结构如图4所示。对已经建立的BP神经网络赋予相关训练参数进行模型训练。网络训练和网络收敛过程相关的模型参数示于下表1中。网络训练过程中的动态误差变化如图5所示。

图4 BP神经网络模型结构示意图

网络训练参数网络收敛参数输入层节点数隐藏层节点数网络目标误差网络训练函数10011.0×e-3trainscg网络训练次数网络训练周期(s)网络收敛误差网络拟合优化164109.98×10-40.99999

图5 网络训练过程中的动态误差变化

4 仿真结果与分析

识别性能评价是人脸识别应用的一个重要方面。为了验证本文所提出的方法的有效性和稳定性,在包括ORL[17]和Extended Yale B[18]等人脸数据库上进行了实验,这些数据库图像包含不同的姿势、不同的表情和不同的光照条件。最后,将该方法与其他一些先进的方法进行了比较。

4.1 ORL数据库的实验与分析

目前,人脸识别系统的性能是由各种度量指标来评价的,其中的识别率是常用的一种。为了全面分析所提出的方法的识别准确率,我们利用ORL数据库进行了测试。这个数据库包含了40个不同的人,对每一个个体,在不同的时间拍摄不同的光照变化、不同的面部表情和不同的面部细节,因此每个人都有10种不同的人脸图像(92×112)。数据库的预览图像如图6所示。

图6 ORL数据库中人脸的预览图像

测试次数/次训练样本数/个测试样本数/个训练样本识别率测试样本识别率综合识别率11602400.9650.9220.939221602400.9750.9350.951031602400.9520.9220.934041602400.9610.9200.936451602400.9620.9250.9398

实验中,我们将所有测试图像经转换、裁剪和下采样为25×30。然后,我们从每个人的图像中随机选择部分图像作为训练集,其他部分作为测试集。当我们随机选择每个人的四幅图像并进行五组实验时,表2显示了识别准确率结果。结果表明,人脸识别的准确率达到0.93以上,识别准确率较高。

4.2 Extended Yale B人脸数据库的实验与分析

除了识别准确率之外,还有其他几个重要的关键指标可用于性能评估。比如,错误接受率(false accept rate,FAR),错误拒绝率(false reject rate,FRR),和接受者操作特征(receiver operating characteristics,ROC)。其中,ROC图被越来越多地用于机器学习或者数据处理等系统研究的性能可视化。在ROC图中,越往左上角的点具有更高的FFR和更低的FAR,因此ROC是智能分类的一种代表。

我们使用这三类度量指标,在Extended Yale B人脸数据库上进行了实验,并与现有方法的实验结果进行对比分析。该人脸数据集包含28个个体在9个姿势和64个照明条件下的共计16128个GIF格式的灰度图像。图7显示了Extended Yale B人脸数据库中人脸的预览图像。针对这个数据库,我们将图像裁剪、调整到32×32像素。

图7 Extended Yale B人脸数据库中人脸的预览图像

在这个实验中,我们从28组人脸图像的每组中随机选取2、4、8、16和32幅图像作为训练集,同时选择其余图像作为测试集。该方法与局部Gabor(Local Gabor,LG[19])和局部Gabor二值模式(Local Gabor Binary Pattern, LGBP[20])的识别率的比较结果,如表3所示,ROC图如图8所示。从表3可以看出,随着训练样本数的增加,所有方法的识别率都在增加。此外,当训练样本数为32时,该方法的识别率分别超过LG和LGBP的识别率各6.87%和3.91%。因此,在不同的姿势和不同光照条件下,该方法比LG、LGBP这两种人脸识别方法更优秀。

表3 不同训练样本数下三种方法的识别率

图8 ROC特征曲线图

5 结 语

本文首先分析了Gabor小波理论,及其对图像亮度和纹理变化的强抵抗力和变换特点;在此基础上,提出了基于Gabor小波变换的图像特征提取的概念;然后,建立了基于Gabor小波和神经网络的图像智能识别模型。通过人脸识别实验,分析了模型算法的有效性。实验结果显示,当结合Gabor小波变换和神经网络来进行人脸识别,人脸图像的复杂纹理和亮度改变不会影响实验结果。利用ORL和Extended Yale B等人脸数据库来测试模型算法的准确性,证明其准确率在0.93以上。

[1] 董玉龙. 基于提升小波与FLD的人脸表情识别算法研究[D]. 山东大学, 2013.

[2] 李沫, 郝伟博, 范哲意, 等. 一种改进的粒子滤波和Mean Shift联合跟踪算法[J]. 中国电子科学研究院学报, 2013, 8(6):599-604.

[3] 詹曙, 张启祥, 蒋建国,等. 基于Gabor特征核协作表达的三维人脸识别[J]. 光子学报, 2013, 42(12):1448-1453.

[4] 田间. 一种训练BP神经网络的融合算法[D]. 吉林大学, 2011.

[5] Govindaraju R S. Artificial Neural Networks in Hydrology. I: Preliminary Concepts [J]. Journal of Hydrologic Engineering, 2015, 5(2):115-123.

[6] 邵俊倩. 小波模糊神经网络在非线性函数逼近中的应用[J]. 计算机与数字工程, 2013, 41(1):4-6.

[7] Wu W J, Huang D G. Research on Fault Diagnosis for Rotating Machinery Vibration of Aero-Engine Based on Wavelet Transformation and Probabilistic Neural Network [J]. Advanced Materials Research, 2011, 295-297(6): 2272-2278.

[8] Kwolek B. Face Detection Using Convolutional Neural Networks And Gabor Filters[M]// Artificial Neural Networks: Biological Inspirations-ICANN 2005. Springer Berlin Heidelberg, 2005:551-556.

[9] Singh S, Agarwal R. Face Recognition using the Gabor Wavelet Transform and Feed Forward Neural Network[J]. RIET-IJSET: International Journal of Science, Engineering and Technology, 2014, 3(11):370-377.

[10] Andrzej B, Teresa N, Stefan P. FACE DETECTION AND RECOGNITION USING BACK PROPAGATION NEURAL NETWORK AND FOURIER GABOR FILTERS [J]. Signal & Image Processing, 2011, 2(3):705-708.

[11] Khalil M S. Erratum to: Reference point detection for camera-based fingerprint image based on wavelet transformation[J]. Biomedical Engineering Online, 2016, 15(1):30.

[12] Yifrach A, Novoselsky E, Solewicz Y A, et al. Improved nuisance attribute projection for face recognition[J]. Pattern Analysis & Applications, 2016, 19(1):69-78.

[13] Lades M, Vorbrüggen J C, Buhmann J, et al. Distortion Invariant Object Recognition in the Dynamic Link Architecture[J]. IEEE Transactions on Computers, 1993, 42(3):300-311.

[14] 高玉明, 张仁津. 基于遗传算法和BP神经网络的房价预测分析[J]. 计算机工程, 2014, 40(4):187-191.

[15] Lee K C, Ho J, Kriegman D J. Acquiring linear subspaces for face recognition under variable lighting[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2005, 27(5):684-698.

[16] Rowley H A, Baluja S, Kanade T. Neural Network-Based Face Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(1):23-38.

[17] Database of Faces. 2016. Available online: http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html (accessed on 14 November 2016).

[18] Extended Yale Face Database B (B+). Available online: http://vision.ucsd.edu/content/extended-yale-face-database-b-b (accessed on 14 November 2016).

[19] Nanni L, Brahnam S, Ghidoni S, et al. Region-based Approaches and Descriptors extracted from the Co-occurrence Matrix[J]. International Journal of Latest Research in Science & Technology, 2014, 3(6):2278-5299.

[20] Xie S, Shan S, Chen X, et al. Fusing local patterns of gabor magnitude and phase for face recognition[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2010, 19(5):1349-1361.

猜你喜欢

小波人脸人脸识别
基于多小波变换和奇异值分解的声发射信号降噪方法
人脸识别 等
有特点的人脸
构造Daubechies小波的一些注记
一起学画人脸
揭开人脸识别的神秘面纱
基于MATLAB的小波降噪研究
人脸识别技术的基本原理与应用
三国漫——人脸解锁
人脸识别在高校安全防范中的应用