APP下载

基于两级非负线性编码表示的人脸识别

2014-08-06高志荣熊承义

关键词:识别率人脸人脸识别

高志荣,熊承义

(1 中南民族大学 计算机科学学院, 武汉 430074;2 中南民族大学 电子信息工程学院, 武汉 430074)

人脸识别技术以其直接、自然、友好的特点,受到了研究者们的广泛关注,并成为计算机视觉和模式识别领域的研究热点.然而,由于不同个体的相似性和人脸外形的不稳定性,人脸识别一直是生物识别领域最具有挑战性的研究课题之一.

人脸识别技术的发展已经经历了几十年的历史,自动人脸识别研究关心的问题主要包括人脸特征提取和分类识别方法.特征提取的目的在于找到有效表达人脸的方法,而分类识别方法在于通过先前提取的人脸有效特征完成最终的人脸分类识别.目前,特征提取方法可以总体分为基于全局特征和基于局部特征的特征提取.经典的基于全局特征的提取算法包括主成分分析[1,2]和线性判别分析[3,4]等.基于主成分分析的方法通过K-L变换,将人脸库变换到特征子空间,再将测试图像映射到该子空间中,并与训练图像的位置进行比较,最后利用2-范数距离分类器进行分类识别.而线性判别分析方法则是使投影后模式样本的类间散布矩阵最大而类内散布矩阵最小,即模式样本在新的空间中有最大的类间距离和最小的类内距离.这两种方法都是基于所有训练图像进行特征提取的算法.基于局部特征的特征提取通过对图像的局部区域进行变换分解,找到能有效描述图像的特征.这类方法有局部二值模式 (LBP)[5,6]、Gabor小波[7]、局部非负矩阵分解(LNMF)[6]等.在有污损或遮挡的人脸识别中,基于局部特征的识别往往比基于全局特征的识别更为有效.

最近,基于稀疏表示[8-10]的人脸识别技术成为研究热点,其基本思想是:利用训练图像构成冗余字典,通过计算待检图像相对于所有训练图像的稀疏表示,进而通过比较基于每类线性表示的冗余实现对测试图像分类.稀疏表示分类对于存在噪声污染和遮挡的人脸识别展现了良好的性能,但也存在计算复杂度高,以及对图像配准敏感等问题.为此,后来的研究者们对稀疏表示分类人脸识别进行广泛研究以更好地提升其性能,如:Meng等人[11]提出了一种基于Gabor变换的遮挡字典以降低系统的计算复杂度;平强[12]等人针对稀疏表示人脸识别算法对姿态变化敏感的问题,提出了一种基于仿射变化的分块稀疏表示分类,以提高对姿态变化的鲁棒性.

当前,随着数字成像技术与网络技术的发展,我们已身处大数据时代,基于大数据的人脸识别具有良好的应用前景[13].为此,本文研究了一种基于稀疏表示理论基础上的大规模人脸识别,提出一种基于两级线性编码表示的人脸识别方法.首先利用第一级的线性编码表示,通过在初始的大规模人脸库中寻找对应测试图像的M最近邻,以消除干扰训练样本并降低训练样本集的规模;然后以此M最近邻为训练样本集,通过第二级的线性编码表示实现对测试样本的分类判别.在线性编码表示中,通过进一步引入非负系数约束,更好地改善了分类识别的鲁棒性.基于AR,ORL和Yale B人脸库的实验结果初步验证了本文方法的有效性.

1 两级线性编码表示

两级线性编码表示(TSLCR)的第一个阶段在于提取测试图像的M最近邻,以消除子空间中远离测试样本的训练样本[14],减少用于识别的训练样本集的规模并提升识别的鲁棒性.

考虑含有k个类的人脸库中,n幅训练图像分别标识为x1,x2,…,xn.基于同一个体的图像存在于同一个线性子空间的假设,测试图像y可以表示为所有训练样本的线性表示,即:

y=a1x1+a2x2+…+anxn,

(1)

其中ai(i=1,2,…,n)是每个训练样本xn的系数.进一步,式(1)可以表示为:

y=XA,

(2)

这里A=[a1…an]T,X=[x1…xn],y为列向量.

若X是非奇异方阵,则式(2)可以通过A=X-1y来求解;否则,可以通过下面式子来求解:A=XTX+μI)-1XTy,这里μ是正常数,μ∈[0,1],I是单位矩阵.

通过对式(2)进行求解,可以将式(1)中的测试图像表示为所有训练图像的线性表示,即测试图像本质上可近似等价为所有训练图像的加权和.接下来,通过式(3)计算测试图像与每一幅训练图像的距离:

di=‖y-aixi‖2,

(3)

这里,di称为距离函数,它可以衡量测试图像与训练图像之间的差异.很显然,di越小,训练图像与测试图像越接近,相似程度越高,判别为测试图像所属类的可能性也越大.

通过选择M个距离最小的训练图像,得到训练图像库的一个子集,进一步用于第二阶段的识别中.令M个训练样本的标识为x1,x2,…,xM,对应的类来自集合S={s1,s2,…,sM},且s1∈{1,2,…,K}.在第二阶段的识别中,属于集合S的类将作为可能的类来进行运算,而不属于集合S的类将被舍弃.

接下来的第二个阶段将实现基于第一阶段获得的规模减小的样本集进行精确匹配,最终输出测试图像所属的类.根据第一阶段的假设,M个近邻可以标识为x1,x2,…,xM,进一步,算法用M个训练样本的线性表示测试图像,可以得到如下式子:

y=b1x1+b2x2+…+bMxM.

(4)

这里,bi(i=1,2,…,M)表示对应每个样本的系数.式(4)可以进一步表示为:

(5)

(6)

这里,γ是正常数,且γ∈[0,I],I是单位矩阵.

在求解出系数bi后,再用对应同一类的所有训练样本线性表示测试图像y:

hr=bpxp+bp+1xp+1+…+bqxq.

(7)

计算测试图像y与上述线性表示的结果hr之间的距离:

ei=‖y-hr‖2.

(8)

最终,基于最小距离判决测试图像y所属的类.

2 非负系数约束优化

非负矩阵分解(NMF)[15]理论认为:整体感知可由组成整体的部分感知构成.假设有m个n维空间的非负样本数据Zn×m,(Z≥0),可以分解成两个非负矩阵W和X的乘积:

Zn×m≈Wn×r×Xr×m,

(9)

其中Wn×r为基矩阵,Xr×m为系数矩阵.若选择r比n小,用系数矩阵代替原数据矩阵,就可以实现对原数据矩阵的降维,得到数据特征的降维矩阵,从而减少存储空间,节省计算资源.式(9)的另一种正则化表示形式为:

其中,‖X‖1,1=∑ij|Xij|,λ>0.

在实际的应用中,式(1)和(4)的分解系数往往出现为负数,由此表现在对测试图像的表示并非真正意义上的加权求和,从而其线性编码表示结果并不具有良好的稀疏性;当其用于人脸识别时,这种具有负值的表示会对大的表情、光照及姿态的变化敏感,造成人脸识别率的急剧下降.

受非负矩阵分解的启发,将表示系数的非负性引入到基于表示的人脸识别问题具有很好的物理意义.由此,待识别的人脸图像y的非负约束线性编码表示可通过求解式(10)的最优化问题[16]而得到:

(10)

上述问题是非负矩阵分解的特例,即基矩阵固定为训练样例.α的迭代求解公式如下:

α←(-α.*min(0,(λ/2)E-XTy))/(XTXy),

(11)

式中,E-m×t表示元素全部为1的矩阵.

(11)式通过将每一个训练图像的系数作为自适应的调节因子,结合迭代的方案,使得分解得到的系数满足非负性和表示的稀疏性,进一步提高识别的性能.

本文所提出的基于两级线性编码表示的人脸识别框架如图1所示.

图1 两级线性编码表示人脸识别框架Fig.1 Framework of two-stage linear coding representation based face recognition

给定的测试图像y,先计算其基于所有训练图像的非负系数表示,根据式(10)的距离公式,寻找y的M最近邻;再用M最近邻表示测试图像y,结合式(11)计算残差,最后输出分类结果.

算法1:两级非负线性表示人脸识别算法(TSLCR)

输入:测试图像y,训练图像x,参数λ;

输出:y的类标识;

(1) 根据设定的参数y,计算φ=(λ/2)e-XTy;

(2) 指定允许的最大迭代次数,并迭代求解式(11);

(3)步骤(2)求得系数a,结合式(10)求解测试图像y的M最近邻;

(4) 用类似于步骤(1)、(2)的方法求解基于M最近邻的关于y的非负表示系数;

(5) 结合式(8)计算测试图像与M最近邻中各个类的残差;

(6) 选择(5)中的最小残差所对应的类输出.

3 实验结果

为了验证本文算法的有效性,我们基于Windows 7.0操作系统、Matlab R2010a环境,针对AR、ORL及Yale B人脸库进行了模拟对比实验.

由于第一级要选择M最近邻,这里首先给出M的取值策略.分别选择AR、ORL和Yale B人脸库的部分样本,采用本文算法计算第一级M的取值与识别率的相互关系,其实验结果如图2所示.

图2 M取值与识别率之间的关系Fig.2 Correlation of M and the recognition rate

从图2中可以看出,当M在50附近时,3个人脸库均有最佳的性能,说明M取值与具体的人脸库无关.在后续实验中,选择了M=50,相同的运行环境下,按照以下4种算法的思想,进行的模拟比对实验:分块两阶稀疏(BTPSRC)[12]、两阶稀疏表示表示(TPSRC)[14]、非负稀疏表示(NSRC)[16,17]、两级线性编码表示(TSLCR,本文算法).

3.1 AR人脸库实验结果

AR人脸库包括2个子集,子集1构成测试数据集,子集2构成训练数据集.分别包含100个不同个体、各700幅人脸图像.包含不同表情、姿态及光照变化,每幅人脸图像已经裁剪成60×43大小.子集1(测试人脸图像)和子集2(训练人脸图像)通过归一化、裁剪、配准等预处理操作后的人脸图像,分别如图3和图4所示.表1所示为算法运行10次所得平均识别率的结果.

图3 测试图像样本列举Fig.3 The example of test images

图4 训练图像样本列举Fig.4 The example of training images

方法NSRCTPSRCBTPSRCTSLCR识别率/%66.5778.7176.7182.29

从表1可以看出,3种基于两级测试图像表示算法的识别率均高于75%,明显优于一级测试图像表示的算法(识别率仅为66.57%).通过修正表示系数的非负性,本文算法进一步提高了同类算法的性能,识别率达82%以上.

3.2 ORL人脸库实验结果

ORL人脸库包括40个类、共400幅人脸图像,每幅图像裁剪成64×64的尺寸.包含了较大的姿态、光照、表情变化以及眼镜遮挡,部分样本在图5中给出.

图5 ORL人脸图像样本列举Fig.5 The example of ORL database

将每个类随机取5幅作为训练图像,剩余5幅作为测试图像,算法运行10次所得平均识别率如表2所示.

表2 ORL库识别率的比较

从表2可以看出,在有较大的姿态变化时,四种算法对大部分人脸均能正确识别.但本文算法仍具有最好的性能,比其他算法的识别率提高了3%~8%.

3.3 Yale B人脸库实验结果

Yale B人脸库主要包括较大的光照以及表情变化.我们选择了其中576幅人脸图像,包括9个类,每个类64幅,其样本图像如图6.

图6 Yale B人脸图像样本列举Fig.6 The example of Yale B database

将每个类的随机32幅作为训练图像,剩余32幅作为测试图像,算法运行10次所得平均识别率,其结果如表3所示.

表3 Yale B库识别率的比较

从表3中可以看出,4种算法的识别率相比于其他人脸库有下降.这主要是因为大的光照变化,对测试图像的表示结果有很大的影响.但本文算法的仍具有相对的优越性.

4 结语

提出了一种两级非负线性编码表示的人脸识别算法.第一级在全部人脸库中寻找测试图像的M最近邻图像集合,第二级在M个最近邻图像集合中寻找测试图像所属类别.受非负矩阵分解技术的启发,将非负属性引入到两级线性表示方法中,两阶段均采用了迭代的方案和自适应调节因子,可以使分解系数为非负.非负性的限制带来了表示的稀疏性,从而有利于抑制表情、光照、姿态变化的不利影响,从而提高人脸图像的识别率和鲁棒性.基于3个标准的人脸库AR、ORL和Yale B的仿真实验结果,初步证明了本文算法的有效性.

参 考 文 献

[1] Luan X, Fang B, Liu L H, et al. Extracting sparse error of robust PCA for face recognition in the presence of varying illumination and occlusion[J]. Pattern Recognition, 2014, 47(2): 495-508.

[2] 李 欣,王科俊, 贲晛烨. 基于MW(2D)~2 PCA的单训练样本人脸识别[J].模式识别与人工智能,2010,23(1):77-83.

[3] Yin F, Jiao L C, Shang F H, et al. Double linear regressions for single labeled image per person face recognition[J]. Pattern Recognition, 2014, 47(4):1547-1558.

[4] 张 健,肖 迪.基于多尺度自适应LDA的人脸识别方法[J].计算机工程与设计,2012,33(1):332-335.

[5] 袁宝华,王 欢,任明武. LBP与LNMF特征融合的人脸识别[J]. 计算机工程与应用,2012,49(5): 166-169.

[6] 周家锐,纪 震,沈琳琳,等. 基于Gabor小波与Memetic算法的人脸识别方法[J].电子学报,2012, 40(4):642-646.

[7] 戴金波,肖 霄,赵宏伟. 基于低分辨率局部二值模式的人脸识别[J]. 吉林大学学报:工程技术版,2013,43(2):435-438.

[8] Xu Y,Zhu Q,Fan Z Z, et al. Using the idea of the sparse representation to perform coarse-to-fine face recognition [J]. Information Sciences, 2013, 238(20):138-148.

[9] Lu C Y, Min H, Gui J, et al. Face recognition via Weighted Sparse Representation [J]. Journal of Visual Communication and Image Representation, 2013, 24(2):111-116.

[10] Li H B, Huang D, Morvan J M, et al. Expression-robust 3D face recognition via weighted sparse representation of multi-scale and multi-component local normal patterns[J]. Neurocomputing, 2014, 133(10):179-193.

[11] Yang M,Zhang L.Gabor feature based sparse representa-tion for face recognition with gabor occlusion dictionary [C]. Proceedings of the 11th European Conference on Computer Vision , 2010: 448-461.

[12] 平 强,庄连生,俞能海.姿态鲁棒的分块稀疏表示人脸识别算法[J].中国科学技术大学学报,2011,41(11):975-981.

[13] Ortiz E G, Becker B C. Face recognition for web-scale datasets [J]. Computer Vision and Image Understanding, 2014, 118(2):153-170.

[14] Xu Y, Zhang D, Yang J,et al. A two-phase test sample sparse representation method for use with face recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(9), 1255-1262.

[15] Hoyer P O.Non-negative matrix factorization with sparse-ness constrains[J]. Journal of Machine Learning Research, 2004,5(1):1457-1469.

[16] 史加荣,杨 威,魏宗田.基于非负稀疏表示的人脸识别[J].计算机工程与设计,2012,33(5):2002-2006.

[17] 高志荣,熊承义,笪邦友.改进的基于残差加权的稀疏表示人脸识别[J].中南民族大学学报:自然科学版,2012,31(3):72-76.

猜你喜欢

识别率人脸人脸识别
人脸识别 等
有特点的人脸
一起学画人脸
揭开人脸识别的神秘面纱
人脸识别技术的基本原理与应用
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
三国漫——人脸解锁
提升高速公路MTC二次抓拍车牌识别率方案研究
人脸识别在高校安全防范中的应用