基于子模式的单样本人脸识别方法
2018-05-08董天
, , ,董天
(浙江工业大学 计算机科学与技术学院,浙江 杭州 310023)
近年来,人脸识别技术已经成为计算机视觉和模式识别领域中的研究热点[1],人脸识别技术包含人脸检测、人脸姿态估计和人脸对齐等等[2-3].多数优秀的人脸识别方法虽然可在多正样本的训练环境下得到较好的识别结果,但是在一些特定的人脸识别应用场景中,例如:电子护照审查、身份证鉴定和刑事侦查等等,这些系统的人脸数据库由于很难再收集到每类个体额外的正样本,普遍存在每类个体仅有一张正样本的情况,导致人脸的鉴别性特征难以提取.针对上述每类个体单张正样本的人脸识别问题(Single sample per person,SSPP),现有的多样本人脸识别方法无法完成模型的训练,导致人脸识别精度不理想.目前,研究者所提出的方法主要可以分为虚拟样本生成法、图像子模式法和泛化学习方法3类,其中虚拟样本生成法通过对每类个体生成额外的正样本来提高人脸识别的精度.Shan等[4-6]分别提出基于几何光照改变、SVD分解和3D模型等方法来对每类个体生成多张虚拟正样本,但该类方法存在的不足之处是虚拟生成的正样本,其各自提取的人脸特征有很大的冗余性.图像子模式法是将原单张人脸样本划分成多个人脸子模式,在子模式图像上提取特征、训练分类器并融合子模式的分类结果来提高识别精度.Tan等[7]将单张人脸样本划分成多个同等大小的子模式图像,最后融合子模式图像的分类结果进行人脸识别.Kumar等[8]采用最近邻分类器(Nearest neighbor classifier,NNC)来分类每个人脸子模式,最后作核函数化加权融合.Zhang等[9]提出CRC算法对每个子模式做分类,再采用最大投票机制作分类融合.但该类方法也存在子模式的划分有局限性和仅仅在单张正样本上提取的子模式特征不具有鉴别性2个问题.泛化学习法考虑到不同个体之间存在一定的共性变化,通过引入外部人脸数据集来学习人脸之间的共性特征,可以提高人脸识别的精度.Kim等[10]在外部人脸数据集中学习到一个基于姿态变化的投影矩阵,保证人脸特征具有对姿态变化的不变性.Yang等[11]提出将外部训练数据集作为负样本,学习一个稀疏差异变化字典来进行人脸识别.但是,上述的方法没有考虑每个子模式对最后识别精度有不同的贡献度.
为了提取到人脸子模式的鉴别性特征,同时又考虑到每个子模式对识别结果有不同的贡献度,提出一种基于子模式的单样本人脸识别方法.在子模式划分上,根据人脸校准算法[12]检测得到人脸基准点,并以此为中心将每张人脸样本划分成5个固定大小的人脸子模式.在子模式鉴别性特征提取上,通过引入外部人脸数据集作为负样本,并结合SVM算法训练得到属于每个子模式的特征分类器.最后,对每个子模式的分类结果分配不同的权重并作加权融合,得到最佳的识别对象.
1 基于子模式的单样本人脸识别技术框架
基于子模式的单样本人脸识别方法分为训练和识别两个阶段.训练阶段是对每个待识别的目标人物训练5个子模式分类器,识别阶段是对测试的人脸图像作分类识别,如图1所示.
图1 方法框架Fig.1 Framework of the method
1.1 模型的训练阶段
在模型的训练阶段,需要对每类目标人物训练5类指定的子模式分类器,每类子模式分类器分别对应人脸的左眼、右眼、鼻尖、左嘴角和右嘴角,命名为LE-SVM,RE-SVM,N-SVM,LM-SVM,RM-SVM.在训练过程中,首先采用人脸校准算法[12]提取人脸的5个基准点,接着以这5个基准点为中心,将单张正样本和多张负样本人脸图像分别划分成5个固定大小的子模式,定义为(正/负).最后,对每类子模式采用SVM算法训练得到子模式分类器.如图1(a)所示.
1.2 模型的识别阶段
在模型的识别阶段,需要对每张测试人脸图像识别出其对应的标签.在识别过程中,将测试人脸图片划分的5个子模式分别作分类识别.假设在模型训练阶段,训练了个目标人物,那么测试人脸图片的每个子模式需要作次分类识别.对于每个子模式最终都会得到个分类得分,每个分类得分表示测试人脸图片第个子模式属于第个目标人物的分类得分.最后,对每个子模式的分类得分作加权融合,得到最佳的识别对象,如图1(b)所示.
2 基于子模式的单样本人脸识别方法关键技术研究
2.1 基于人脸基准点的子模式划分
所谓的人脸子模式是将人脸划分成多个局部区域,并在局部区域中作特征提取,最后得到带有特征的局部区域,即为一种人脸子模式.在单样本人脸识别中,对于人脸有效特征的提取至关重要,考虑到人脸特有的几何结构,其中几个关键部位,例如:眼睛、鼻子和嘴巴.这些部位是区分不同人脸的最佳位置,因此设计了一种基于人脸基准点的子模式划分方法.该方法的具体步骤如下:
步骤1对人脸图像作高斯滤波,去除噪声干扰,并归一化到指定的大小.
步骤2利用人脸校准算法[12]提取人脸的5个基准点位置(左眼、右眼、鼻尖、左嘴角、右嘴角).
步骤3根据上述得到的5个基准点为中心,从人脸中截取5个固定大小的局部区域.
步骤4对局部区域作指定特征的提取,形成最终的人脸子模式.其中特征提取技术主要包括LBP,HOG和HAAR等等.
所提方法选择HOG特征来构建人脸子模式,图2为ORL数据集5类人脸子模式的HOG特征可视效果图.
图2 5类子模式的HOG特征可视效果图Fig.2 The HOG feature visualization of sub-pattern
2.2 子模式分类器的训练
从1.1节中,每类目标人物需要训练5个指定的子模式分类器,借助支持向量机良好的分类能力,对目标个体的每类人脸子模式采用SVM算法进行训练.由于这5类子模式的训练方法完全一致,因此以左眼这类子模式为例,来介绍具体的训练方法.
假设,有训练的正样本子模式集(x1,y0),负样本子模式集{(x1,y1),(x2,y2),…,(xm,ym)}.其中,x1∈Rn为子模式的n维特征向量,y1∈{1,-1}为子模式所属的类别标签,y1=1表示正样本,yi=-1表示负样本.SVM算法的目标优化函数为
(1)
式中wTx+b为SVM的分割超平面.根据凸优化准则,可求解式(1)最小化问题.当目标函数最小化时,即可确定参数w,b.当wTx+b>1时,则判定为正样本.当wTx+b<-1时,则判定为负样本.然而,由于子模式样本集中正负样本数量的比例悬殊,从式(1)中确定的超平面分类能力很差.因此,通过引入“软间隔”来解决上述问题,则目标优化函数变为
(2)
ξ=max(0,1-wTx+b)
(3)
最后,针对左眼这类子模式,SVM算法的目标优化函数为
(4)
2.3 子模式的加权融合方法
假设在模型的训练阶段,训练了n类目标个体,每类目标个体有5个子模式分类器.那么,对于测试人脸图像的每个子模式pi需要与这n类目标个体对应的子模式分类器一一比对,最后每个子模式pi会得到n个分类得分Si,j,即
Si,j=Score(pi,Mj,i)
1≤i≤5,1≤j≤n
(5)
式中:Si,j表示测试人脸的第i个子模式pi属于第j个目标人物时的分类得分;Mij表示第j个训练目标人物的第i个子模式分类器.由于每个子模式对应人脸的不同部位,各个部位对识别结果有不同的贡献度,因此有必要对子模式的分类得分作加权融合.对于测试人脸的每个分类得分Si,j对应的的权重wi,j,可根据分类得分所在的排名计算得到,即
(6)
(7)
(8)
其中:wi,j为测试人脸第i个子模式属于第j个目标时分配的权重;Ranki,j为测试人脸第i个子模式属于第j个目标时,其分类得分Si,j在所有n个分类得分中所占的排名.
最后,对测试人脸所有子模式的分类得分作加权融合,可得测试人脸属于各个目标人物的总得分Ri=1,2,…,n.选择总得分最大的那个目标,即为最佳的识别对象.子模式加权融合过程如图3所示.
图3 子模式加权融合方法Fig.3 Sub-pattern weighted fusion method
3 实验分析
3.1 数据集介绍
为验证所提出方法的性能,在3个公开的人脸数据集上进行实验分析,其中包括含有64种光照程度的Extend-Yale-B数据集[13];包含不同表情、光照和穿戴变化的AR数据集[14];以及不同姿态、表情变化的ORL数据集[15].图4展示了这3个数据集的部分图片.
图4 3个数据集的部分图片Fig.4 The Image of three datasets
3.2 子模式划分方法的分析
首先,对基于人脸基准点的子模式划分方法进行分析.为了验证这种子模式划分方法的性能,与两种均匀划分的子模式方法作了实验比较,3种子模式划分方法如图5所示.
图5 3种不同子模式划分方法Fig.5 Three different sub-pattern division methods
在图4中ORL,Extend-Yale-B两个数据集上作了比对实验,实验结果如表1所示.从表1中可知:所提的基准点子模式划分方法识别率最高,其中在ORL数据集上比另外两种子模式划分方法平均提高了10%,在Extend-Yale-B数据集上平均提高了3%.均匀子模式划分方法虽然也会在基准点周围提取特征,但是它们分割了基准点部分,引入了噪声.因此所提出的基于人脸基准点的子模式划分方法适合用于单样本人脸识别.
表1 不同子模式划分方法的比较Table 1 Comparison of different sub-patterns division method %
3.3 不同数据集实验分析
为了进一步验证所提方法的性能,与表2的9种单样本人脸识别方法在Extend-Yale-B,AR两个数据集上进行了实验比较,9种方法所属的类别如表2所示.
表2 9种单样本人脸识别方法Table 2 Nine single sample face recognition methods
1) Extend-Yale-B数据集分析
为了验证所提方法对光照变化的鲁棒性,在Extend-Yale-B数据集上作了实验分析.该数据集包含了38类人,64种光照条件下的2 414张人脸图像.在实验中,选取前30类人物作为待识别的目标,剩余的8类人物作为外部人脸数据集,每类目标人物取第一张图片(A+000+E+00)作为训练正样本,其余的作为测试.所有方法的识别率如图6所示.笔者所提方法取得了最高的识别率,达到了92.7%.泛化学习类方法SVDL,PCRC分别取得第2,3的排名.但是适用于多样本的基准类算法NNC,SRC都没有取得很高的识别率,其主要原因是基准类算法只从人脸的全局角度提取特征,当人脸在不同光照条件下发生大幅度变化后,特征不具有鉴别性.
1—NNC;2—SRC;3—CKC;4—BlockLDA;5—AGL;6—DMMA;7—PNN;8—PCRC;9—SVDL;10—笔者方法图6 Extend-Yale-B数据集的识别率Fig.6 The recognition rate of Extend-Yale-B
2) AR数据集分析
为了进一步验证所提方法对不同光照、表情和穿戴变化的鲁棒性,在AR数据集上与现有的单样本人脸识别方法作了实验比较.该数据集包含了126类个体的4 000多张人脸图像.每类个体有13张不同表情、光照、穿戴变化的正脸图像.在实验中,选取其中50类男性和50类女性,总共100类个体进行实验.其中前80类个体作为待识别的目标类,剩余的20类作为外部人脸数据集.每类目标人物的第一张图片作为训练正样本,剩余的12张图片作为测试.所有方法的实验结果如表3所示,所提方法的识别率远远高于其他方法.针对人脸的光照、表情、穿戴变化,所提方法的识别率比泛化学习类方法SVDL分别要高出6%,7%,30%,28%,其主要原因是泛化类方法未考虑到子模式对识别结果有不同的贡献度.基于子模式类方法DMMA,PNN,CRC由于其只在单张正样本上提取子模式特征,得到的分类器泛化能力较差,导致人脸识别精度不理想.
表3 AR数据集的识别率Table 3 The recognition rate of AR %
4 结 论
针对在单样本人脸识别中每类个体鉴别性特征难提取的问题,提出了基于子模式的单样本人脸识别方法.该方法考虑了人脸的不同部位对识别结果有不同的贡献度,并结合外部人脸数据集训练得到每类子模式的分类器.在人脸识别过程中,对测试人脸根据人脸基准点划分5个子模式.接着对每个子模式作分类识别,并对分类结果作加权融合,最后得到最佳的识别对象.在3个公开的人脸数据集上与现有方法进行实验比较,结果表明所提方法在识别精度上有较大的提升.
参考文献:
[1] 于爱华,白煌,孙斌斌,等.基于优化投影矩阵的人脸识别技术研究[J].浙江工业大学学报,2016,44(4):392-398.
[2] 郑博,毛剑飞,梁荣华.基于纹理权重的AAM人脸特征点检测方法[J].浙江工业大学学报,2012,40(6):661-665.
[3] 张美玉,侯向辉,任炜彬,等.基于非线性最小乘的人脸姿态估计算法[J].浙江工业大学学报,2016,44(1):34-38.
[4] SHAN S, CAO B, GAO W, et al. Extended fisherface for face recognition from a single example image per person[C]//International Symposium on Circuits and Systems. Arizona: IEEE Press,2002:81-84.
[5] GAO Q, ZHANG L, ZHANG D. Face recognition using FLDA with single training image per person[J]. Applied mathematics and computation,2008,205(2):726-734.
[6] VETTER T. Synthesis of novel views from a single face image[J].International journal of computer vision,1998,28(2):103-116.
[7] TAN X, CHEN S, ZHOU Z H, et al. Recognizing partially occluded, expression variant faces from single training image per person with SOM and soft k-NN ensemble[J].IEEE transactions on neural networks,2005,16(4):875-886.
[8] KUMAR R, BANERJEE A,VEMURI B C, et al. Maximizing all margins: pushing face recognition with kernel plurality[C]//International Conference on Computer Vision. Barcelona: IEEE Press,2011:2375-2382.
[9] ZHANG L, YANG M, FENG X. Sparse representation or collaborative representation: which helps face recognition[C]//International Conference on Computer Vision. Barcelona: IEEE Press,2011:471-478.
[10] KIM T K, KITTLER J. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image[J].IEEE transactions on pattern analysis and machine intelligence,2005,27(3):318-327.
[11] YANG M, VAN GOOL L, ZHANG L. Sparse variation dictionary learning for face recognition with a single training sample per person[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney: IEEE Press,2013:689-696.
[12] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Press,2013:3476-3483.
[13] GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: illumination cone models for face recognition under variable lighting and pose[J].IEEE transactions on pattern analysis and machine intelligence,2001,23(6):643-660.
[14] MARTINEZ AM, BENAVENTE R. The AR face database[J].
Computer vision center,1998(1):3.
[15] SAMARIA F S, HARTER A C. Parameterisation of a stochastic model for human face identification[C]//Proceedings of the Second IEEE Workshop on Applications of Computer Vision. Florida: IEEE Press,1994:138-142.
[16] COVER T, HART P. Nearest neighbor pattern classification[J].IEEE transactions on information theory,1967,13(1):21-27.
[17] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J].IEEE transactions on pattern analysis and machine intelligence,2009,31(2):210-227.
[18] SU Y, SHAN S, CHEN X, et al. Adaptive generic learning for face recognition from a single sample per person[C]//IEEE Conference on Computer Vision and Pattern Recognition. Texas: IEEE Press,2010:2699-2706.
[19] ZHU P, ZHANG L, HU Q, et al. Multi-scale patch based collaborative representation for face recognition with margin distribution optimization[C]//European Conference on Computer Vision. Berlin: Springer,2012: 822-835.
[20] CHEN S, LIU J, ZHOU Z H. Making FLDA applicable to face recognition with one sample per person[J].Pattern recognition,2004,37(7):1553-1555.
[21] LU J, TAN Y P, WANG G. Discriminative multimanifold analysis for face recognition from a single training sample per person[J].IEEE transactions on pattern analysis and machine intelligence,2013,35(1):39-51.