APP下载

基于改进Gabor-PCA分析重构的人脸遮挡物清除

2016-08-05毛贤光李云欣

计算机应用与软件 2016年7期
关键词:训练样本直方图人脸

毛贤光 李 罕 李云欣 高 静

1(南宁市工业和信息化委员会 广西 南宁 530028)2(南宁市城市应急联动中心 广西 南宁 530021)3(广西通信规划设计咨询有限公司 广西 南宁 530007)



基于改进Gabor-PCA分析重构的人脸遮挡物清除

毛贤光1,2李罕2李云欣2高静3

1(南宁市工业和信息化委员会广西 南宁 530028)2(南宁市城市应急联动中心广西 南宁 530021)3(广西通信规划设计咨询有限公司广西 南宁 530007)

摘要针对实际应用于“智慧南宁”项目建设时,多重训练样本容易使重构人脸陷入局部最大化以及协方差矩阵分解耗时严重的问题,提出一种基于改进Gabor-PCA分析重构的人脸遮挡物清除算法。在训练样本集选择阶段,通过构建5维8方向的Gabor直方图信息分类器,从人脸库中选择Gabor直方图信息与待重构原始人脸图像在外形轮廓等粗信息更为接近的图像组成训练样本集。同时,在PCA主元分析时,通过SVD分解重构协方差矩阵来降维,从而达到二次减少耗时的目的。实验证明,随着训练样本集的增加,该算法对各种人脸都有很强的适应性,并且得到的清除遮挡物后的人脸图像清晰、无局部最大化现象,与原始图像匹配度高,具备投入实际应用的能力。

关键词智慧南宁人脸重构Gabor训练样本集PCASVD

0引言

随着十二五规划中对城镇信息化建设提出的新要求,“智慧城市”这一描述城市信息化发展阶段的代名词逐渐成为未来10年城市信息化建设的总目标[1-3]。南宁市作为广西壮族自治区的首府,“智慧城市”的发展具有独特的优势:比邻北部湾经济开发区,打造面向东盟的区域性城市。南宁市工业和信息化委员会作为全面负责南宁市公共数字化、工业信息化系统/平台规划和建设、企业监督和管理的单位,在“智慧城市”的建设中起着核心作用。目前“智慧南宁”建设正处于网络建设向平台和应用融合的阶段转变,将建设统一的公共平台和统一的城市信息中心(大数据中心)[4,5]。这要求各类信息经采集、分析后能以统一的标准存储并再次交互,这其中以人脸信息的录入标准最为严格。人脸信息的获取在“智慧南宁”中来自于方方面面:“智慧政务”和“智慧医疗”中登记录入的面部信息、“智慧交通”、“智慧园区”和“智慧旅游”中抓拍到的监控对象等等,这些信息在“智慧城市”模式下最终都将以统一的标准和身份证上的照片信息进行比对。按照公安部的要求,身份证照片十分苛刻,其中一条就是不能有面部遮挡物,包括眼镜、浓妆、饰物、大胡子等,这对“智慧城市”模式下采集到的人脸图像信息提出更高的要求——自动清除面部遮挡物。

人脸遮挡物清除在人脸识别中属于高维矩阵计算范畴,目前,解决这种问题的方法大致分为两类:场量法和代数解析,这两者的共同点是都需要投影映射。文献[5]提出的共同向量结合法,通过Gram-Schmidt正交解决投影,文献[6]利用完备鉴别保局投影法,解决投影降维,除此之外,比较经典的场量法还有有零空间保局投影法NDLPP[7]、维数增加法CODI[8]、Variant Faces分类法[9]等;代数解析法有独立主成分分析法ICA[10]、核主成分分析法Kernel PCA[11]、支持向量机SVM[12]等。他们的特点是当投影矩阵或协方差矩阵直接满足局部正交时,函数不会陷入局部最大化,但是这些方法都跳过分类器设计,默认函数符合局部正交,这不符合 “智慧城市”建设项目的实际情况。“智慧南宁”项目主要面向东盟,采集得到人脸图像千差万别,不可能跳过分类器,同时鉴于投入使用时的处理耗时问题,还要求算法精准快速。

因此,本文针对应用于“智慧南宁”项目建设时,训练样本多样性使重构人脸容易陷入局部最大化以及协方差矩阵分解耗时严重的情况,提出一种基于改进Gabor-PCA分析重构的人脸遮挡物清除算法。通过构建Gabor直方图信息分类器,并根据待重构原始人脸图像相应的Gabor直方图信息,从人脸库中选择轮廓信息更为接近的图像作为训练样本集。同时,在PCA主元分析时,通过奇异值分解来重构协方差矩阵来降维,达到二次减少耗时的目的。

1人脸特征描述

第二代居民身份证制证用数字照片的尺寸为358像素(宽)×441像素(高),分辨率为350 dpi。如图1(a)所示,彩色为正面免冠,拍摄前,要求面部清洁,不能有汗渍、油污,不能化浓妆,严禁配戴眼镜、非黑色的钢丝发卡等任何影响拍摄效果的饰品;可着T恤或者西装拍摄,但不得穿制服。因此,无论图片质量,还是拍摄技术,与第一代身份证相比要求更高,但同时也为全市基础图像数据的比对提供了标准。总所周知,人脸信息分为五官结构、比例等固定信息和一些细节信息:表情、姿态、发型、肤色、饰物、噪声等。这几大类的细节信息如果能在人脸重构前,通过分类形成有针对性的训练样本空间,将大大缩短主元分析的耗时。

本文提出的基于改进Gabor-PCA分析重构的人脸遮挡物清除算法,就是针对人脸多种细节信息,构建Gabor直方图信息分类器,并根据待重构人脸相应的Gabor直方图信息从人脸库中选择细节信息更为匹配的图像作为训练样本集。如图1(e)所示,传统的Gabor分析能有效地分析指纹等区分度高的细节信息,但是对区分度不高的人脸,缺乏适应性(如图1(b)),因此,本文对Gabor进行改进,使其能有效应用于人脸(如图1(c))。同时,在PCA主元分析时,通过奇异值分解来重构协方差矩阵来降维,避免图像出现局部最大化的症状(如图1(d)),并达到二次减少耗时的目的。

图1 Gabor、PCA分析

2改进Gabor-PCA算法

2.1算法流程解析

图2 改进Gabor-PCA算法流程图

2.2Gabor、PCA算法

复值Gabor[13]函数空间表达的一般形式如下:

(1)

复值Gabor函数是二维高斯函数在两个频率轴都发生了平移之后的结果,即原来的频率中心由坐标原点移到(l,v)处。它是一个二维带通滤波器,为了适用于分析人脸,这里将复值Gabor滤波器变换成偶对称:

(2)

(3)

PCA[14]算法利用K-L变换排列训练样本的主要信息,构成特征空间,并将待测目标投影到此空间,使重建误差和噪声分散整个重建信号,达到E[y2]最大化的目的:

E[y2]=E[(ATx)2]=ATE[xxT]A=ATCA

(4)

2.3Gabor-PCA算法设计

步骤1对采集到的原始图像化为尺寸358×441的归一化图像F,以便和身份证图像信息进行后续匹配。

步骤2按式(1)、式(2)构建Gabor函数,其中θ和f分别为Gabor滤波器方向以及频率,σx和σy是Gaussian包络常数。

在本算法中,取θ=π(180-i)/180,i=0,22.5°×1,…,22.5°×7,f=0.2,σx=σy=4。

步骤3对图像F的每一点像素按照式(5)进行Gabor变换。其中ε(i,j)为滤波后像素(i,j)的图像,θ(i,j)为F在像素(i,j)的梯度方向,f(i,j)为像素(i,j)在纹线梯度方向上的频率,m为在F进行Gabor分析的维度,这里取w=0,1,…,4。

(5)

步骤4对统计得到的40组Gabor信号,构建矩阵G5×8=[G0,…,Gi,…,G7],列向量Gi为ε(i,j)在对应角度i下的5个维度Gabor直方图统计信号。

步骤5分别对Gi求模得到S=[‖G0‖,…,‖Gi‖,…,‖G7‖]。

步骤6为忽略人脸细节信息,根据θ在5个维度m上对人脸外形轮廓的影响力,设权值η=[0.25,0.05,0.15,0.05,0.25,0.05,0.15,0.05]。

步骤9对F″按式(4)构建协方差矩阵,其中x=(x0,…,xi,…,xN-1)T,N为训练样本集中样本个数,xi=(F″i(0,0),…,F″i(k-1,h-1)),xi为一维k×h行向量,k和h分别为图像F″的宽和高。

(6)

步骤11鉴于协方差矩阵C的维数为kh×kh,计算量太大,故对C进行SVD[15]。计算ATA的特征值λi及其正交归一化特征向量νi。

步骤12按式(7)计算特征值的贡献率,其中p为有效的特征值个数,α=0.99。

(7)

步骤14按式(8)计算图像F的重构图像Ff。

(8)

步骤15计算F与Ff的差Fc,并按式(9)计算补偿图像Fr,其中,当F=Fc时δ=0,当F≠Fc时δ=1。

Fr=δF+(1-δ)Ff

(9)

步骤16按式(10)计算相邻两次重构图像之间的距离ε,如果ε≥0.99进入步骤17;否则,令F=Ff并进入步骤9。

ε=‖Ffi-Ffi-1‖2

(10)

步骤17结束。

3试验及分析

3.1训练样本集选择和SVD分析

实验一首先验证本文算法对训练样本集选择的有效性,为下两个实验打下基础。这里为了凸显训练样本集对重构图像的影响力,对样本集图像采集的随意性进行最大限度的放大。如图3所示,样本集图像在尺寸、光照强度、衣着款式、发型、面部拍摄角度等都存在差异,这是符合“智慧城市”应用背景的实际情况的。要知道,“智慧城市”各领域收集到的图像格式不可能统一,这除了需要我们构建强大的大数据中心以便提供有效的训练样本集外,更要求算法自身具有区别力。

图3 多样性的样本集图像

图4(a)为待重构原始图像F,图5为F经由本文所提Gabor直方图分析后得到的其中一组信号,可以看出当θ=0°、90°时,包含的外形等轮廓信息最为丰富;当θ=45°、135°时,也包含较为丰富的轮廓信息;而当θ=22.5°、67.5°、112.5°、157.5°时,包含的信息大多为面部等细节,这就是为什么η=[0.25,0.05,0.15,0.05,0.25,0.05,0.15,0.05]的原因。

图4(b)和(c)分别为样本集数量为35和280时,将F直接进行PCA主元分析后的重构情况。从效果图可以非常直观的看出,由于样本集没有经过筛选且在PCA主元分析时没有进行SVD重构协方差矩阵,图4(b)重构得到的Ff完全被噪声淹没,仅能通过肉眼区分出Ff存在一个人形轮廓,F直方图原有的信息也完全畸变;幸运的是,图4(b)由于样本少,所以Ff出现局部最大化的症状不太多。图4(c)由于样本集数目较大,Ff得到提升,人形轮廓较图4(b)清晰,但是局部最大化的症状比图4(b)严重。

图4(d)为先由本算法进行Gabor直方图分析构建与F在外形轮廓等粗信息大致匹配的数量同样为35的训练样本集后,F直接进行PCA主元分析。可以看出,由于经过筛选,构建的训练样本集在轮廓上大致符合长发、面孔居于图像中上位置等粗信息,得到的Ff从视觉上已经能清晰分辨出和F依稀相似,但是由于没有经过SVD重构,部分Ff还是陷入局部最大化。图4(e)为完全按照本文设计的算法先进行粗选,得到同样为280的训练样本集,并由SVD重构后才进行PCA分析后。从视觉上看,人脸面部信息完整、清晰,和F相差无几。波形也与F的直方图大致相似,并且训练样本集的增大,Ff也没有陷入局部最大化,只是包含少量噪声。说明本算法对样本集的选择是成功的,所构建的训练样本集在用于本文下面要进行的人脸障碍物清除中是有效的。

图4 Gabor-PCA训练样本集选择和SVD分析

图5 w=4时,F在8个θ方向的投影值

3.2Gabor-PCA分析

下面要进行的两个实验都是“标准”实验,即已经经过本算法构建训练样本集。图6(a)为待重构原始图像F,图6(b)为经过本文算法重构后的Ff,从两者的直方图可以看出,F经过与训练样本集的投影,得到的Ff明显将F的重建误差和噪声分散整个重建信号。F直方图最右边的孤立“小山丘”为噪声信号,而Ff直方图最右边的“小山丘”已经被弱化,不仅如此,F直方图最左边的“次要”信号也被相应分散。但是从Ff的整体效果来看,还不理想,视觉效果还比较差,部分细节信息比较模糊,因此需要继续轮回迭代。

图6(c)为Fc,图6(d)为补偿图像Fr,按照本文算法,面部遮挡物部分用Ff替代,其余沿用F,从视觉效果来看,依稀可见眼睛边框和面部“色斑”,这是由于Ff只进行一次主元SVD分析,噪声依旧太多的缘故。图6(e)为第二次迭代得到的Ff,从直方图来看,有效信息所在的“大山丘”更为平滑,其余噪声信号也得到了进一步削弱;图6(f)为经过17次迭代后得到的最终Ff,图6(g)为最终的输出图像,从视觉效果和直方图来看,很好地达到了“遮挡物清除”的目的。

图6 Gabor-PCA分析

3.3人脸遮挡物清除

本实验旨在验证本文所提算法的普适性。本实验选取几个典型的例子,应用本文所提算法进行人脸遮挡物清除,并用adaboost人脸检测算法来进行正确率验证和耗时分析。图7(a)为大胡子的男性,经过本文算法分析后“剃掉”了胡子;图7(b)为戴有眼镜和耳坠的女性,输出为一副“标准、干净”的图像:没配戴眼镜、无面部饰物;图7(c)~(f)分别为拍摄光照昏暗、佩戴墨镜、“侧脸”和长头发的人脸图像,值得一提的是,图7(f)为戴眼镜的长头发男性,输出图像不仅摘掉了眼睛,更“剪掉”了头发,为下一步的匹配打下更坚实的基础。

图7 本文算法的普适性

以2400个原始人脸样本为样本库一(即未经本文算法处理的人脸库),经过本文算法处理后的这2400个样本为样本库二,分别应用adaboost人脸检测算法来对这2组样本进行单一身份识别来比较错误率和耗时。明显的,图8(a)中未经本文算法处理的错误率要高于经过本文算法处理后的错误率,这是因为经过本文所提的改进Gabor-PCA分析重构的人脸信号更为收敛。从图8(b)可以看出,由于adaboost方法为非阈值检测,而是对所有样本进行识别后依据最高相似度匹配唯一对象,因此耗时会随着样本的增加而呈上升趋势,但是随着样本数的递增,adaboost识别未经本文算法处理的样本耗时增速较快,而经过本文算法处理后的耗时增速平缓。

图8 未经本文算法处理和经过本文算法处理后的adaboost识别效果对比

4结语

本文拟作为“智慧南宁”建设的一个试点项目,具有前瞻性和探索性,提出的改进Gabor-PCA分析重构的人脸遮挡物清除算法为整个试点项目打开缺口。针对样本集的多样性,算法具有自主选择性,构建符合外形轮廓要求的训练样本集,并通过SVD进行二次缩短计算耗时,最终达到清除人脸遮挡物的目的。只要大数据中心有足够的样本可供选择,算法的可行性就有保障,但是,通过长时间的实验,我们发现,PCA主元分析中的对称矩阵分解的方法选择决定最终的计算耗时,目前能应用于计算机的最快的分解方法是QR分解,本文所用的方法也是基于此。但是,当输入图像尺寸接近2200×1800像素或训练样本集大于22 600时,算法耗时难以容忍,这需要特殊硬件编解码,因此,“智慧南宁”建设的下一步应先加强基础设施和配套硬件建设,为信息化项目在南宁市的铺开提供有力的保证。

参考文献

[1] 朱虹.我国智慧城市发展现状及标准化建设思考[J].标准科学,2013(10):10-13.

[2] 段淑敏.智慧城市关键技术研究[J].电子世界,2013(21):82-83.

[3] 谢卫民.智慧城市瓶颈分析及对策研究[J].信息通信,2013(9):168-169.

[4] 杨京英,陈彦玲.智慧城市发展指数研究[J].调研世界,2013(11):8-14.

[5] 袁远明.智慧城市信息系统关键技术研究[D].武汉:武汉大学,2012.

[6] 姜文涛,刘万军,袁姮.一种基于曲量场空间的人脸识别算法[J].计算机学报,2012,35(8):1739-1750.

[7] 苏煜,山世光,陈熙霖.基于全局和局部特征集成的人脸识别[J].软件学报,2010,21(8):1849-1862.

[8] 杨利平,龚卫国,辜小花,等.完备鉴别保局投影人脸识别算法[J].软件学报,2010,21(6):1277-1286.

[9] M S Bartlett,J R Movellan,T J Sejnowski.Face recognitiong by independent component analysis[J].IEEE Transactions on Neural Networks,2002,13(6):1450-1464.

[10] 朱玉莲,陈松灿.特征采样和特征融合的子图像人脸识别方法[J].软件学报,2012,23(12):3209-3220.

[11] 余洁,刘利敏,李小娟.利用ICA算法进行全极化SAR影像滤波研究[J].武汉大学学报:信息科学版,2013,2(2):1945-1950.

[12] 卢桂馥,林忠,金忠.基于核化图嵌入的最佳鉴别分析与人脸识别[J].软件学报,2011,22(7):1561-1570.

[13] 张宝昌,陈熙霖,山世光.基于支持向量的Kernel判别分析[J].计算机学报,2006,29(12):1561-1570.

[14] 张文超.局部Gabor二值模式人脸表示与识别方法研究[D].哈尔滨:哈尔滨工业大学,2007.

[15] 陈金西.基于PCA人脸识别系统设计与实现[J].厦门理工学院学报,2013,21(3):40-44.

[16] 史郡,王晓华.基于改进K-SVD字典学习的超分辨率图像重构[J].电子学报,2013,41(5):997-1000.

收稿日期:2014-12-03。南宁市城市应急联动指挥系统升级项目(NNZC2010-1441A);南宁市城市公共安全与社会综合服务系统人才小高地项目(2011020)。毛贤光,高工,主研领域:信息架构,信息模块化设计。李罕,高工。李云欣,高工。高静,工程师。

中图分类号TP391.4

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.07.054

ELIMINATING FACE OCCLUDED AREA BASED ON IMPROVED GABOR AND PCA ANALYSIS RECONSTRUCTION

Mao Xianguang1,2Li Han2Li Yunxin2Gao Jing3

1(NanningCommitteeofIndustryandInformationTechnology,Nanning530028,Guangxi,China)2(NanningCityEmergencyandResponseCenter,Nanning530021,Guangxi,China)3(GuangxiCommunicationPlanningandDesignConsultingCo.,Ltd.,Nanning530007,Guangxi,China)

AbstractWhen practically applying to the construction of “Smart Nanning City” project, multiple training samples are easy to leading the face reconstruction to falling into local maximum and to severe time consuming in covariance matrix decomposition. In order to solve these problems, this paper presents a face occluded area elimination algorithm which is based on Gabor and PCA analysis reconstruction. In the phase of training sample set selection, by constructing a 5-dimensional and 8-directional Gabor histogram information classifier we select the images from face database which have closer rough information such as the figure outlines between the Gabor histogram information and original face to be reconstructed for forming the training sample set. Meanwhile, when making PCA analysis, we use SVD (singular value decomposition) to reduce the dimensionality of covariance matrix, so as to reach the goal of decreasing time cost. Experiment proves that along with the increase of training sample sets, the algorithm has high adaptability to various faces, moreover, the derived face image with the occluded area eliminated is clear, does not have the phenomenon of local maximum, highly matches the original image, and possesses the capability of putting into practical use.

KeywordsSmart Nanning CityFace reconstructionGaborTraining sample setPCASVD

猜你喜欢

训练样本直方图人脸
符合差分隐私的流数据统计直方图发布
有特点的人脸
一起学画人脸
人工智能
用直方图控制画面影调
三国漫——人脸解锁
中考频数分布直方图题型展示
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法