APP下载

基于多区域融合的表情鲁棒三维人脸识别算法

2019-08-27桑高丽闫超朱蓉

计算机应用 2019年6期

桑高丽 闫超 朱蓉

摘 要:为了实现三维人脸识别算法对表情变化的鲁棒性,提出一种基于语义对齐的多区域模板融合三维人脸识别算法。首先,为了实现三维人脸在语义上的对齐,将所有三维人脸模型与预定义标准参考模型做稠密对齐。然后,根据人脸表情具有区域性的特点,为了不受限于区域划分的精准度,提出基于多区域模板的相似度预测方法。最后,采用多数投票法将多个分类器的预测结果融合得到最终识别结果。实验结果表明,在FRGC v2.0表情三维人脸数据库上所提算法可以达到98.69%的rank-1识别率,在含有遮挡变化的Bosphorus数据库上该算法达到84.36%的rank-1识别率。

关键词:表情变化;三维人脸识别;多区域模板;多数投票

中图分类号: TP391.4

文献标志码:A

Abstract: In order to realize the robustness of three-Dimensional (3D) face recognition algorithm to expression variations, a multi-region template fusion 3D face recognition algorithm based on semantic alignment was proposed. Firstly, in order to guarantee the semantic alignment of 3D faces, all the 3D face models were densely aligned with a pre-defined standard reference 3D face model. Then, considering the expressions were regional, to be robust to region division, a multi-region template based similarity prediction method was proposed. Finally, all the prediction results of multiple classifiers were fused by majority voting method. The experimental results show that, the proposed algorithm can achieve the rank-1 face recognition rate of 98.69% on FRGC (the Face Recognition Grand Challenge) v2.0 expression 3D face database and rank-1 face recognition rate of 84.36% on Bosphorus database with occlusion change.

Key words: expression variation; three-Dimensional (3D) face recognition; multi-region template; majority voting

0 引言

人脸识别在公安刑侦、国家安全、市场金融等诸多领域具有广泛的应用前景。然而,鉴于三维(three-Dimensional, 3D)人脸本身的可形变特性以及易受不同表情变化的影响,研究对表情鲁棒的人脸识别算法一直都是三维人脸识别领域的研究热点和难点问题[1]。

目前,表情鲁棒的三维人脸识别方法主要分为统计模型方法(Statistical methods) [2-4]、同等形变模型方法(Isometric deformation modeling)[5-8]和基于区域的方法(region-based methods)[9-13]。统计模型方法即通过构建统计模型对表情变化引起的面部软组织形变关系进行刻画,算法的精度和鲁棒程度受训练统计模型所采用的三维人脸库的表情变化多样性、数据质量等影响。同等形变模型方法即将表情变化引起的三维人脸形变转化为等距形变问题建模[4],将表情变化近似为等距形变,用等距形变特征近似表情变化特征。同等形变的方法通过弱化表情变化引起的三维形变达到表情鲁棒;然而,同等形变一定程度上也弱化了人脸原有三维结构。由于表情变化呈现局部性,相较上述整体类方法,基于区域类方法表现出更多的灵活性和稳定性。基于區域的表情不变三维人脸识别方法即结合人脸表情的分布特点,将人脸区域划分为表情易变和表情不变区域,然后分别针对表情不变和表情易变区域设计不同的相似度匹配策略。传统基于区域类方法[9-13]如依据关键特征点位置进行人脸区域划分。此类方法将表情不变区域和表情易变区域分开处理,对表情变化具有较强的适应性,但是前提是表情不变和表情易变区域的划分要准确,否则将直接影响此类方法的整体准确度。

针对基于区域算法存在的比较依赖区域划分精准度以及没有充分利用整个人脸区域的问题,本文提出了基于语义对齐的多区域融合三维人脸识别方法。相较于以往基于区域类表情不变人脸识别方法,首先,本文提出的基于多模板区域划分方法不需要面部特征点辅助,同时多模板区域相互独立进行相似度预测,也缓解了算法对单一区域精准划分的依赖性;另外,基于多区域模板共同投票策略,不光对表情鲁棒,对其他受区域影响因素(如遮挡)也具有一定的鲁棒性。

1 三维人脸模型的自动预处理

人脸识别主要针对人脸区域,因此,首先要获得精准的人脸区域。为了获得较为可靠的人脸区域,首先介绍本文采用的三维人脸模型的预处理过程,如图1所示,主要包括鼻尖点自动检测、三维人脸切割,以及姿态矫正和点云稠密对齐等。

针对三维人脸鼻尖点的自动检测算法有很多。早期,采集三维人脸模型多为正面姿态,可根据采集对象与三维扫描仪之间的位置关系,将距离扫描仪最近的点即人脸上最高的点视为鼻尖点,如Chang等[14]、Sang等[15]。对于更一般的情况,Chew等[16]提出了基于曲率的鼻尖点自动检测方法。该鼻尖点检测方法[17]不依赖某一点的曲率,对鼻尖数据偶有缺失具有较强的鲁棒性。本文采用Chew等[16]提出的方法自动检测鼻尖点。

以鼻尖点为中心,计算任意点(x,y,z)与鼻尖点(x0,y0,z0)的测地线距离d,若d≤100mm,则保留该点到人脸区域;若d>100mm,则丢弃该点,依次剪切出整个人脸区域。利用测地线距离剪切得到的人脸,既包括尽可能多的人脸表面信息,同时又包括较少的背景信息。

为了对所有人脸数据在相同坐标系下进行比对,本文借助参考模型(Reference model)进行实现。参考模型应具备平均人脸的基本形态[15],本文采用北京工业大学三维人脸数据库BJUT(BeiJing University of Technology)-3D[18]中已对齐的中性三维人脸数据的平均人脸表示。然后,将所有注册三维人脸和待测试三维人脸与该参考模型通过最近点迭代(Iterative Closest Point, ICP)法[18]进行姿态矫正。

由于姿态、遮挡、三维扫描仪计算错误等原因,姿态矫正后的三维人脸可能存在部分数据缺失。本文采用对称填补的方法对缺失人脸数据进行填补,即假设人脸是对称的,缺失的部分数据使用相应的对称进行填补。

最后,为了确保三维人脸模型与参考模型间具有严密的语义对应关系,便于后续比对,本文采用基于ICP的公开代码包——非刚性对齐(nonrigid registration)方法[19]将所有三维人脸模型与参考模型进行稠密对齐。此对齐方法只需要初始对齐点(鼻尖点),对人脸模型其他部分区域存在遮挡等鲁棒。

2 本文算法

以往基于区域划分的表情鲁棒三维人脸识别算法很难将表情不变区域与表情易变区域准确划分,主要有两方面原因:首先,人脸区域的划分通常依赖面部特征点的准确定位,而三维人脸特征点的定位又是一个尚未完全解决的问题;其次,对于不同对象三维人脸,很难严格界定表情不变和表情易变区域。因此,针对上述分析,为了解决以往算法对区域划分敏感的问题,本文根据先验,提出将人脸区域预划分为多个可重叠的模板区域,通过预先定义多模板区域的方法,不但有效缓解了区域难定义以及区域划分不准确的问题(最后结果由多数投票结果决定,对少数受表情影响较大区域导致错误投票结果具有一定的鲁棒(容忍)性),本文提出的多区域模板共同投票机制,对其他诸如遮挡因素也表现出良好的鲁棒性;然后,针对每个模板区域,在人脸的三维结构上直接计算模板区域间的相似度并独立给出匹配结果;最后,综合多个区域匹配结果,采用多数投票的方式确定最终的匹配结果。本文所提出的基于语义对齐的多区域融合表情鲁棒三维人脸识别算法总的算法流程如图2所示。

2.1 多区域模板设计

不同于以往方法根据面部特征点将三维人脸划分为多个表情不变和表情易变区域[9-11],本文提出基于语义对齐的多区域人脸划分方法。如前文预处理部分所述,所有注册和待识别三维人脸模型都与参考模型进行了稠密对齐,即对齐之后的三维人脸拥有相同的点数、相同的拓扑结构,并且各点之间存在语义上的一一对应关系。

受表情、遮挡等因素的影响,即使经过语义对齐的三维人脸模型,也无法避免由于局部形變导致的同一对象(类内)的相似度差异大于不同对象(类间)间的相似度的问题。为了减小局部区域形变严重进而影响整体区域相似度计算的问题,以往算法大多将人脸划分为互不重叠的多个局部区域。考虑一般局部区域的区分度也小,即使融合多个局部区域对整张人脸识别能力依然有限,因此本文提出基于易受表情影响区域特性,将人脸区域划分为多个不含表情影响的模板区域再分别进行匹配,即基于多模板区域的投票策略。依据易受表情影响区域设计的多表情影响区域去除的模板,既有效避免了以往依赖特征点的区域划分问题,同时也得到了多个相对可靠的区域分类器。本文在参考模型上采用的三维模板区域投影如图3 所示,共计24个模板,白色代表模板包含数据,黑色代表模板不包含数据,其中模版(1)为全脸模版。

人脸主要包括眼睛、额头、鼻子、嘴巴、脸颊等区域,不同区域受表情影响程度不同,如通常认为额头、鼻子受表情影响较小,但额头易受帽子、头发等遮挡的影响;眼睛区域易受表情或眼镜遮挡的影响;嘴巴和脸颊受表情影响最大。但是,考虑不同对象受表情影响区域不同,不同表情影响人脸区域亦不同,因此,本文提出了基于局部区域的不同区域模板划分方法。模板设计思想为:将人脸按照易受表情影响区域划分为多个不同的模板区域,对于某一对象的某种表情,显然,受表情影响小的同一对象区域之间具有较大的相似度,而部分受表情影响较大的区域则倾向具有较小的相似度;最终的投票结果由多数相似度较大区域投票得到最终识别结果,即受表情影响较小区域决定,因此,该多区域模板融合方法不但对表情遮挡有一定的鲁棒性,同时对区域划分具有很强的容忍性。

2.2 区域相似度分类

区域相似度就是将待测试三维人脸与注册库中三维人脸之间进行相似度比较,相似度值最大的最相似。本文共使用24个区域模板,针对每个模板区域内的三维人脸信息,都独立进行相似度计算。为了保证算法整体的运行速度以及避免损失三维人脸结构信息,本文定义人脸区域语义对应坐标点的欧氏距离平方和作为两人脸区域的相似度值,即:

2.3 多模板区域分类融合

关于多分类器融合的方法有很多,如分数级融合、决策级融合等。本文选用后者,并按照多数投票机制对多模板分类器投票结果进行融合。主要基于以下两方面考虑:首先,根据人脸特性将人脸划分为不同的区域,每个区域之间是相互独立的,因此,分类结果也应该相互独立;其次,当人脸受表情、遮挡等因素影响比较严重时,受影响严重的这些区域必然具有较小的相似度,而受影响较小的人脸区域仍然可以得到较高的相似度,每个区域分别单独投票的好处是少数受影响区域的投票结果并不影响其他不受影响的区域获得准确的分类。

1)确定三维人脸数据库的注册人脸和测试人脸数据集,其中注册人脸数据集包含每人1个中性表情三维人脸数据。

2)对所有注册人脸和测试人脸数据集进行预处理,并执行稠密对齐。

3)计算测试人脸与注册人脸多区域模板的相似度及投票结果。

4)对多区域模板投票进行多数投票融合。

3 实验与结果分析

3.1 数据库及实验设置

为了测试所提出算法的有效性,分别在FRGC(the Face Recognition Grand Challenge) v2.0和Bosphorus两个三维人脸数据库上对算法进行评估。

FRGC v2.0三维人脸数据库[20]:包含不同表情(六种表情变化)、姿态、年龄共466人的4007个三维人脸模型。

Bosphorus数据库[21]:含有姿态、表情、遮挡变化的105人,共4666个三维人脸模型。每人包括13种不同姿态、除中性表情以外的6种不同表情以及4种不同程度的遮挡。

实验中所有用到的三维人脸模型首先按照第1章介紹的预处理过程进行鼻尖点检测、切割人脸区域、姿态矫正、数据填补以及稠密对齐。

为了便于与其他方法进行比较,本文的评价指标选用rank-1识别率,即在识别测试过程中,第一次命中(最相似人脸即为正确人脸)正确人脸的概率之和。

3.2 阈值确定

衡量人脸识别算法性能常用的指标是EER(Equal Error Rate),即当FAR与FRR(False Rejection Rate)相等时的取值。EER值越小,表明识别算法性能越好、越稳定。本文共有Ti(i=1,2,… ,24)和Tv共25个阈值需要确定。

从图4(a)不难看出,模板6性能最差(对应最大的EER值),模板18性能最好(对应最小EER值)。这是由于:模板6包括了人脸的嘴巴和脸颊区域,而嘴巴和脸颊是受表情影响最大区域;而模板18则包含人脸的额头和鼻子区域,这部分是受表情影响较小区域。分析其他区域也不难发现,一般模板区域较小,达到的EER值也较小,如区域13、14、22、23、24,即是受表情变化较小的鼻子区域,这也是本文预定义有重叠多区域模板的合理之处;而包含脸颊或嘴巴区域的,一般达到的EER都相对较大,如区域6、8、21等。

3.3 FRGC v2.0数据库实验结果

注册集包含466人的第一个中性表情三维人脸数据,其余3541(包括1984个中性表情,1557个非中性表情)个人脸数据组成该实验的测试集。

为了便于与当前最新的基于区域类方法如EI3D(Expression-Invariant 3D)[12]、Spherical[13]、A-SRC(Adaptive Sparse Representation-based Classifier)[22],以及基于同等形变类方法如3DWW(3D Weighted Walkthroughs) [6]、Curvature-based [10]等方法进行比较,本文仅计算本文算法的rank-1识别率,即在识别测试过程中,第一次命中(最相似人脸即为正确人脸)正确人脸的概率之和。

图6给出了本文算法在FRGC v2.0上的CMC(Cumulative Match Characteristic)曲线,可以看出,该算法达到了98.69%的rank-1识别率。表1给出了不同算法分别在FRGC v2.0数据库中含具有表情变化的三维人脸识别库上分别达到的rank-1识别率。

由表1不难看出,同等条件下,不管是相较于基于同等形变的方法3DWW[6]、Curvature-based[10],还是基于不重叠多区域方法EI3D[12]、 Spherical[13]、A-SRC[22],本文算法都取得了最高的人脸识别率。原因是:基于同等形变方法将人脸表情的变化通过等距变化来刻画,对于非刚性区域,显然表情引起的三维形变不是等距的,因此,很难得到满意的效果;相较其他基于区域的方法,本文算法不依赖特征点定位进行区域分割,同时,本文采用多数投票机制对区域划分体现了较强的容忍度和鲁棒性。

3.4 Bosphorus数据库上实验结果

为了更进一步验证本文算法对遮挡因素的有效性,本文还选择在包含遮挡变化的Bosphorus三维人脸数据库上进行验证。注册集包含105人的一个中性表情三维人脸数据,其余每人4个含有遮挡(分别为手、头发和眼镜遮挡)的三维人脸数据组成该实验的测试集。

对于三维人脸模型存在遮挡的问题,通常的处理是首先检测出人脸遮挡区域,然后再利用其他先验模型重建出遮挡区域人脸。如文献[23]算法,首先将三维人脸转换为二维深度图,在深度图上通过检测最亮的点及阈值范围内的连通区域法检测遮挡区域,然后对遮挡区域使用主成分分析(Principal Component Analysis, PCA)对遮挡区域进行重建。而文献[24]算法,则将遮挡人脸与平均人脸对齐,对齐后的人脸区域如果大于某以固定阈值就被认为是遮挡区域并丢弃,然后采用切线PCA以及Gaussion模型相结合对遮挡区域进行重建。这两个对比方法在检测遮挡人脸区域时,都需要确定阈值,阈值的大小直接影响检测遮挡区域的多少,而且,固定的阈值也很难适应实际应用种的各种遮挡情况,缺乏灵活性。本文提出的算法不需要检测遮挡区域,而是通过预定于多模板区域共同投票,最后选择多区域数投票统计法决定最终的识别结果。类似于表情情况,不难发现:模板中受遮挡影响严重的区域必然具有较小的相似度,而受遮挡影响较小的区域则具有较高的相似度,多数投票机制使得受遮挡影响较小区域更有发言权,从而提出的算法对遮挡也表现出一定的鲁棒性。

表2给出了本文算法法及对比算法[23-24]在Bosphorus数据库存在遮挡情况下达到的rank-1识别率。由表2可以看出,本文算法取得了84.36%的rank-1识别率,比现有较好的文献[24]算法提高了5.73个百分点。表2结果表明,本文算对遮挡因素也具有很强的鲁棒性,而且本文算法不需要对遮挡区域检测和重建,具有良好的灵活性。

4 結语

针对表情对三维人脸模型的影响而导致人脸识别算法性能下降的问题,本文提出了基于语义对齐的多区域融合的表情鲁棒三维人脸识别算法。该算法借助一个参考模型实现所有三维人脸模型的预处理及模型之间的语义对齐;然后,依据表情对人脸影响,设计多个独立的有重叠的人脸区域,在每个模板区域内分别计算区域相似度并投票;最后,采用多数投票法决定最终的识别结果。在FRGC v2.0和Bosphorus两个三维人脸数据库上的实验结果表明,本文算法不但对表情变化鲁棒,对遮挡也有很好的鲁棒性。我们的下一步工作将研究设计更加有效的区域模板,并在更多、更复杂三维人脸数据库上进行验证。

参考文献 (References)

[1] 王跃明,潘纲,吴朝晖.三维人脸识别研究综述[J].计算机辅助设计与图形学学报,2008,20(7):819-829.(WANG Y M, PAN G, WU Z H. A survey of 3D face recognition [J]. Journal of Computer Aided design & Computer Graphics, 2008, 20(7): 819-829.)

[2] Al-OSAIMI F, BENNAMOUN M, MIAN A. Expression-invariant non-rigid 3D face recognition: a robust approach to expression-aware morphing [C]// Proceedings of the 4th International Symposium on 3D Data Processing, Visualization, and Transmission. Piscataway, NJ: IEEE, 2008: 19-26.

[3] MPIPERIS I, MALASSIOTIS S, STRINTZIS M G. Expression-compensated 3D face recognition with geodesically aligned bilinear models [C]// Proceedings of the 2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE, 2008: 1-6.

[4] KAUSHIK V D, BUDHWAR A, DUBEY A, et al. An efficient 3D face recognition algorithm [C]// NTMS 2009: Proceedings of the 3rd International Conference on New Technologies, Mobility and Security. Piscataway, NJ: IEEE,2009: 259-263.

[5] BRONSTEIN A M, BRONSTEIN M M, KIMMEL R. Expression-invariant representations of faces [J]. IEEE Transactions on Image Processing, 2007, 16(1): 188-197.

[6] JAHANBIN S, CHOI H, LIU Y, et al. Three dimensional face recognition using iso-geodesic and iso-depth curves [C]// BTAS 2008: Proceedings of the 2008 IEEE Second International Conference on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE, 2008: 1-6.

[7] BERRETTI S, DEL BIMBO A, PALA P. 3D face recognition using isogeodesic stripes [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(12): 2162-2177.

[8] DRIRA H, BEN AMOR B, DAOUDI M, et al. Pose and expression-invariant 3d face recognition using elastic radial curves [C]// Proceedings of the 2010 British Machine Vision Conference. Durham, UK: BMVA Press, 2010: 1-11.

[9] BERRETTI S, del BIMBO A, PALA P, et al. A set of selected SIFT features for 3D facial expression recognition [C]// ICPR 2010: Proceedings of the 2010 20th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 4125-4128.

[10] ALYUZ N, GOKBERK B, AKARUN L. Regional registration for expression resistant 3-D face recognition [J]. IEEE Transactions on Information Forensics and Security, 2010, 5(3): 425-440.

[11] SMEETS D, KEUSTERMANS J, VANDERMEULEN D, et al. meshSIFT: Local surface features for 3D face recognition under expression variations and partial data [J]. Computer Vision and Image Understanding, 2013, 117(2): 158-169.

[12] GUO Y L, LEI Y J, LIU L, et al. EI3D: Expression-invariant 3D face recognition based on feature and shape matching [J]. Pattern Recognition Letters, 2016, 83(Part 3): 403-412.

[13] EMAMBAKHSH M, EVANS A. Nasal patches and curves for expression-robust 3D face recognition [J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2017, 39(5): 995-1007.

[14] CHANG K I, BOWYER K W, FLYNN P J. Multiple nose region matching for 3D face recognition under varying facial expression [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10): 1695-1700.

[15] SANG G L, LI J, ZHAO Q J. Pose-invariant face recognition via RGB-D images [J]. Computational Intelligence and Neuroscience, 2016(3): 1-9.

[16] CHEW W J, SENG K P, ANG L M. Nose tip detection on a three-dimensional face range image invariant to head pose [C]// Proceedings of the 2009 International MultiConference of Engineers and Computer Scientists. Hong Kong: International Association of Engineers, 2009:858-862.

[17] SPREEUWERS L J, VELDHUIS R N J, SULTANALI S, et al. Fixed FAR vote fusion of regional facial classifiers [C]// BIOSIG 2014: Proceedings of the 2014 International Conference of the BIOmetrics Special Interest Group. Piscataway, NJ: IEEE, 2014: 187-194.

[18] 尹寶才,孙艳丰,王成章,等.BJUT-3D三维人脸数据库及其处理技术[J].计算机研究与发展,2009,46(6):1009-1018.(YIN B C, SUN Y F, WANG C Z, et al. BJUT-3D large scale 3D face database and information processing [J]. Journal of Computer Research and Development, 2009, 46(6):1009-1018.)

[19] AMBERG B, ROMDHANI S, VETTER T. Optimal step nonrigid ICP algorithms for surface registration [C]// CVPR 2007: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8.

[20] WANG Y M, PAN G, WU Z H. 3D face recognition in the presence of expression: a guidance-based constraint deformation approach [C]// CVPR 2007: Proceedings of the 2007 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1180-1187.

[21] SAVRAN A, ALYUZ N, DIBEKLIOGLU H, et al. Bosphorus database for 3D face analysis [C]// Proceedings of the 2008 European Workshop on Biometrics and Identity Management, LNCS 5372. Berlin: Springer, 2008: 47-56.

[22] DENG X, DA F P, SHAO H J. Adaptive feature selection based on reconstruction residual and accurately located landmarks for expression-robust 3D face recognition [J]. Signal, Image and Video Processing, 2017, 11(7): 1305-1312.

[23] BAGCHI P, BHATTACHARJEE D, NASIPURI M. Robust 3D face recognition in presence of pose and partial occlusions or missing parts [J]. International Journal in Foundations of Computer Science & Technology, 2014, 4(4): 21-35.

[24] GANGULY S, BHATTACHARJEE D, NASIPURI M. Depth based occlusion detection and localization from 3D face image [J]. International Journal of Image, Graphics & Signal Processing, 2015, 7(5): 20-31.