基于多尺度Gabor特征的三维人脸识别方法
2013-03-22邹红艳达飞鹏王朝阳
邹红艳 达飞鹏 王朝阳
(1东南大学自动化学院,南京210096)
(2南京林业大学机械电子工程学院,南京210037)
人脸是人类固有的、随着生命的成长持续稳定的生物特征.近年来,随着三维数据采集技术的发展,基于三维人脸模型的识别技术得到迅速发展.三维形状采集设备对光照变化的鲁棒性和三维点云的对齐算法使三维人脸模型不受光照和姿态变化的影响,但是表情变化带来的非刚性形变是目前三维人脸识别技术最大的挑战之一[1-2].
三维人脸识别方法致力于提取具有身份表征性以及表情不变性的识别特征来保持类间差异并缩小类内差异.受二维人脸识别方法启发,一些三维人脸识别方法将三维人脸模型映射至深度图像或EGI(extended Gaussian image)图像,然后利用二维人脸识别的方法实现三维人脸识别.Hesher等[3]在三维人脸模型的深度图像上分别进行PCA(principal component analysis)和ICA(independent component analysis)处理,然后用最近邻分类器对相似度进行分类.Srivastava等[4]将三维人脸的深度图像映射至利用格拉斯曼流形(Grassmann manifold)的随机最优算法训练的子空间,再用最近邻分类器或支持向量机进行分类,得到了优于PCA和ICA算法的识别结果.
Gabor变换是广泛应用于图像处理、计算机视觉、模式识别等领域的图像分析工具.Daugman[5]指出Gabor核函数的结构特征与哺乳动物视网膜细胞类似,能够捕捉不同的空间频率、空间位置以及方向性等局部结构信息.Cook等[6]使用log-Gabor滤波器分解三维人脸模型的深度图像和灰度图像,然后用PCA方法将分解后的图像特征降维,最后用Mahalinobis余弦距离计算相似度.Xu等[7]对三维人脸模型的深度图像和灰度图像进行Gabor变换,然后用基于LDA以及AdaBoost学习方法的级联分类器选择具有表情不变性的Gabor响应系数.
几何图像(geometry image)不仅保留了点集的空间坐标信息,同时包含了三维网格的拓扑信息.本文用多尺度Gabor变换将三维人脸的几何图像分解为不同尺度下包含不同频率、不同方向人脸信息的Gabor响应,提取各尺度下的垂直低频Gabor响应作为三维人脸的Gabor特征,然后计算多尺度Gabor特征的相似度来识别人脸.大量的实验证明多尺度Gabor特征不仅很好地保持了三维人脸的类间差异,而且大大缩小了表情变化带来的类内差异,因此本文提取的特征具有较好的身份表征性.
1 三维人脸预处理与几何图像生成
本文实验中采用的FRGC (face recognition grand challenge) v2.0数据库三维人脸模型是三维空间中8×104~13×104个点构成的点云,其中每个点由x,y,z坐标唯一表示.根据各点的形状指数(shape index, SI)[8]以及几何约束定位鼻尖点,然后采用文献[9]中的方法获得人脸脸部区域并进行姿态校正,使三维人脸在统一坐标系下具有相同的正面姿态(见图1(a)).对脸部区域的点云三角化并用基于网格的平滑算法去除噪声,最后将受表情影响最大的嘴部区域切除,得到光滑的上半张人脸模型(见图1(b)).
将预处理后的三维人脸模型映射至平面上的参数化网格.即把空间三维网格的边界点均匀地映射到平面上一个128×128像素大小的正方形的四条边上,把非边界点映射到正方形内部.空间三维网格的顶点记为v=(x,y,z),拉普拉斯矩阵L=D-A.其中,A为顶点的邻接矩阵,A=(aij),当点vi与点vj相连时aij为1,否则为0;D为对角矩阵,位置(i,i)的值为顶点vi的度.
图1 预处理与几何图像生成
(1)
2 Gabor特征
2.1 Gabor变换
Gabor滤波器是高斯包络函数约束的正弦曲线,其实质是一组带通滤波器,表达式如下:
(2)
式中,u=xcosθ+ysinθ,v=-xsinθ+ycosθ,θ为核函数的滤波方向;σu和σv分别为高斯包络在u轴和v轴上的标准差,决定了二维Gabor滤波掩模的大小;ω为用于调制核函数的中心频率.
用具有不同调制频率、掩模尺寸以及滤波方向的Gabor滤波器对几何图像的x,y,z通道分别进行卷积运算,得到包含不同空间频率、空间位置以及不同方向的局部结构信息的Gabor响应系数.用5种不同中心频率和4个滤波方向的Gabor滤波器组分解几何图像(以z通道为例),得到不同频段、不同方向的Gabor响应如图2所示.
图2 几何图像Gabor响应
2.2 多尺度Gabor特征提取
Gabor滤波器的通带中心频率随调制频率ω的变化而变化,图2中各列Gabor滤波器的中心频率依次递增,对几何图像进行卷积运算后得到Gabor响应系数.中心频率较低的Gabor滤波器提取几何图像低频段信息,对应于空间中三维人脸的轮廓和边缘等特征.中心频率较高的Gabor滤波器提取几何图像高频段信息,主要对应于三维人脸的细微纹理等.由于细微纹理对噪声和人脸表情较敏感而且有用信息量少,因此本文主要使用低频Gabor响应进行三维人脸识别.
图2中各行Gabor滤波器的滤波方向分别为0,π/4,π/2和3π/4,相应的Gabor响应为水平、主对角线、垂直和次对角线方向的Gabor响应.其中水平方向Gabor响应体现人脸的眼睛等水平边缘特征,主对角线和次对角线方向的Gabor响应反映了人脸的对角线方向边缘信息,垂直方向的Gabor响应反映人脸的鼻子、轮廓等垂直边缘特征.
人的眼睛在不同的表情下具有不同的形态,因此表征眼睛特征的水平Gabor响应不适合作为三维人脸的识别特征.此外,几何图像对角线方向边缘信息受表情和姿势影响较大,因此对角线方向的Gabor响应同样不适合作为三维人脸的识别特征.根据文献[10],鼻子区域是人脸表面受表情影响最小的局部区域,而且人脸的外观轮廓在各种表情下基本保持稳定,因此几何图像的垂直Gabor响应具有一定的表情不变性.
不同的人脸表情行为具有不同的尺度[11],例如惊讶的表情使面部区域大范围地发生形变,需要在大尺度下对其进行分析,而微笑的表情只对嘴部区域有明显的影响,因此需要在小尺度下进行分析.本文用3个不同尺度的Gabor滤波器提取几何图像的垂直低频Gabor响应作为人脸的Gabor特征.分别计算各尺度下Gabor特征的均方差MSE,并求和作为总相似度,最后用最近邻分类器判别人脸身份。
3 实验与分析
由圣母诺特丹大学(University of Notre Dame)采集并建立的FRGC v2.0数据库是目前应用得较广泛的三维人脸数据库.本文在FRGC v2.0数据库中随机选择来自21个个体的200张人脸来进行识别实验和认证实验,实验结果分别用CMC (cumulative match characteristic)曲线和ROC (receiver operating characteristic)曲线表示.
3.1 低频Gabor响应的身份表征性
用调制频率分别为0.01,0.02,0.03,0.05和0.08的Gabor滤波器对几何图像进行卷积运算,得到包含不同频段人脸信息的Gabor响应.分别以各频段垂直方向Gabor响应作为人脸特征进行识别和认证实验,得到的实验结果如表1所示.
表1 不同频段Gabor响应作为人脸特征的实验结果
由表1可看出,以高频Gabor响应(ω>0.03)作为识别特征的识别率与认证率远低于以低频Gabor响应(ω≤0.03)为识别特征的实验.说明低频Gabor响应包含三维人脸的主要几何信息,身份表征性较好.本文使用调制频率分别为0.01,0.02和0.03的低频Gabor滤波器组提取识别特征.
3.2 多尺度Gabor特征
利用滤波方向θ分别为0,π/4,π/2和3π/4的低频Gabor滤波器组提取几何图像的水平方向、主对角线方向、垂直方向和次对角线方向的Gabor响应.以各个方向的低频Gabor响应作为人脸特征的实验结果如表2所示.
表2 不同方向低频Gabor响应作为人脸特征的实验结果
由表2可看出,主对角线和次对角线方向的Gabor响应实验结果较差,说明几何图像的主对角线方向和次对角线方向的边缘信息受噪声影响明显,稳定性差.水平方向实验结果稍好,说明几何图像的水平边缘信息具有一定的身份表征性,但是仍然受表情变化的影响.而以垂直方向的低频Gabor响应作为人脸特征则得到较高的识别率和认证率,说明垂直方向的低频Gabor响应具有较高的身份表征性以及表情不变性,可以选作三维人脸识别的Gabor特征.
为了克服不同表情带来的不同尺度的非刚性形变,本文用大小分别为15×15,31×31和51×51的Gabor滤波掩模对几何图像进行卷积运算并提取各尺度下的Gabor特征.计算各尺度Gabor特征的MSE并相加作为人脸识别的相似度.以多尺度Gabor特征为识别特征的实验取得了98.81%的Rank-1识别率和95.3%的正确认证率(FAR为0.1%),说明多尺度Gabor特征具有较好的身份表征性.
3.3 嘴部区域对人脸识别的干扰
嘴部区域是三维人脸区域受表情影响最大的子区域[10],不同表情下嘴部的姿态变化使三维人脸模型产生非刚性形变,严重影响识别算法的稳定性.
在整张人脸区域和上半张人脸区域上分别提取多尺度Gabor特征并进行识别实验和认证实验,实验结果如图3所示.使用整张人脸的实验得到92.8%的Rank-1识别率以及86.7%的正确认证率,而去除嘴部区域后,使用上半张人脸的实验得到98.81%的Rank-1识别率以及95.3%的正确认证率(FAR为0.1%).因此去除嘴部区域的干扰后,三维人脸识别方法的精度得到了明显的提高.
3.4 与其他方法的比较
ICP刚性匹配方法是FRGC v2.0数据库的基准识别方法,图4为本文方法与ICP方法的对比结果.由图可见,ICP方法的Rank-1识别率为91.67%,本文方法的Rank-1识别率为98.81%.在FAR为0.1%时,ICP方法的正确认证率为90.4%,而本文方法的正确认证率为95.3%.
图3 CMC和ROC曲线
图4 本文方法与ICP基准方法的比较
Cook等在文献[6]中将三维人脸深度图像的147个log-Gabor响应作为识别特征,得到了92.93%的Rank-1识别率和92.31%的正确认证率.Xu等在文献[7]中提取三维人脸模型的深度图像和灰度图像的Gabor响应作为识别特征,取得的正确认证率略高于本文方法,但是文献[7]使用基于LDA以及AdaBoost学习方法的级联分类器选择Gabor特征,运算效率低于本文方法.对比结果表明,相对于数据库的基准算法以及其他使用Gabor特征在FRGC v2.0数据库中进行实验的算法相比,本文提出的三维人脸识别方法的识别率有较明显的提高.
3.5 运行时间分析
在电脑配置为Core(TM)2 Duo 2.34 GHz CPU,4.0 GB内存的计算机上,使用Matlab与C++混合编程.算法各步骤的运算时间如表3所示,其中平滑和网格参数化过程中采用了MEX C++加速.
表3 算法各步骤运算时间分析
从表3可看出,预处理过程占据了大部分运算时间,特征提取和匹配用时较少.由于原始三维人脸数据点云在106数量级,剪切平滑后的三角面片也在103数量级,如此高的数量级使生成几何图像的过程耗费较长时间.但从总体来看,本文方法进行一次三维人脸认证所需要的时间在可接受的范围内.
4 结语
本文提出了一种基于多尺度Gabor特征的三维人脸识别方法.首先将三维人脸模型的上半张人脸区域经过平面参数化和线性插值映射至几何图像,利用多尺度Gabor变换将几何图像分解为不同尺度下包含不同频率、不同方向人脸信息的Gabor响应.然后选用3个不同尺度下的垂直低频Gabor响应作为三维人脸Gabor特征.在FRGC v2.0数据库中进行的大量实验表明,本文提出的方法识别效果较好,提取的特征具有较好的身份表征性.
)
[1] Al-Osaimi F, Bennamoun M, Mian A. An expression deformation approach to non-rigid 3D face recognition[J].InternationalJournalofComputerVision, 2008,81(8):1346-1357.
[2] Wang Yueming, Liu Jiangzhuang, Tang Xiaoou. Robust 3D face recognition by local Shape difference boosting[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2010,32(10): 1858-1870.
[3] Hesher C, Srivastava A, Erlebacher G. A novel technique for face recognition using range imaging[C]//ProceedingsoftheSymposiumonSignalProcessingandItsApplications. Paris, France, 2003:201-204.
[4] Srivastava A, Liu X, Hesher C. Face recognition using optimal linear components of range images[J].ImageandVisionComputing, 2006,24(3): 291-299.
[5] Daugman J. Complete discrete 2-D Gabor transforms by neural networks for image analysis and compression[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing, 1988,36(7):1169-1179.
[6] Cook J A, Chandran V, Fookes C B. 3D face recognition using log-Gabor templates[C]//BritishMachineVisionConference. Edinborough, Scotland, 2006:1-10.
[7] Xu Chenghua, Li Stan, Tan Tieniu, et al. Automatic 3D face recognition from depth and intensity Gabor features[J].PatternRecognition, 2009,42(9):1895-1905.
[8] Dorai C, Jain A K. COSMOS—a representation scheme for 3D free-form objects [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1997,19(10): 1115-1130.
[9] 邹红艳, 达飞鹏, 李晓莉.基于面部曲线特征融合的三维人脸识别[J].东南大学学报:自然科学版,2012,42(4):618-622.
Zou Hongyan, Da Feipeng, Li Xiaoli. 3D face recognition using compositional features from facial curves[J].JournalofSoutheastUniversity:NaturalScienceEdition, 2012,42(4):618-622.(in Chinese)
[10] Fltemier T, Bowyer K, Flynn P. Using a multi-instance enrollment representation to improve 3d face recognition[C]//FirstIEEEConferenceonBiometrics:Theory,Application,andSystem. Washington, DC, USA, 2007:1-6.
[11] 刘帅师,田彦涛,万川.基于Gabor多方向特征融合与分块直方图的人脸表情识别方法[J].自动化学报, 2011, 37(12):1455-1463.
Liu Shuaishi, Tian Yantao,Wan Chuan. Facial expression recognition method based on Gabor multi-orientation features fusion and block histogram[J].ActaAutomaticaSinica, 2011,37(12): 1455-1463.(in Chinese)