多稀疏表示分类器决策融合的人脸识别
2018-05-04唐彪金炜符冉迪龚飞
唐彪,金炜,符冉迪,龚飞
(宁波大学信息科学与工程学院,浙江 宁波 315211)
1 引言
人脸识别是模式识别领域中最富挑战性的研究课题之一,它在公共安全、身份验证和视频监控等领域有着广阔的应用[1,2]。光照、表情和遮挡等复杂变化是人脸识别中的瓶颈,赵鑫等人[3]使用主成分分析(principal component analysis,PCA)构造正交投影空间,然后将人脸样本进行投影,提取人脸的主要特征。张健等人[4]利用 Fisher线性判别分析(linear discriminant analysis,LDA),通过类内与类间散度矩阵来刻画人脸样本之间的差异,并将人脸样本在Fisher空间上进行投影,最终通过距离度量Fisher空间上的投影特征来判断人脸的类别。Wright等人[5]提出基于稀疏表示(sparse representation classification,SRC)的人脸识别,用训练样本来训练字典和稀疏系数,然后通过计算残差的方法进行分类。张勇等人[6]采用线性判别分析算法求解最优判别投影子空间,把训练样本投影到该子空间来提取相应的特征,通过稀疏表示的方法训练字典,最后重构残差来实现人脸识别(LDA-SRC)。Yang等人[7]提出一种结合 Gabor特征的稀疏表示人脸识别的方法(GSRC),通过提取人脸的 Gabor特征,并对其Gabor特征进行稀疏表示,相对于整体特征而言,它对表情、光照等变化更加顽健,能够较好地提高人脸识别的准确率。后来一系列基于稀疏表示的改进的方法不断被提出[8,9],但是这些算法在复杂的环境中顽健性欠佳。
本文在传统特征提取和其他改进稀疏表示的人脸识别基础上,提出一种多稀疏表示分类器决策融合的人脸识别方法。首先提取人脸的Log Gabor特征、多块局部二进制模式和方向梯度直方图特征,然后利用此3组特征训练3个稀疏表示分类器,根据每个子分类器的分类性能,通过一个迭代运算过程,自适应确定各个子分类器的融合权值,最后利用融合权值将多个子分类器的输出结果进行决策,实现不同复杂干扰下的人脸识别。其中,FR-MSRC分类过程中,将传统的SRC分类器所用的最小重构残差转化为样本属于某类的最大后验概率,通过决策融合的策略充分发挥不同子分类器的性能,获得高于任何单一特征分类器的分类精度,为人脸识别提供了新的思路。
2 多特征提取
2.1 Log Gabor特征提取
Filed于1987年首次设计出Log Gabor滤波器[10],Log Gabor滤波器分别由径向滤波器和角度滤波器两部分构成,通过定义径向滤波器的尺度和角度滤波器的方向来控制Log Gabor滤波器的幅频响应。文中将选取4个不同中心频率(分别为以及6个不同方向(分别为共24个幅频响应滤波器对人脸进行滤波。人脸经过4尺度6方向滤波后的结果如图1所示。
图1 Log Gabor滤波后的效果
图1中每一行是同一个尺度,每一列是同一个方向,第一行和第二行为人脸的高频特征,其特征较为细腻,可以弥补低频特征下脸部器官描述不足的问题。第三行和第四行为人脸的低频特征,其特征偏向于人脸识别的全局表达,但是局部信息描述不足。综合利用高频和低频信息将有助于提高人脸的识别率。为了降低特征维度,而又不丢失每个图像的纹理信息,将对 24幅图像进行分块处理,然后计算一幅图像不同分块对应的能量,用能量矩阵代替人脸在某个方向和尺度变换后的特征。
2.2 多块局部二进制模式特征
局部二进制模式(local binary pattern,LBP)是机器视觉中常用于分类的一种特征[11],LBP能够有效地捕捉人脸局部纹理特征,对于单调的灰度变换具有不变性,但在人脸遮挡下缺乏对整体粗粒度的把握。因此多块局部二值模式(multi block local binary pattern,MB-LBP)被提出,以弥补传统LBP的不足。在MB-LBP的计算中,传统LBP算子孤立像素值之间的比较被像素块之间的比较代替,不同的像素块大小代表不同的分析粒度,通常以符号表示3×3像素块大小、半径为2的8领域像素的统一化LBP算子,算子如图2所示。
图2 -LBP算子
图2中每一个小方格代表一个像素,以黑色方块周围的8个像素共组成一个像素块,计算块内9个像素的均值,然后分别与中心黑色方块进行比较来构造特征描述子。
2.3 图像分区大小的选择
分区LBP可以较好地描述人脸的结构信息,具体是将人脸适当地划分为p×q分区,然后分别计算每个人脸分区的直方图,最终将所有分区的直方图特征连接成一个复合的特征向量。理论上,越精细的分区意味着越好的局部描述能力,但是会产生更高维数的复合特征,然而过小的分区会造成直方图过于稀疏,而失去统计意义。分别选择15×13、10×11和5×4共 3种分区大小进行实验比较,实验结果如图3所示。
图3 复合LBP直方图
观察上述复合LBP直方图发现,分区10×11的复合LBP直方图特征维数较为折中,且可以较好地描述人脸的结构信息。相同人脸在有无遮挡下的复合LBP直方图如图4所示。
图4 相同人脸在有无遮挡下的复合LBP直方图
由图4可知,经过滤波得到的直方图总体上是相似的,利用总体的相似程度提高人脸在遮挡下的识别率。这一改进有效地利用像素点之间的相关性,使算法在不确定干扰因素下也具有较好的顽健性。
2.4 方向梯度直方图
方向梯度直方图(histogram oriented gradient,HOG)是由Dalal等人[12]在2005年提出的。HOG首先将图像划分为小的连通区域,计算该局部图像梯度方向信息统计值,然后将小的连通区域级联成块,进行对比度归一化,最后将图像所有块的特征串联起来代表检测目标的特征描述符。HOG方法是在图像的局部细胞单元上操作,所以它对图像几何和光学的形变都能保持很好的不变性,因此本文提取HOG特征来得到较顽健的表情信息,如图5所示,取3种不同的表情,用白色的特征点描述捕捉到的面部轮廓信息。
由图5可知,在光照条件统一的情况下,人脸微小的表情变化不影响识别效果,即相同人脸不同表情的视觉轮廓相似。
3 多稀疏表示分类器的构造
3.1 稀疏表示分类器的理论模型
图5 3种表情轮廓效果
3.2 生成后验概率
由式(4)知,如果测试样本属于第i类,那么残差 ri(y )最小,而与其他的重建结果做残差会得到较大的结果。本文将y与之间的残差转换为y属于第i类样本的最大后验概率,以构造出多稀疏表示分类器。定义y与之间的残差倒数为:
因此,样本y所属类别可以由式(7)确定:
上述基于概率模型的稀疏表示分类器能够从概率的角度,更为直观地表示出样本y属于第i类的可能性。
4 决策融合
决策融合可以简单地理解为利用多个分类器对同一测试样本进行分类判别,然后根据多个分类器的判别结果进行统计决策,得出最终的分类结果。Louisa等人[14]已经证明:当单个子分类器的准确率都大于0.5时,随着子分类器个数的逐渐增加,决策融合后的准确率将趋近于1.0。因此,在设计多稀疏表示决策融合分类器时,只要保证各个子分类器的准确率均在0.5以上,则最终的分类准确率将得到提高。
另一方面,不同特征从不同角度反映人脸的本质信息,例如小波变换在不同光照下,可以获得很好的识别率,但是在人脸遮挡下,就会得到较低的识别率。如果在设计决策融合模型时将不同特征同等看待,很难在不同的环境下保持较好的顽健性。
由于类别较多,仅仅使用单个分类器很难对复杂问题进行有效分类,参考文献[15]使用一种树状结构将概率支持向量机推广到多分类问题,通过分类器对不同样本产生的概率输出自动调节权值,取得较好的识别结果。参考文献[16]基于Multi-Agent权重自适应调整的多分类器融合算法,通过引入偏好判断矩阵以及分类器间的决策相关信息,自适应地为各分类器赋予权值,从而取得较高的分类正确率。本文在此基础上,依据第3.1节的理论,分别构造3个稀疏表示分类器,通过迭代更新不同特征的融合权值,最后利用融合权值将多个子分类器输出结果进行决策,其迭代具体过程如下。
步骤1 利用第2节中提取人脸的3组不同种类特征,构造训练样本集X:
步骤 2 按照第 3节构建稀疏表示模型,将训练人脸样本的 3种特征分别组成 3个稀疏表示字典,并据此设计 3个稀疏表示子分类器,然后为每个子分类器初始化决策融合权重系数ws:
步骤 3 对于任意的人脸样本x∈X,将其3种特征分别用对应的子分类器,根据第3.2节方法,计算后验概率psi,这里psi表示第s个子分类器输出结果属于第 i类的后验概率,
步骤 4 利用融合权值对各子分类器输出的后验概率进行加权融合,计算累加概率:
步骤 5 以决策融合后的最大概率,确定人脸x的所属类别:
步骤 6 自适应迭代更新ws,具体方法为:假设人脸x的实际标签为Label(x),其决策融合的分类标签为identity(x),如果Label(x)=identity(x),将决策融合的分类标签与各个子分类器的分类标签进行比较,对于判断错误的 l个子分类器对应的权重系数自减ε,同时将每个子分类器输出的后验概率psi进行降序排序,根据排序结果,将后验概率较大的l个子分类器的融合权重分别自增ε,得到更新后的权值。
如果 Label(x)≠identity(x),则判断该样本为噪声,直接丢弃。接下来返回步骤3,对下一个样本进行上述操作,直至所有样本遍历完成。经过以上6个步骤,整个决策融合的模型训练完毕。
5 实验结果及分析
为了验证本文提出的算法在不同干扰因素下的识别率,分别进行了光照、表情、遮挡以及多类型混合实验。本文基于Yale B、JAFFE和AR共3个标准人脸库,做了4次不同干扰下的对比实验。同时选择PCA[3]、LDA[4]、SVM、SRC[5]、LDA-SRC[6]和GSRC[7]6种经典人脸识别方法与本文的FR-MSRC做比较。
5.1 基于不同光照的人脸识别实验
Yale B人脸数据库,一共10个人,每人64张人脸图片。根据人脸与摄像机方向角θ的不同,将 64张人脸图像非均匀划分 5个子集。是子集 1,共计 7张人脸图像;是子集 2,共计 12张人脸图像;是子集 3,共计 12张人脸图像;是子集 4,共计 12张人脸图像;是子集5,共计19张人脸图像。由于角度θ的差异,导致人脸会呈现不同的曝光度,部分人脸样本如图6所示。
图6 Yale B中5个子集部分人脸样本
提取Yale B人脸库中子集4的3种不同特征构成训练样本,其他4个子集作为测试样本,用稀疏表示分类的思想验证单个特征可以获得的识别率,识别率见表1。
表1 单个特征在不同子集获得识别率
由表1可知,各子分类器在不同光照下的识别率都在 50%以上,符合关于多个分类器融合有效性的条件,因此,FR-MSRC方法在理论上可以提高人脸在不同光照下的识别率。最后由第 4.1节的方法更新融合权值,不同特征在不同子集的融合权重及融合特征后的人脸识别率见表2。
表2 不同特征在不同子集的融合权重及融合特征后的人脸识别率
由表2可知,在不同光照下Log Gabor特征的权值比HOG特征的融合权重大,MB-LBP的权重大小维持在0.32~0.33,这表明Log Gabor特征在不同光照强度下,能发挥重要的识别能力,这与第2节理论分析相吻合。其平均识别率均优于与其他经典的方法,具体对比结果见表3。
由表3可知,FR-MSRC具有较好的光照顽健性,在不同光照的子集上仍然保持较高的识别率,特别在子集2和子集3上可以达到99%以上的准确率。在与几种经典方法的比较中,PCA仅有62.02%的识别率,其他基于稀疏表示的方法均可以达到 90%以上的识别率,但是,本文的FR-MSRC取得了最好的识别效果。
5.2 基于不同表情的人脸识别实验
JAFFE人脸数据库,一共有10个人,每个人有7种表情(中性脸、高兴、悲伤、惊奇、愤怒、厌恶、恐惧),每种表情有3张图像共计21张,那么整个数据库一共有210张图像,部分人脸样本如图7所示。
实验时,将每个人的3张中性表情人脸样本用于训练,用剩下的6种表情作为测试样本。用稀疏表示分类的思想验证单个特征可以获得的识别率和相对应的后验概率,其识别率见表4。
由表4可知,各子分类器在不同表情下的识别率都在 50%以上,同样符合关于多个分类器融合有效性的条件,由第 4.1节的方法更新融合权值,不同特征在不同表情下的融合权重及融合特征后的人脸识别率见表5。
由表5可知,在不同表情下HOG特征的权重比Log Gabor特征的权值比大,即HOG特征在不同表情下,均可以刻画人脸的面部信息,这与光照下的融合权重刚好相反,同时MB-LBP的权重大小维持在0.32~0.33,这也与第2节的理论分析相吻合。FR-MSRC在不同表情条件下均保持较高的识别率,其平均识别率均优于其他方法,具体对比结果见表6。
表3 本文方法在复杂光照下得到的平均识别率与其他方法对比结果
图7 JAFFE数据库中不同表情的部分人脸样本
表4 单个特征在不同表情上的识别率
表5 不同特征在不同表情子集的融合权重及融合特征后的人脸识别率
表6 本文方法在复杂表情下平均识别率与其他方法对比结果
图8 AR人脸数据库部分人脸图像
由表6可知,与几种经典方法的比较中,PCA和SVM在JAFFE上识别率均在90%以下,其他基于稀疏表示的方法识别率均在92%左右,但是本文的FR-MSRC识别率高达99.08%,识别效果最好。
5.3 基于不同遮挡人脸识别实验
AR人脸数据库,一共有100个人,分两个阶段,每个阶段13张图像,包括7个未遮挡人脸图像和6个被遮挡人脸图像,AR人脸数据库部分人脸图像如图8所示。
实验时,将每个人的14张未遮挡人脸图像作为训练样本,用剩下的12张遮挡人脸图像作为测试样本,用稀疏表示分类的思想验证单个特征可以获得的识别率,其结果见表7。
表7 单个特征在不同遮挡物上的识别率
由表7可知,各个子分类器在不同遮挡物下的识别率都在50%以上,由第4.1节的方法更新融合权值,不同特征在不同遮挡物子集的融合权重及融合特征后的人脸识别率见表8。
表8 不同特征在不同遮挡物融合权重及融合特征后的人脸识别率
由表8可知,在不同遮挡物下,MB-LBP的权重比HOG和Log Gabor大,这表明MB-LBP特征能在遮挡的人脸识别中发挥较高的性能,与第2节的理论分析相吻合,其平均识别率均优于其他经典的方法,具体对比结果见表9。
由表9可知,PCA、SVM和LDA在AR人脸数据库上识别率均在85%以下,主要是AR数据库不仅存在遮挡物的伪装,还存在光照和表情不同程度的变化,给人脸识别带来较高的难度,基于稀疏表示的方法识别率均只能达到 85%左右,然而FR-MSRC识别率却高达97.13%,具有较强的伪装顽健性。
表9 本文方法在不同遮挡物下平均识别率与其他方法对比结果
5.4 多类型混合实验
为了进一步验证FR-MSRC对多类型干扰因素的顽健性,分别从Yale B、JAFFE和AR共3个标准人脸库随机选择10个人的随机10张人脸图像,共计300张人脸图像,组成混合多类型人脸数据库。同前3组的实验思路一致,选取每个人5张人脸图像作为训练样本,用剩下的5张人脸图像作为测试样本进行实验。
表10 7种方法在多类型干扰因素下的识别率
表10展示了7种方法在多类型干扰因素下的识别率,大部分方法的准确率都在85%左右,其中,PCA、LDA和SVM相对于SRC的识别率均具有较明显的差距,其他基于SRC改进的方法均取得较一般的结果,而本文的 FR-MSRC则达到最高的98.10%,取得了最好的识别结果。
从4组实验结果可以看出,3个稀疏表示分类器以及决策融合思想的引入,对于样本训练时的泛化能力给予了极大的支持,不论是光照、表情还是遮挡等变化,都可以表现出更好的识别效果。
6 结束语
本文提出了一种多稀疏表示分类器决策融合的人脸识别方法,通过提取3组人脸有效特征构造3个稀疏表示分类器,然后引入决策融合的思想,根据每个子分类器的分类性能,自适应确定各个子分类器的融合权值,从而提高了算法在不同环境下的顽健性。本文分别在 Yale B、JAFFE、AR以及混合人脸库中分别进行光照、表情、遮挡以及多类型因素混合的测试,实验结果表明,FR-MSRC可以在不同复杂的环境中仍保持较高的识别率,具有一定的应用前景。
参考文献:
[1] 邹国锋, 傅桂霞, 李海涛, 等.多姿态人脸识别综述[J].模式识别与人工智能, 2015, 28(7): 613-625.ZOU G F, FU G X, LI H T, et al.A survey of multi-pose face recognition[J].Pattern Recognition and Artificial Intelligence,2015, 28(7): 613-625.
[2] 李娜, 张晓宁, 朱芳娥.视觉传感网络中身份特征自适应识别算法改进[J].电信科学, 2016, 32(6): 110-115.LI N, ZHANG X N, ZHU F E.Improvement of identity adaptive recognition algorithm in visual sensor network[J].Telecommunications Science, 2016, 32(6): 110-115.
[3] 赵鑫, 汪维家, 曾雅云, 等.改进的模块 PCA人脸识别新算法[J].计算机工程与应用, 2015(2): 161-164.ZHAO X, WANG W J, ZENG Y Y, et al.Improved modular PCA face recognition algorithm[J].Computer Engineering and Applications, 2015(2): 161-164.
[4] 张健, 肖迪.基于多尺度自适应 LDA 的人脸识别方法[J].计算机工程与设计, 2012, 33(1): 332-335.ZHANG J, XIAO D.Face recognition method based on multi-scale adaptive LDA[J].Computer Engineering and Design,2012, 33(1): 332-335.
[5] WRIGHT J, YANG A Y, GANESH A, et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[6] 张勇, 党兰学.线性判别分析特征提取稀疏表示人脸识别方法[J].郑州大学学报(工学版), 2015, 36(2): 94-98.ZHANG Y, DANG L X.Sparse representation-based face recognition method by LDA feature extraction[J].Journal of Zhengzhou University (Engineering Science), 2015, 36(2): 94-98.
[7] YANG M, ZHANG L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[J].Computer Vision-ECCV, 2010: 448-461.
[8] 龚飞, 金炜, 朱珂晴, 等.采用双字典协作稀疏表示的光照及表情顽健人脸识别[J].电信科学, 2017, 33(3): 52-58.GONG F, JIN W, ZHU K Q, et al.Illumination and expression robust face recognition using collaboration of double dictionary’s sparse representation-based classification[J].Telecommunications Science, 2017, 33(3): 52-58.
[9] LIU Z, PU J, XU M, et al.Face recognition via weighted two phase test sample sparse representation[J].Neural Processing Letters, 2015, 41(1): 43-53.
[10] LI J, SANG N, GAO C.Log-Gabor weber descriptor for face recognition[J].Journal of Electronic Imaging, 2015, 24(5): 053014.
[11] SURULIANDI A, MEENA K, ROSE R R.Local binary pattern and its derivatives for face recognition[J].IET Computer Vision,2012, 6(5): 480-488.
[12] DALAL N, TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 20-25, 2005,San Diego, USA.Piscataway: IEEE Press, 2005: 886-893.
[13] 颜文, 金炜, 符冉迪.结合 VLAD特征和稀疏表示的图像检索[J].电信科学, 2016, 32(12): 80-85.YAN W, JIN W, FU R D.Image retrieval based on the feature of VLAD and sparse representation[J].Telecommunications Science, 2016, 32(12): 80-85.
[14] RAHMAN A F R, FAIRHURST M C.Multiple classifier decision combination strategies for character recognition: a review[J].International Journal on Document Analysis and Recognition, 2003, 5(4): 166-194.
[15] 张文博, 姬红兵, 王磊.一种自适应权值的多特征融合分类方法[J].系统工程与电子技术, 2013, 35(6): 1133-1137.ZHANG W B, JI H B, WANG L.Adaptive weighted feature fusion classification method[J].Systems Engineering and Electronics, 2013, 35(6): 1133-1137.
[16] 张冬慧, 孙波, 王鹏, 等.权值自适应调整的多分类器融合算法[J].计算机工程, 2008(10): 28-29, 32.ZHANG D H, SUN B, WANG P, et al.Multi-classifiers fusion algorithm of adaptive weight adjustment[J].Computer Engineering, 2008 (10): 28-29, 32.