基于结构化遮挡编码和极限学习机的局部遮挡人脸识别

2019-11-15张芳艳王新许新征

计算机应用 2019年10期

张芳艳王新许新征

摘要：提出使用结构化遮挡编码（SOC）结合极限学习机（ELM）的算法来处理人脸识别中的遮挡问题。首先，使用SOC去除图像上的遮挡物，将遮挡物体与人脸分离开;同时，通过局部性约束字典（LCD）来估计遮挡物的位置，建立遮挡字典和人脸字典。然后，将建立好的人脸字典矩阵进行归一化处理，并利用ELM对归一化的数据进行分类识别。最后，在AR人脸库上进行的仿真实验结果表明，所提方法对不同遮挡物和不同区域遮挡的图像具有较好的识别率和鲁棒性。

关键词：人脸识别;遮挡;结构化遮挡编码;局部性约束字典;极限学习机

中图分类号：TP193

文献标志码：A

AbstractAn algorithm combining Structured Occlusion Coding （SOC） with Extreme Learning Machine （ELM） was proposed to deal with the occlusion problem in face recognition. Firstly， the SOC was used to remove the occlusion from the image and separate the oclusion from the human face. At the same time， the position of the occlusion was estimated by the Local Constraint Dictionary （LCD）， and an occlusion dictionary and a face dictionary were established. Then， the established face dictionary matrix was normalized， and the ELM was used to classify and identify the normalized data. Finally， the simulation results on the AR face database show that the proposed method has higher recognition rate and stronger robustness for different types of occlusions and images with different regions occluded.Key words：face recognition; occlusion; Structured Occlusion Coding （SOC）; local constraint dictionary; Extreme Learning Machine （ELM）

0 引言

近年来，人脸识别技术在理论进展和实际应用中取得了很大的突破，已成为模式识别领域的前沿研究方向。但遮挡人脸图像的识别问题在人脸处理过程中会经常出现，例如口罩、发型、墨镜和帽子遮挡是十分常见的。如图1所示（图例选自occluded CASIA-WebFace dataset），這些遮挡对人脸的正确识别具有极大的干扰。而低秩表示[1]可以快速解决遮挡问题，它运用了一种新型的迭代方法有效地提高了识别率和大面积图像遮挡识别的鲁棒性。文献[2]提出了结构性遮挡编码和稀疏表示（Sparse Representation-based Classifier， SRC）[3]相结合的方法，巧妙地利用结构化稀疏编码处理图像的遮挡问题。此外，长短期记忆网络自编码器[4]也常用来解决面部遮挡问题，较好地提高了图像降噪的鲁棒性。但遮挡问题还是没有得到完全解决。

在人脸识别领域中，有遮挡的人脸识别问题引起了学术界的广泛关注。遮挡处理方法一般分为视频中的遮挡处理和图像中的遮挡处理方法。通常采用物体跟踪方法处理动态视频中的遮挡问题，例如：文献[5]提出了一种基于视频监控的跟踪方法，自动检测并处理遮挡物;文献[6]提出了一种新的物体跟踪技术，它可以跟踪人们的动态行为动作，即使在较大的遮挡下也保持像素跟踪分配，由于其鲁棒性，已被用于室内人们行为监督的不同实验。图像中的遮挡处理方法大致可分为五类：低秩表示法、图像修复法、模糊分析、鲁棒主成分分析法和结构性遮挡编码法。文献[7-8]提出使用健壮低秩表示方法来解决带遮挡的人脸识别问题，该方法主要结合了健壮性表示和误差的低级估计。目前，文献[9]提出了多尺度的分形编码及重构的图像修复方法，对纹理图像和有较大孔洞的图像效果较好。文献[10]提出一种基于模糊主分量分析方法对遮挡区域进行检测并恢复人脸区域，但是，模糊主分量分析法的计算量较大，对大区域的遮挡处理效果不理想。

低秩鲁棒主成分分析[11]是一种主流的遮挡人脸特征提取方法，同时有用结构性遮挡编码结合稀疏表示分类[12-13]处理遮挡得到较好的效果。文献[14]提出了一种新的非负稀疏表示方法，用于大规模数据库的鲁棒人脸识别;但是该算法计算量较大，结构比较复杂。文献[15]提出的遮挡字典方法对人脸识别的作用越来越重要，能够有效地处理各种遮挡物，可区分非遮挡和遮挡区域的特征，并分别在字典的相应部分进行编码。

文献[16]将遮挡字典连接到原始字典来执行遮挡编码，通过寻找稀疏字典的方法，使得遮挡图像成功地分解为面部图像和遮挡图像两部分。遮挡人脸识别问题[17]是人脸识别技术迈向实用的最为关键的一步。如果要构建一个完善的人脸识别系统就必须要解决遮挡问题。比如很常见的帽子、围巾和太阳镜等遮挡物。有时，大面积的遮挡会严重破坏原始图像的有关信息，导致图像识别产生很大的偏差。文献[18]提出了稀疏误差和图解模型的方法不断迭代遮挡像素，最终显示遮挡面具，利用马尔可夫随机场模型将空间连续性转化为对训练图像的稀疏表示的计算，从而准确地找到遮挡区域。因此，如何把有遮挡的人脸图像分离成人脸图像和遮挡图像，就具有重要的研究意义。

本文以遮挡人脸识别问题为出发点，以解决实际场景中的遮挡人脸识别问题为目标，提出了基于结构性遮挡编码（Structured Occlusion Coding，SOC）的遮挡人脸图像识别方法，并利用极限学习机（Extreme Learning Machine， ELM）对分离后的人脸进行分类和识别，即用结构化遮挡编码和极限学习机（SOC-ELM）来处理局部遮挡问题。

在该方法中，面部图像和遮挡图像可以分别由字典的相应部分表示，可以在复杂场景中实现更有效的分类效果。

1 理论基础

1.1 局部性约束字典学习方法

局部性约束字典学习（Local Constraint Dictionary， LCD）[19]，即在给定字典DH的情况下， xi可由该字典中各原子dj的线性组合近似表示，即xi=∑Kj=1cjidj，则点xi在d维空间的嵌入yi=g（xi）可以由dj在低维空间中的嵌入g（di）近线性表示，即：xj=∑Kj=1cjig（dj），根据l2距离，为使上述两个线性表示的误差最小，关于DH和C=[c1，c2，…，cN]，需要同时最小化如下两式：

1.2 结构化遮挡编码

一张人脸图像y被一个遮挡物v遮挡后的形式为u=y+v，违反了低维线性照明模型，导致SOC分类错误。真实场景中的遮挡类别是可预测的，可以提前收集。受到文献[2]启发本文算法组成一个遮挡物体的子字典可以看出，构造出良好的字典能够有效地处理各种遮挡，在实际场景中具有高度鲁棒性。有遮挡的识别问题的公式如下：

当数据逐渐增多时，解决问题（1）是不可行的，即使有遮挡，也可以把最小残差分配给样本u，组成了遮挡字典和干净的人脸字典，得到的两个字典对后续的去遮挡工作有相当大的作用，这样便把遮挡物和人脸分离，将分离后的人脸和原始人脸相比，像素值并没有减小，组成的人脸字典更有利于后续的分类，本文在后续的实验中展示了识别结果。

1.3 极限学习机

极限学习机（ELM）[20]是一种新型的快速的单隐层神经网络[21]学习算法，可以随机初始化输入权重和偏置并得到相应的输出权重。该算法的特点是在网络参数的确定过程中，ELM原理如图3所示。如果一个具有L个隐层神经元的单隐层神经网络可以零误差逼近这N个互异的数据样本。也就是说，存在ai、bi和βi（i=1，2，…，L），使

2.1 SOC-ELM模型结构

训练阶段不需在每个子字典上进行详尽的计算，就可以很容易地获得被遮挡的图像的身份并找出最好的遮挡估计。因文献[18]中被遮挡的标签是事先给出的，通过标签的关联就可以很容易地估计遮挡子字典。然而，在实际情况中，大多数遮挡图像的标签是未知的，则文献[18]算法就不可取。而本文算法对有标签和无标签图像都适用。SOC-ELM模型结构如图4所示。

在该算法中，将图像域视为一个图，误差e的支持向量被表示为z∈{0，1}m，zi=0表示无遮挡，zi=1表示有遮挡，图像经过SOC时，时間复杂度为O（mn），用ELM对归一化的图像数据做分类时，时间复杂度为O（n3），则此算法的时间复杂度为O（mn+n3）。

3 实验

实验在AR人脸数据集和CelebA数据集上进行。通过与SOC-SVM和SOC-SOFTMAX进行对比和分析，采用峰值信噪比（Peak Signal-to-Noise Ratio， PSNR）和结构相似性指数（Structural SIMilarity index， SSIM）两个常用评价指标来验证所提模型的有效性。

3.1 实验数据集

AR数据库被广泛用来做遮挡的处理，它包括126个人的4000多幅正面图像。该数据库中的图像包括较多的面部表情变化和遮挡，例如光照变化、表情变化，墨镜和围巾遮挡，典型示例如图5所示。

CelebA是香港中文大学的公开数据，包含202599张10177个名人身份的图像，所有这些图像都有很好的标记，是一个非常完整的面部相关训练数据集。图片大小为（178，218，3），添加了相应的遮挡，来模拟真实的遮挡情况。

在AR数据库中选择了50个男人和50个女人的图像（其中每个人有26张图片，14张普通图片和6张戴围巾的图片），每张图片大小为83×60。为每个人物选择7张没有任何伪装的图片，随机构造原始字典并用于测试。在戴墨镜和围巾的图片中，随机挑选10个人，共60张图片来获得遮挡模型，其他的则用于测试。最后，以识别率来评价算法的有效性，并与SOC-SOFTMAX和SOC-SVM模型进行对比。在CelebA数据库上，本文选择了有代表性的3000张随机遮挡的图片，将这些图片放入三种模型进行实验。

3.2 实验结果分析

在AR人脸库中，采用540张遮挡图片作为训练人脸库。用稀疏遮挡编码分离其中戴墨镜和戴围巾的人脸。对分离后的人脸进行归一化，输入到三个不同的分类器中进行分类识别。首先测试了结构化遮挡编码（SOC），学习了60张墨镜图片的遮挡字典，并和原始图片共同组成训练集，剩余的540张戴墨镜的图片用于测试。将去遮挡的图像集归一化处理，利用SVM、SOFTMAX和ELM分类器进行识别，得到的结果如图7～9所示。

此外，比较了9种不同迭代次数的识别准确率，SOC-ELM的识别效果是最好的。从表1～2的实验结果还可以看出，算法的最佳迭代次数为50000。采用本文算法，使得分离人脸和遮挡物后识别人脸准确率得到有效的提高。另外，相对于文献[2]提出的SOC-SRC来说，本文方法大幅降低了计算时间，只有15～41s;同时，可以看出在相同的迭代次数下，SOC-ELM表现出的效果明显好于其他两种算法。因而可以得出本文算法具有较好的稳定性和实时性。

[8] OROUGHI H， SHAKERI M， RAY N， et al. Face recognition using multi-modal low-rank dictionary learning[C]// Proceedings of the 2017 IEEE International Conference on Image Processing. Piscataway： IEEE， 2017： 1081-1086.

[9] 唐嫻，黄军伟.低秩鲁棒性主成分分析的遮挡人脸识别[J].南京理工大学学报，2017，41（4）：460-465.（TANG W， HUANG J W. Occlusion face recognition based on low rank robust principal component analysis[J]. Journal of Nanjing University of Science and Technology， 2017， 41（4）： 460-465.）

[10] 李晋江，张彩明，范辉，等. 基于分形的图像修复算法[J].电子学报，2010，38（10）：2430-2435.（LI J J， ZHANG C M， FAN H， et al. Fractal-based image restoration algorithm[J].Acta Electronica Sinica， 2010， 38（10）： 2430-2435.）

[11] DING Z M， SUH S， HAN J， et al. Discriminative low-rank metric learning for face recognition[C]// Proceedings of the 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway： IEEE， 2015： 1-6.

[12] DING X， LIU X， XU L. An optimization method of extreme learning machine for regression[C]// Proceedings of the 31st Annual ACM Symposium on Applied Computing. New York： ACM， 2016： 891-893.

[13] YANG M， ZHANG L， SHIU S， et al. Gabor feature based robust representation and classification for face recognition with Gabor occlusion dictionary[J]. Pattern Recognition， 2014， 46（7）： 1559-1572.

[14] HE R， ZHENG W， HU B， et al. Two-stage nonnegative sparse representation for large-scale face recognition[J]. IEEE Transactions on Neural Networks and Learning Systems，2013， 24（1）： 35-46.

[15] 朱明旱，李树涛，叶华.稀疏表示分类中遮挡字典构造方法的改进[J].计算机辅助设计与图形学报，2014，26（11）：2064-2078.（ZHU M H， LI S T， YE H. Improvement of the construction method of occlusion dictionary in sparse representation classification[J].Journal of Computer-Aided Design & Computer Graphics， 2014， 26（11）： 2064-2078.）

[16] SING Y， CHENG Y. Noise-resistant network： a deep-learning method for face recognition under noise[J]. EURASIP Journal on Image and Video Processing， 2017， 2017： Article number 43.

[17] ZHOU Y， BARNER K. Locality constrained dictionary learning for nonlinear dimensionality reduction[J]. IEEE Signal Processing Letters， 2013， 20（4）： 335-338.

[18] ZHOU Z， WAGNER A， MOBAHI H， et al. Face recognition with contiguous occlusion using Markov random fields[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway： IEEE， 2009： 1050-1057.

[19] 刘丽娜，马世伟，温加睿.基于局部约束字典学习的数据降维和重构方法[J].仪表仪器学报， 2016， 37（1）：99-108.（LIU L N， MA S W， WEN J R. Data dimension reduction and reconstruction method based on local constraint dictionary learning[J]. Journal of Instrument and Instrument， 2016， 37（1）：99-108.）

[20] SASTRAWAHA S， HORATA P. Ensemble extreme learning machine for multi-instance learning[J]// Proceedings of the 9th International Conference on Machine Learning and Computing. New York： ACM， 2017： 56-60.

[21] 彭双. 神经网络隐层节点的稀疏化[D]. 大连：大连理工大学，2017：1-48.（PENG S. Sparseization of hidden nodes in neural networks [D]. Dalian： Dalian University of Technology， 2017：1-48.）

[22] PATHAK D， DONAHUE P， DARRELL T， et al. Context encoders： feature learning by inpainting[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 2536-2544.

[23] YEH R， CHEN C， LIMT Y， et al. Semantic image inpainting with perceptual and contextual losses[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 6882-6890.