卷积网络的无监督特征提取对人脸识别的研究

2018-06-20杜柏圣

计算机技术与发展 2018年6期

杜柏圣

(河海大学计算机与信息学院，江苏南京 210098)

1 概述

人脸识别[1-2]是生物特征识别研究的重点。生物特征是人体的基本组成部分，每个个体之间的差异性很大，而且生物特征的稳定性较好，作为身份验证是很好的选择。与虹膜、指纹等其他生物特征相比较，利用人脸进行识别，具有易于用户接受、便于采集、友好、方便直接等优点。此外，人脸识别也具有隐蔽性、自然性、永久性、成本低等其他生物特征不具备的特点。

人脸识别的过程，是对规范化的人脸图像进行特征提取和对比辨识的过程，其目的是区分出图像中人脸的身份。人脸识别的主流的特征提取方法可以分为三类：基于子空间方法、基于局部特征方法及基于深度学习方法。

基于子空间方法的基本思想是通过空间变换压缩到低维的子空间中，使得原样本更易于分类。其代表性的方法包括线性判别分析(LDA)[3]、主成分分析(PCA)[4]、独立分量分析(ICA)[5]等。

基于局部特征方法一直是人脸表示领域的经典方法，其基本思想是将人脸图像分解为多个局部特征，利用不受干扰因素影响的局部特征来描述人脸的特征细节。其中较有代表性的方法包括基于Gabor小波的人脸表示方法Gabor Face[6]、基于局部二值特征的人脸表示方法LBP Face[7]、基于旋转不变特征的人脸表示方法SIFT Face[8]等。

基于深度学习方法主要是利用神经网络对图像进行识别，神经网络具有并行运算机制以及对模式的分布式全局存储，并且速度快、耗时少、识别率高。用于人脸识别的神经网络比较有代表性的包括RBF网络[9]、模糊BP网络[10]、卷积神经网络[11]，以及基于深度神经卷积网络的DeepFace[12]和DeepID2[13]。

基于深度卷积神经网络[14-16]的人脸识别方法需要大量的有标注的人脸数据来进行训练。对于很多人脸识别场景而言，采集大量人脸样本比较容易，但是精确地标记人脸样本中的身份标签是相当困难的。如何利用这大量的无标注的人脸数据，需要研究无监督的人脸识别方法。例如，朱陶等提出了一种基于前向无监督卷积神经网络的人脸表示学习方法[17]，其基本思想是利用人脸图像的局部性特点对人脸进行分块，在每个人脸块上进行无监督的卷积核学习。首先通过K-means聚类对人脸块上提取的人脸小块进行聚类，赋予其虚拟标签，进一步利用LDA学习判别投影作为卷积核，从而能够在无标注的人脸数据上实现卷积核的判别学习。

基于朱陶等提出的方法，文中提出一种基于卷积网络的无监督特征提取方法。该方法利用局部保持投影(LPP)算法取代K-means聚类和LDA算法进行卷积核的学习。LPP算法[18-19]在图像特征提取方面已经取得了显著的效果，其类似LDA算法和PCA算法，都是对图像进行降维，但又不同于PCA和LDA算法，因为PCA和LDA算法以保留图像空间的全局结构为目标，而LPP算法以保留图像空间的局部结构为目标。文中方法利用LPP算法学习判别投影作为卷积核，从而能够在无标注的人脸数据上实现卷积核的判别学习。通过卷积得到响应图后，再利用经典的卷积神经网络中的卷积及池化等一系列操作进行识别。

2 局部保持投影算法

LPP是一种低维子空间表示高维数据的降维方法。LPP算法利用近邻图方法建立映射，拥有一般线性降维方法没有的流形学习能力。LPP算法以保留原始样本局部结构为目标。在图像识别中，有时局部结构能提供比全局结构更重要的信息。LPP算法在人脸识别领域中已证明有较好的识别效果。

设数据集X=[x1,x2,…,xN]，每个样本维数为D。算法的目标是寻找投影方向矩阵W，将原样本经过线性变换WTxi得到的数据向量yi(i=1,2,…,N)在低维空间Rd(d

(1)

其中Sij的值为：

(2)

其中，Sij为对称关联矩阵，表示近邻样本点i和j之间的相似程度；参数β为总体样本。

最小化目标函数(式1)是为了确保xi和yi相邻较近的情况下，对应的yi和yj相邻较近。设w是一个转置向量，通过简单的线性运算，可以把目标函数简化为：

S)XTw=wTXLXTw

(3)

矩阵D中的元素Dii表示与第i个顶点有边相连的顶点数，Dii的大小与样本i的重要性成正比。再作如下约束：

(4)

将最小化问题转化为：

(5)

使目标函数的最小化问题转换为求向量w，相当于求解下列广义的最小特征值对应的特征向量：

XLXTw=λXDXTw

(6)

在多维映射的情况下，每个样本数据xi被映射成向量yi，目标是计算投影方向W=(w1,w2,…,wL)。这些向量通过式6计算广义特征向量求得。根据特征值大小进行排序，0≤λ1≤λ2≤…≤λL，然后通过Y=wTX，计算出Y。

3 LPP算法结合卷积网络

基于卷积神经网络无监督特征提取方法的主要步骤包括：样本集的归一化、LPP算法用于卷积核的学习、网络对人脸特征的提取、相似度计算。

3.1 样本集的归一化

假设样本集中有N张人脸图像，将样本集记为X=[x1,x2,…,xN]，确保识别的人脸图像具有一定的鲁棒性，样本集中的图像应尽可能包括姿态、光照、表情和分辨率的变化。文中选取的训练集是人脸识别领域应用较广泛的Yale和FERET人脸库，将图像都归一化成大小为80*80像素。

3.2 LPP算法用于卷积核的学习

卷积核的学习也就是对图像的特征进行提取。LPP算法比较适合局部特征提取，所以考虑对图像先进行分割，再从分割的小块中利用LPP算法进行特征提取以获得卷积核。具体步骤如下：

(1)将归一化后的人脸图像切割成4块同等大小的width*height=40*40块，对切割后每一个人脸小块，先在其上提取9*9大小的小块，步长为1，记为：

Xi=[xi,1,xi,2,…,xi,m*n]∈R9*9*mn

(7)

其中，m=width-9+1=32,n=height-9+1=32。

(2)再用Xi减去所有人脸小块的均值，得到：

(8)

(3)逐一处理样本集中的图像后，得到：

(9)

(4)通过LPP算法，求解投影矩阵W，即求解式10的特征值及特征向量。

XLXTw=λXDXTw

(10)

选择前d个投影矩阵作为卷积核。

W=[w1,w2,…,wd]∈R9*9*d

(11)

这里每一个投影矩阵可以看作一个独立的卷积核，取d为10，即卷积核个数为10。按上述步骤对所有分割后的40*40的人脸块进行卷积核学习。

3.3 网络对人脸的特征提取

网络对于输入的人脸图像，首先进行卷积操作，每个输入图像分别经过10个9*9的卷积核进行卷积操作，得到4*10个响应图，响应图中的响应值通过非线性激活函数操作进行归一化，其目的是引入特征的非线性特性。非线性激活函数选取sigmoid函数。其次，经过卷积网络的池化操作来降低特征维度，同时保留最重要的信息。池化操作选取的是MaxPooling。对输入图像xi，通过上述操作后的所有响应图特征拉直后得到的特征表示为fi。最后采用主成分分析法进行特征降维处理。计算训练集特征的协方差矩阵：

(12)

其中，μ表示特征的均值。

Wpca=argWmax|WTSTW|=[w1,w2,…,wm]

(13)

其中，{wi|i=1,2,…,m}表示协方差矩阵中前m个最大特征值所对应的特征向量。

对于输入的特征fi，经过WPCA降维后得到：

(14)

其中，E为特征值开根号后按以下形式组成的对角矩阵。

(15)

所有特征降维记为Y={y1,y2,…,yN}。

3.4 相似度的计算

将特征Y={y1,y2,…,yN}，进行二范数归一：

(16)

只需计算特征的内积：

sim(y1,y2)=y1*y2

(17)

具体步骤描述如下：

步骤1：给定样本训练集X=[x1,x2,…,xN]，归一化后，通过式7～9计算后得到处理后的图像集。

步骤2：对于训练集样本中每一幅图像，首先进行分割，利用LPP算法学习判别投影，保留前d个投影矩阵作为卷积核，依次处理每个分割图像，进行卷积核学习。

步骤3：构建网络。对于输入的每一幅图像进行卷积操作、sigmoid操作、MaxPooling操作、WPCA降维操作及相识度计算。

该方法应用于人脸识别，可以利用大量的无监督人脸数据学习出所需的特征，网络结构简单，训练速度优于有监督的深度卷积网络。

4 实验与分析

考虑姿态对人脸识别结果的影响，实验所用的数据库选择了Yale和FERET。

4.1 实验数据集

(1)Yale人脸库。

Yale人脸库包含了15个人的人脸图像，每个人有11张，一共165张图像，主要受光照、表情和姿态等因素变化的影响。实验中训练样本随机选取每个人的3,4,5幅图像构成训练样本集，其他作为测试样本集。

(2)FERET人脸库。

FERET人脸库共包含了200个人的1 400幅图像，其中包含每个人7幅不同姿势和光照下的图像，人脸图像的变化比较单一。只选取前20个人的图像进行实验。实验中训练样依然随机选取每个人的3,4,5幅图像构成训练样本集，其他作为测试样本集,多次测试取平均值。

4.2 实验结果与分析

表1和表2分别是文中方法和经典的描述子Gabor[6]、LBP[7]、PCA-Net[20]及K-means+LDA+CNN[16]方法在数据集Yale和FERET上的实验结果比较。可以看出，该方法相对于其他方法取得了较好的识别率。

表1 Yale数据集上不同训练样本数下的

表2 在FERET数据集上不同训练样本数

5 结束语

就如何充分利用大量无标签的人脸数据这一问题，提出了一种基于卷积网络的无监督特征提取方法。首先，利用无监督的LPP算法对大量的无标注的数据进行卷积核学习，提高了卷积核的判别性。其次，设计的卷积网络结构简单，训练速度快。与几种经典及主流的方法在Yale数据集和FERET数据集上进行实验比较，结果也表明，该方法的性能优于其他方法。同时该方法也存在不足之处，如网络结构简单，降维算法可能不是最优，所以仍需要进一步完善。

参考文献：

[1] 周杰，卢春雨，张长水，等.人脸自动识别方法综述[J].电子学报，2000，28(4):102-106.

[2] 周激流，张晔.人脸识别理论研究进展[J].计算机辅助设计与图像学学报，1999,11(2):180-184.

[3] TURK M,PENTLAND A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):71-86.

[4] KWON O W,LEE T W.Phoneme recognition using ICA-based feature extraction and transformation[J].Signal Processing,2004,84(6):1005-1019.

[5] BARTLETT M S,LADES H,SEJNOWSKI T.Independent component representations of face recognition[C]//Proceedings of the SPIE symposium on electronic imaging:human vision and electronic imaging.San Jose,Califormia,USA:IEEE,1998:3299-3310.

[6] LIU Chengjun,WECHSLER H.Gabor feature based classification using the enhanced fisher liner discriminant model for face[J].IEEE Transactions on Image Processing,2002,11(4):467-476.

[7] AHONEN T,HADID A,PIETIKAINEN M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.

[8] BICEGO M,LAGORIO A,GROSSO E,et al.On the use of SIFT features for face authentication[C]//Computer vision and pattern recognition workshop.New York,NY,USA:IEEE,2006.

[9] RANGANATH S,ARUN K.Face recognition using transform features and neural networks[J].Pattern Recognition,1997,30(10):1615-1622.

[10] LEE S Y,HAM Y K,PARK R H.Recognition of human front faces using knowledge-based feature extraction and neurofuzzy algorithm[J].Pattern Recognition,1996,29(11):1863-1876.

[11] LAWRENCE S,GILES C L,TSOI A C,et al.Face recognition:a convolutional neural network approach[J].IEEE Transactions on Neural Network,1997,8(1):98-113.

[12] TAIGMAN Y,YANG Ming,RANZATO M A,et al.Deepface:closing the gap to human-level performance in face verification[C]//IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:1701-1708.

[13] SUN Yi,WANG Xiaogang,TANG Xiaoou.Deep learning face representation by joint identification-verification[C]//Proceedings of the advance in neural information processing systems.Cambridge:MIT Press,2014.

[14] 陈耀丹,王连明.基于卷积神经网络的人脸识别方法[J].东北师大学报:自然科学版,2016,48(2):70-76.

[15] 刘秀青.卷积神经网络在人脸检测中的应用研究[D].太原:山西大学,2015.

[16] 许可.卷积神经网络在图像识别上的应用的研究[D].杭州:浙江大学,2012.

[17] 朱陶,任海军,洪卫军.一种基于前向无监督卷积神经网络的人脸表示学习方法[J].计算机科学,2016,43(6):303-307.

[18] 鲁珂,赵继东,叶娅兰,等.保局投影算法在图像检索中的应用研究[J].计算机应用研究,2006,23(12):56-58.

[19] HE Xiaofei,YAN Shuicheng,HU Yuxiao,et al.Face recognition using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):328-340.

[20] CHAN T H,JIA Kui,GAO Shenghua,et al.PCANet:a simple deep learning baseline for image classification?[J].IEEE Transactions on Image Processing,2014,24(12):5017-5032.