基于级联滤波器深度学习的铁路安检人脸识别与验证研究
2018-07-10李鹍,吴宁,宋明,杨锐
李 鹍,吴 宁,宋 明,杨 锐
(1.中国铁道科学研究院集团有限公司 标准计量研究所,北京 100081;2.钦州学院 电子与信息工程学院, 钦州 535011;3.中国铁道科学研究院集团有限公司,北京 100081)
铁路进站安检是保证铁路安全的一个重要环节,随着旅客流量的增加,旅客证件和车票检查的工作量日益增大,导致了对车站安检人员的数量需求越来越大,旅客满意度下降,采用自动化模式进行旅客证件和车票检查的需求越来越强烈[1]。近年来,人脸识别技术已经应用于多个领域,随着我国铁路信息化建设脚步的不断加快,人脸识别技术将会在铁路安全领域中得到广泛应用[2]。
在传统人脸识别应用中,通常会使用全联通卷积神经网络(CNN)算法,但是,该算法测试时间长、识别率低,并不适合铁路安检中的实时人脸验证[3]。在发现非线性滤波可以用于模式识别后,研究人员开始考虑其在人脸识别中的应用。1996年,Dubois的研究展示了使用非线性阈值分离的级联线性滤波器的潜力[4],并把非线性滤波应用于空间域,而不是在频域中。在Dubois的研究中,线性滤波器根据自动空间频率选择器(ASFS)方法进行了优化,并且注意到单层ASFS滤波器的性能明显提高[5]。随后,Reed和Coupland发现,级联滤波器是在测试前馈神经网络进行移位不变模式识别输出时必须采取的形式[6],并且两层级联滤波器具有与二次贝叶斯分类器可比的性能[7]。在对级联滤波器的位移不变和旋转不变的模式识别研究中发现,级联滤波器对于字符识别和细菌图像识别有着优异的非线性性能,但是对于级联滤波器在人脸识别的应用研究尚未见报道[8]。
本文介绍铁路安检中利用级联相关滤波器进行人脸识别的应用研究。研究用于识别和验证户籍数据库中的人脸图像的级联滤波器,并利用公开的3个人脸数据库(ORL、AR、Feret)进行实验验证。通过与全联通CNN的性能进行对比,我们发现级联滤波器在识别率上略优于全联通CNN,而在测试速度上远快于全联通CNN。
1 级联滤波器理论
1.1 级联滤波器定义
1.1.1 相关滤波函数
一般来说,相关滤波器是一个线性移位不变函数,它的输出相对位置的函数表示两个图像之间的相似度。在矢量符号中,可以将二维图像写为n维向量x=[ x1, x2,…, xn]T,其中,n是像素数,T表示置换。用一个滤波器核(或脉冲响应)h =[h1, h2,…,hn]T来定义一个相关运算符H:
其中,上标*表示共轭。下标的n为向量的模,使得:
1.1.2 级联滤波器阀值函数
定义一个阈值运算符T对矢量的各个分量进行操作。
一般说来,要对滤波器的输出结果取模,所以,定义了以下取模运算符M:
1.1.3 相关滤波器的通式
构建m层级联滤波器F为:
其中,每个运算符的下标表示给定运算符的层级。为了优化滤波器Hi和阈值Ti,定义k个测试图像的矩阵集S,使得S = [s1, s2,..., sk],将S带入式(5),得相应的输出矩阵R。
定义期望输出强度图像O的矩阵。为了对级联滤波器进行深度学习从而验证被测试人脸的证件信息,目标类图像的期望输出将是户籍数据库中证件的人脸图像,一般为身份证照片。不失一般性,对于非目标类图像,我们所期望的输出为零。
为了实现期望的输出,通过使用适当的误差函数E来优化级联。如果Rij和Oij分别代表第j个测试的第i个像素和输出图像,使用的误差函数的形式是:
该表达式的第1项就是与目标输出的图像的偏差平方。给输出向量中的人脸元素所对应的像素加上额外的权重,更容易优化得到用于识别人脸的最优解,所以,给式(6)中的第2项一个权重系数,其中,像素p~q是期望输出人脸图像中表示人脸内容所在元素的位置。
1.2 级联滤波器优化
1.2.1 优化方法
确定滤波器结构之后,需要优化滤波器参数,使滤波器的输出能达到或接近期望的目标图像。优化滤波器参数与测试CNN网络一样,利用数值优化策略进行多维误差的最小化[9],优化误差函数的方法取决于误差函数的性质和可用的计算资源。有一些线搜索算法,例如Nelder-Mead下坡算法,只能得到一个局部最优值[10],而模拟退火[9]算法会有可能得到一个全局最优解,但是计算时间会大大增加。
本文先使用随机搜索算法,找到误差函数值的一个较低值区域,再采用线搜索方法进一步最小化误差函数。在优化滤波器时,如果采用随机搜索的方法在预定的最长时间内还未找到一个较低值的区域,那就放弃搜索,因为在铁路安检的应用中,乘客的等待时间是有限的。在优化测试级联滤波器的时候,初始参数的选择至关重要,是能否找到全局最优解的关键因素之一。在本研究中,我们根据人脸识别的经验,确定了一组随机数作为初始参数。
1.2.2 级联滤波器边缘效应
在实际应用中,由于需要识别的图像大小不确定,所以需要一个相对小的滤波器核来识别在一个比较大的图像中的对象。本研究中,在级联滤波器结构的每层中采用16×16像素的滤波器,由于被测试和被识别的图像往往都会比滤波器核的尺寸要大,这就需要对滤波器核进行补零操作。而且,如果滤波器采用相同大小的测试图像进行优化后,当测试图像被粘贴到更大的图像中时,滤波器就失去了识别的性能,这是由两幅图像在互相关过程中的边缘效应造成[11]。为此,我们通过在测试过程中的补零操作来避免优化过程中的边缘效应。
2 人脸数据库测试
为了测试级联滤波器对人脸的识别能力,分别采用ORL、AR、Feret这3个在线人脸数据库来测试级联滤波器。本研究的测试在Matlab 2017仿真平台进行,所使用的计算机硬件配置是:Intel i7-7500 CPU @2.7 GHz,8 GB RAM。
2.1 ORL人脸数据库测试
在测试ORL数据库的过程中,把每个人脸图像中的第1张正面图像作为目标输出图像,剩下的9张图像作为测试图像。这样,就有40张目标人脸图像和360张测试图像,其中,每张目标人脸图像对应9张同类人脸图像,剩下的351张为非同类人脸图像。
2.2 AR人脸数据库测试
在测试AR数据库的过程中,选取每个人脸的第1张正面图像作为目标输出图像,其他的12张图像作为测试图像。这样,就有120张目标人脸图像和3 000张测试图像,其中,每张目标人脸图像对应25张同类人脸图像,剩下3 094张为非同类人脸图像。
2.3 Feret 人脸数据库测试
在测试Feret数据库的过程中,选取每个人脸的第1张正面图像作为目标输出图像,其他的6张图像作为测试图像。这样,就有200张目标人脸图像和1 200张测试图像,其中,每张目标人脸图像对应6张同类人脸图像,剩下1 393张为非同类人脸图像。
3 实验分析
3.1 测试方法分析
在测试以上3个人脸数据库的过程中,把每个人脸的第1张图像(即正面无遮挡图像)作为目标类的测试图像和期望输出,把任意两个其他人脸的第1张图像作为非目标类的测试图像,而非目标类的期望输出为零。在对目标类的图像进行测试完成之后,用式(6)来计算滤波器的实际输出与期望输出的误差值Er。在测试阶段,测试图像输入后,从滤波器的输出图像用式(6)来计算与期望图像的差值Et。如果测试图像与目标类图像的差别太大,误差值Et将会严重偏离Er。经过大量的测试和分析,我们发现85%以上目标类图像的输出差值Et都分布在Er的1.2倍以内,所以在测试过程中,如果Et<1.2Er,则认为此测试图像为目标类图像,否则为非目标类图像。
3.2 测试结果对比分析
为了与全联通CNN的性能进行对比,把同样的测试图像通过全联通CNN网络进行编程测试,并把结果与级联滤波器的性能进行对比。图1是用级联滤波器和全联通CNN对ORL数据库里的40张正面人脸的测试结果,可以看到,对于大部分人脸类别来说,级联滤波器的识别率都比CNN高,级联滤波器的平均识别率比全联通CNN高6%左右。图2是对AR数据库里的120张正面人脸的测试结果,图上的数据显示,级联滤波器的识别率稳定在80%左右,与之相比, 全联通CNN的识别率的起伏就要大很多,大概在75%~83%之间,总体来说,级联滤波器的识别率在大部分AR数据库的人脸类别上优于全联通CNN。图3是对Feret数据库里的200张正面人脸的测试结果,由图可知,级联滤波器的识别率与全联通CNN的很接近,但是对于大部分Feret图像类别来说,级联滤波器的识别率优于全联通CNN。从图1~图3的数据可以看出,级联滤波器的识别率比全联通CNN的识别率要略好一些;但是从图4的计算时间来看,级联滤波器的所需要的识别时间是全联通CNN的30%左右,级联滤波器的识别速度比全联通CNN快3倍以上。
图1 ORL数据库里的40张正面人脸的测试结果
图2 AR数据库里的120张正面人脸的测试结果
图3 Feret数据库里的200张正面人脸的测试结果
图4 3个数据库的360张正面人脸的测试时间对比
4 结束语
本文研究了两层级联滤波器用于铁路安检中身份验证的性能,并与全联通CNN的性能进行了对比。以3个在线人脸数据库为例验证了该方法的可行性,从实验数据可以看出,级联滤波器平均识别率优于全联通CNN的8%以上,识别速度优于全联通CNN的3倍以上,证明了级联滤波器在铁路安检身份验证应用的可行性。今后将继续研究级联滤波器应用在人脸识别中的识别率问题,希望能够进一步提高识别率。
[1] 王 京,王 冰,王 珂. 铁路客运站安检区域人脸识别系统设计与实现[J]. 铁路计算机应用, 2012, 21(6): 83-86.
[2] 安 然,王辉麟. 人脸识别系统在铁路车站安检区域应用的研究[J]. 铁路计算机应用, 2012,21(9): 21-24.
[3] Masakazu Matusugu, Mori Katsuhiko, Mitari Yusuke, et al.Subject independent facial expression recognition with robust face detection using a convolutional neural network[J]. Neural Networks, 2003, 16 (5): 555–559.
[4] Dubois F. Nonlinear cascaded correlation processes to improve the performances of automatic spatial-frequency-selective filters in pattern recognition[J]. Applied Optics, 1996(35):4589–4597.
[5] Dubois F., Automatic spatial frequency selection algorithm for pattern recognition by correlation[J]. Applied Optics,1993(32):4365–4371.
[6] Reed S., Coupland J. M. Cascaded linear shift-invariant processors in optical pattern recognition[J].Applied Optics,2001(40):3843– 3849.
[7] Reed S., Coupland J. M. Statistical performance of cascaded linear shift-invariant processing[J]. Applied Optics,2000(39):5949 – 5955.
[8] Wu N., Alcock R.D., Halliwell N.A. and Coupland J.M.Rotationally invariant pattern recognition using linear and nonlinear cascaded filters[J].Applied Optics, 2005, 44 (20):4315-4322.
[9] Teukolsky S. A., Vetterling W. T., Flannery B. P. Numerical Recipes[M]. Cambridge: Cambridge U. Press, 1992.
[10] Nelder J. A., Mead R. A simplex-method for function minimization[J]. Computer Journal, 1965(7):308 –313.
[11] Pratt W. K. Digital Image Processing[M]. Hoboken, USA:Wiley, 1991.