APP下载

基于结构化局部约束低秩表示的人脸识别

2020-06-17蔡晓云尹贺峰

关键词:训练样本识别率像素

蔡晓云,尹贺峰

(1.江南大学 物联网工程学院,江苏 无锡 214122;2.镇江市高等专科学校,江苏 镇江 212028)

在计算机视觉和机器学习等领域,一个重要的研究问题是如何得到具有鉴别性的数据表示,有效的数据表示在各种学习系统中有着重要的作用.合适的数据表示能够揭示观测数据的潜在信息并为机器学习方法提供便利.

稀疏表示在信号处理、机器学习和计算机视觉等领域得到了广泛研究和应用,稀疏表示的思想是每个信号可以利用过完备字典中的原子稀疏线性表示.在人脸识别领域最具有代表性的方法是J.WRIGHT等[1]提出的稀疏表示分类(sparse representation based classification,SRC)算法,SRC对测试样本图像中存在的遮挡和像素破坏等具有较好的鲁棒性.SRC利用所有训练样本来表示测试样本,属于全局的分类方法.为了利用数据的局部分布结构,殷俊等[2]提出基于局部表示的分类算法(local representation based classification,LRC).LRC使用测试样本局部范围内的训练样本对其进行线性表示,这样获得的局部表示系数在保持稀疏性的同时包含有效的局部信息.

近年来,低秩表示成为很多研究领域的热点课题.稀疏约束仅能确定每个数据样本的局部结构,而低秩约束可以挖掘数据的全局结构.此外,低秩表示可以得到观测数据间的相关性.鲁棒主成分分析(robust principal component analysis,RPCA)[3]是低秩矩阵恢复的一种代表性方法,RPCA的目的是通过低秩约束从污损的观测数据中恢复出干净数据.RPCA基于的假设是数据来自单一的子空间,并且能够分解成2个单独的部分,即低秩部分和稀疏噪声部分.然而RPCA不能处理污损或异常数据来自多个子空间的情形,因此LIU G.C.等[4]提出利用LRR (low rank representation)进行矩阵恢复并应用于子空间的分割.此外,很多学者提出基于低秩表示的字典学习方法用于图像分类.WEI C.P.等[5]提出了结构不相关低秩表示(low-rank with structural-incoherence,LRSI),LRSI逐类别对训练样本进行恢复.当训练样本类别较多时,逐类别优化比较耗时.为了解决这个问题,ZHANG Y.M.等[6]提出了结构化低秩表示(structured LRR,SLRR),SLRR可以同时对整个训练样本集进行低秩恢复.LI Y.等[7]提出了逐类别块对角结构表示(representation with classwise block diagonal structure,RCBD)方法,RCBD可以同时得到训练样本和测试样本的表示系数.

上述低秩表示及其改进方法在图像分类中取得了不错的结果,然而它们的性能依然有限,一个主要的原因是它们不能有效地将原始数据特征转变成鉴别性特征表示.基于自表示特性[8],理想的块对角结构表示通过嵌入全局语义结构信息和鉴别分类能力,可以捕获样本的潜在数据信息[6].因此如果能够在识别任务中利用带有块对角结构的数据表示,那么将会取得优异的识别结果.笔者提出一种结构化局部约束低秩表示(structured locality-constrained low rank representation,SLCLRR),SLCLRR引入理想编码系数矩阵正则项,可以增加不同类别样本表示系数之间的鉴别性.SLCLRR可以同时得到训练样本和测试样本的表示系数,增加训练样本和测试样本表示系数矩阵之间的相关性.此外为了保持数据的流形结构,引入局部约束项,使得相似的样本具有相似的表示系数.

1 低秩矩阵恢复及结构化低秩表示

1.1 低秩矩阵恢复

虽然SRC方法取得了优异的识别性能,但当训练数据中存在污损(遮挡或伪装等)时,SRC的性能会下降.可以借助低秩矩阵恢复技术对训练样本进行低秩分解,低秩矩阵恢复的目的是从原始数据中分离出稀疏噪声部分,同时得到保留低秩结构的数据.假设X=[x1,x2,…,xn]∈Rd×n为包含n个样本的观测数据矩阵,d为样本维数,每列为一个样本数据,则分解模型可以表示为

X=A+E,

(1)

式中:A为低秩矩阵;E为对应的稀疏噪声矩阵.

RPCA的目标函数[3]为

(2)

式中:‖·‖*为核范数;‖·‖1为L1范数;λ为噪声平衡参数.

式(2)可以通过增广拉格朗日乘子法(augmented Lagrange multiplier,ALM)[9]求解.

RPCA基于的假设是观测数据来自同一个单一的子空间,然而实际应用中的数据分布并非如此.以人脸图像数据为例,每个人的人脸图像来自一个单独的子空间.为了充分利用数据间的相关性,LIU G.C.等[4]提出了低秩表示,LRR的目标函数如下:

(3)

式中:D为字典矩阵.

1.2 结构化低秩表示

RPCA和LRR主要用于图像去噪和背景建模等领域,在图像分类中的性能有限.为了增加低秩表示的鉴别性,ZHANG Y.M.等[6]引入了理想编码矩阵正则项,目标函数为

(4)

式中:β为系数稀疏项平衡参数;α为块对角结构平衡参数;Q为训练样本的理想编码矩阵;‖·‖F为F范数.

该方法称为结构化低秩表示(SLRR),试验结果表明,SLRR对光照变化、遮挡和像素破坏等情形有较好的鲁棒性.然而SLRR在分类时需要在学习得到的字典矩阵上求解训练样本和测试样本的表示系数矩阵,即需要2次求解如下优化问题:

(5)

上述优化问题是低秩稀疏表示(low rank and sparse representation,LRSR),2次求解该问题比较耗时,另外会导致训练样本和测试样本表示系数矩阵之间的相关性降低.为了解决这个问题,提出了一种结构化局部约束低秩表示算法(SLCLRR),该方法可以同时得到训练样本和测试样本的表示系数.为了增加不同类别样本表示系数之间的鉴别性,引入了理想编码系数矩阵正则项.此外为了使得相似的样本具有相似的表示系数,引入了局部约束项.

2 结构化局部约束低秩表示

X=DZ,

(6)

SLCLRR的目标函数为

(7)

式中:W为样本距离度量矩阵;‖W⊙Z‖1的作用是使得相似的样本有相似的表示系数;Q=[q1,q2,…,qn]∈Rm×n为训练样本的理想表示系数;γ为字典矩阵的平衡参数.

使用与文献[6]相同的线性分类器来对测试样本进行分类.

引入辅助变量J和L,可以得到式(7)对应的增广拉格朗日函数[9],即

Λ(Z,J,L,E,D,Y1,Y2,Y3,μ)=

++

(8)

式中:=tr(ATB);Y1,Y2和Y3是拉格朗日乘法算子;μ为惩罚参数,μ>0.

在进行模型优化时,采用交替优化的策略优化每个变量,每次迭代时变量进行更新,更新方法参考文献[9].

3 试验结果及分析

在4个常用的数据集上进行试验,即AR数据集、Extended Yale B数据集、ORL数据集和LFW数据集.为了验证提出的算法的有效性,对比的方法有LLC[7],SRC[1],RPCA[3],LRSI[5],SLRR[6],FDDL[7],DLRD-SR[10]和LRSR[7].LRSR的目标函数如式(5)所示,SRW指的是使用所有训练样本作为字典矩阵的SRC算法,而SRS指的是使用和本文算法一样数目原子个数的SRC算法.所有算法均在Intel(R) Core(TM) i7- 4790 CPU @ 3.60 GHz,内存为16 G,Windows 10(64位)的台式机上使用MATLAB R2018b编程实现.

3.1 AR数据集

AR数据集有126个人的超过4 000幅彩色正面人脸图像,每人至少有26幅,这些幅图像在2个不同阶段采集,每个阶段采集13幅图像,其中有3幅墨镜遮挡图像,3幅围巾遮挡图像,其余7幅包含不同的表情和光照变化,这7幅图像是无遮挡图像.图像大小为165×120像素,图1只给出数据集中的部分图像.试验中选取了50名男性和 50名女性共100人的人脸图像,图像下采样为55×40像素.在如下3种遮挡情形下进行试验:

1) 墨镜遮挡(见图1d)人脸图像大概20%的区域,在该情形下,使用阶段1的7幅无遮挡图像和随机选择的1幅墨镜遮挡图像作为训练样本,使用阶段2的7幅无遮挡图像和余下的墨镜遮挡图像(包括阶段1的2幅图像和阶段2的3幅图像)作为测试样本.

2) 和墨镜遮挡相比,围巾遮挡(见图1e)的人脸区域更大,达到了40%.和墨镜遮挡情形类似,使用阶段1的7幅无遮挡图像和随机选择的1幅围巾遮挡图像作为训练样本,使用阶段2的7幅无遮挡图像和余下的围巾遮挡图像(包括阶段1的2幅图像和阶段2的3幅图像)作为测试样本.

3) 混合情形,在该情形下考虑训练样本中同时有墨镜和围巾遮挡图像.使用阶段1的7幅无遮挡图像、1幅墨镜遮挡图像(随机选择)和1幅围巾遮挡图像(随机选择)作为训练样本,余下的图像作为测试样本.

和SLRR算法一样,提出的SLCLRR方法在上述3种情形下每类的原子数为5个.不同方法在上述3种情形下的识别结果如表1所示,SLCLRR在墨镜遮挡、围巾遮挡和混合情形下分别比LRSR的正确识别率高出6.1%,7.9%和7.8%,说明SLCLRR对于遮挡具有较好的鲁棒性.

图1 部分AR数据库示例图像

表1 在AR数据集上各算法的正确识别率 %

3.2 Extended Yale B数据集

Extended Yale B数据集包含38个人的2 414幅人脸图像,每人有59~64幅不同光照下的图像,图像大小为192×168像素,部分示例如图2所示.采样率分别为1/2,1/4和1/8 倍,对应图像维数为8 064,2 016,504维.随机选择每个人的Nc幅(Nc=8或32幅)图像组成训练集,其余图像作为测试集.当Nc=8幅时,每类字典原子数为5个;当Nc=32幅时,每类字典原子数为20个.SLCLRR和其他对比算法的识别结果如表2所示.当Nc=8幅时,平均来看,SLCLRR比SLRR的识别率提高了1.1%;当Nc=32幅时,平均来看,SLCLRR比SLRR的识别率高出5.3%.在Extended Yale B上的试验结果表明,SLCLRR算法能够较好处理图像中存在的光照变化.

图2 部分Extended Yale B数据库示例图像

表2 在Extended Yale B数据集上各算法的正确识别率

3.3 随机像素破坏

试验选择AR数据集每个人第1阶段的7幅无遮挡图像(仅有光照和表情变化)作为训练集,每个人第2阶段的7幅无遮挡图像作为测试集.每类字典原子数为7个.和文献[6]的试验设置相同,随机选择所有训练样本和测试样本一定比例的像素,采用服从[0,Vmax]均匀分布的像素进行替换,其中Vmax为图像中最大的像素值,并且被替换像素的位置未知.各算法在不同比例噪声破坏下的识别率曲线如图3所示.

图3 各算法在不同比例噪声破坏下的识别率曲线

从图3可以看出:在不同比例噪声破坏下,SLCLRR的正确识别率比LRSR平均高出9.8%,尤其在噪声比例为35%时,SLCRR的识别率比LRSR高出20.8%,充分说明了SLCLRR对随机像素破坏具有较好的鲁棒性.

3.4 ORL数据集

ORL是基于表情和姿态变化的人脸数据库,该数据库由40个人,每人10幅不同姿态和表情的人脸图像组成,总共400幅.图像的分辨率为112×92像素,灰度级为256.试验中随机选择每个人的5幅图像组成训练样本,其余为测试样本,图像缩放大小为28×23像素.随机选择每幅训练和测试图像中的图像块用不相关随机图像进行替换,试验在不同的遮挡比例下进行,部分随机遮挡图像如图4所示.SLCLRR及其对比算法在不同遮挡比例下的识别结果如表3所示,在没有遮挡时,SLCLRR的识别性能低于FDDL,随着遮挡比例的增大,SLCLRR一直能取得最好的识别结果.

图4 ORL数据集中一幅图像被不同比例遮挡后的图像

表3 在ORL数据集上各算法的正确识别率 %

3.5 LFW数据集

原始LFW数据集包含5 749个人的图像.使用LFW-a数据集,它是基于商业人脸对齐软件对齐后的数据.试验使用的LFW-a数据文件由文献[11]作者提供,它包含158个人的每人10幅图像.随机选择每个人的5幅图像构成训练集,其余5幅作为测试集.图像大小为90×90 像素,部分LFW-a数据库示例图像如图5所示.算法SLCLRR,LRSR,SLRR,LRSI,RPCA,CRC,SRC,LLC在LFW-a数据集上的正确识别率分别为71.0%,62.1%,68.2%,66.2%,66.3%,64.6%,68.3%,60.1%.试验结果表明,SLCLRR能够较好处理无约束环境下采集的人脸图像.

图5 部分LFW-a数据库示例图像

4 结 论

提出了将结构化局部约束低秩表示算法用于人脸识别,该方法考虑了如下信息:① 通过引入理想编码系数矩阵正则项,SLCLRR使得同类样本的表示系数尽可能接近,同时不同类别样本的表示系数尽可能不同,增加了编码系数的鉴别性;② 为了保持数据的流形结构,SLCLRR引入了局部约束项,这样使得相似的样本具有相似的表示系数;③ SLCLRR可以同时得到训练样本和测试样本的表示系数矩阵,增加了训练样本表示系数和测试样本表示系数之间的相关性;④ 通过字典学习,SLCLRR可以降低字典矩阵的冗余,同时具有较好的表示能力.在多个标准数据集上的试验结果表明,SLCLRR对于光照变化、表情变化、遮挡、随机像素破坏和真实环境下的人脸图像具有较好的鲁棒性.

猜你喜欢

训练样本识别率像素
像素前线之“幻影”2000
人工智能
“像素”仙人掌
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
提升高速公路MTC二次抓拍车牌识别率方案研究
ÉVOLUTIONDIGAE Style de vie tactile
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
高速公路机电日常维护中车牌识别率分析系统的应用