代价敏感学习的稀疏局部保留投影算法
2015-09-21林克正钟岩程卫月
林克正++钟岩++程卫月
摘要:针对已有的局部保留投影(locality preserving projections,LPP)算法可能将相似的类别误投影到一起,导致正确识别率降低的问题.在局部保留投影算法的基础上,提出了一种基于代价敏感学习的稀疏局部保留投影算法(cost-sensitive sparse locality preserving projections,CSLPP).该算法将代价敏感学习引入到人脸识别中,首先对样本进行代价敏感思考,然后再将样本稀疏化,最后求得最优投影向量.通过在YALE人脸库和FERET人脸库上实验,结果表明CSLPP算法在投影之前将代价考虑进去,有效的避免了高风险,该算法在最近邻分类器上的的识别率明显高出其它算法的识别率.
关键词:局部保留投影;人脸识别;代价敏感;稀疏化
DOI: 10.15938/j.jhust.2015.03.009
中图分类号:TP391.4
文献标志码:A
文章编号:1007-2683(2015)03-0045-06
O 引 言
在自动化智能化程度日益提高、通讯高度发达的信息社会里,信息安全受到了空前的重视,身份识别已经成为人们日常生活中不可或缺的重要手段.随着信息安全技术的迅速发展,生物特征识别中的人脸识别技术渐渐取代了传统的身份识别技术,人脸识别因其方式友好并且最接近人类视觉认知同时采集十分方便而受到广泛的关注,近几年,人脸识别是生物特征识别技术领域比较热的研究课题.
在过去的一段时间,稀疏编码技术已经在信号处理、图像识别等领域得到广泛的应用.稀疏表示可以用较少的数据来充分表示出图像的重要信息,结合LPP,一种新的线性降维方法——稀疏保留投影(sparse preserving projections,SPP)算法被提出来,人脸识别的鲁棒性问题也已经被该算法很好地解决.
近年来,代价敏感学习方法成为机器学习和模式识别领域的一个研究热点.其主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器.在实际现实中,不同的错误分类往往会带来不同的错分损失.例如基于人脸识别的门禁系统,将入侵者错分成合法者的损失要大于将合法者错分成入侵者的损失,而将合法者错分成入侵者的损失又要大于将合法者错分成其他合法者的损失,因此,代价敏感学习更应该应用到人脸识别中,
因此,本文在稀疏保持投影( sparse preservingprojections,SPP)的基础上,提出了代价敏感学习的稀疏局部保留投影(cost - sensitive sparse localitypreserving projections,CSLPP)算法.这种方法不但继承了局部保持的含义——使那些原本离目标样本近的样本在投影后还是保持离目标样本较近,而且对样本进行代价敏感思考,有效的避免高风险.将该算法应用到人脸识别领域,有较好的表现.
1 代价敏感学习算法
常用的代价敏感学习方法主要有3类:
第一类,构造一个代价敏感的学习模型,包括决策树、Boosting、神经网络、代价敏感的支持向量机分类算法等,
第二类,按照传统的学习方法进行学习,然后对其分类,结果利用贝叶斯理论进行调整,减少损失.
第三类,学习原始的数据,通过学习,改变原始的样本分布,得到新的代价敏感模型.
给定数据集 表示第i类样本的总数,数据集D是均衡的当且仅当 ,否则称D为不均衡的.
代价(cost)是指某一事情的完成结果对这个事情所引起的风险,假设有c类样本,将第i类样本划分正确的可能性为1%,划分成第c类的可能性为99%.所以将第i类样本错误分类为第c类的可能性要大许多,或者将第c类样本错分成第i类样本的可能性要小许多,但是这两种情况的代价是不同的,为了降低风险,我们在分类时需要将代价考虑进去,代价敏感学习能有效地提高稀有类的识别率,很多时候,稀有类是识别的重点,正确识别出稀有类样本更有价值.
将表1中的数学符号做如下说明,设:
1)观察x是d维随机向量 ,其中 为一维随机变量.
2)c个自然状态组成了状态空间,状态空间由c个 组成.
3)a个决策 组成了决策空间,这里a和c不同,是由于除了对c个类别有c种不同的决策外,还允许采取其他决策,如采取“拒绝”的决策时,这时就有a=c+1.
4)损失函数为 表示当真实状态为 而采取的决策为 时所带来的损失.
2基于代价敏感学习的稀疏局部保留投影
2.1理论基础
局部保留投影算法和稀疏保留投影算法仅仅是追求最低的识别错误率,因此这两种算法在对样本进行分类的过程中都假设了错分代价是相同的,然而这种假设应用到人脸识别中往往是不成立的,人脸识别是一种代价敏感问题.
相比于LPP算法,SPP通过稀疏重构处理,不仅兼顾了样本的全局和局部属性,并且保留了样本的稀疏重构关系,能够获得相对稳定的投影,SPP算法是一种无监督的方法.
SPP算法寻找最优的投影向量,使原始图像在投影向量上的投影与稀疏重构后样本在向量上的投影的差值最小.假设样本集 ,其中xi是已经对原始图像进行过列向量化的,首先将二维图像转化为一维图像,然后对转化后的一维向量列向量化,就得到了 ,对某个训练样本,利用剩余样本对其稀疏表示, ,求得稀疏表示稀疏si,其最优投影方向w计算如下:
记 为n维的单位向量且第i个元素为1,其余为0,则式(2)等效为:
则式(1)可以优化成如下问题:
为方便起见将式(3)转化成求最大投影向量的问题:
其中 对式(4)应用拉格朗日算法求解,式(4)可以转化为:
最后所求的SPP的最优投影向量 的d个最大特征值所对应的特征向量,所以SPP首先通过构建稀疏权值矩阵s,再计算投影矩阵w,SPP在实际中很容易使用,因此也为基于代价敏感学习的稀疏局部保留投影算法提供了基础.
2.2算法的设计
CSLPP是在SPP的基础上提出来的,SPP通过稀疏重构处理,保持了样本的内在局部信息,CSLPP继承了SPP算法的优点,又将样本进行代价敏感思考,所以,可以有效的避免高风险. 存在数据集 是此样本集中的第i个样本,将xi稀疏重构之后得到样本集 ,其中, 的定义如下:
将SPP的目标函数进行优化,得到CSLLPP的目标函数:
其中A表示稀疏系数:
其中: 表示把第i类样本误分为第J类样本的代价;I为样本所含类别总数;N为训练集中样本的总数; 为类别 中的样本总数; 。为规范化因子,用来保证修改后的样本权重总和仍然等于N; 为最优投影方向;x为训练样本集.S是无监督的近邻图,其表示如下:
Sij和两近邻样本的距离变化图为图1,Sij的数值由小变大,表示在近邻样本中,当两者的距离较近时,稀疏较大,当两者的距离较远时,稀疏较小.
代价敏感学习主要考虑将样本错误分类时需要付出的代价,为了表示分类的不平衡问题,先用一个代价矩阵来表示,表2是两类代价矩阵表:
根据代价矩阵的定义, .可得:
D为对角阵, 是Laplacian矩阵 是来衡量Yi重要性, 越大相对应的Yi越重要,填加式子(11)作为约束条件:
问题转化为式(12)此最小化问题可以转化为求解如下特征方程的特征值问题,式(13)最小解即为最小特征值相应的特征向量:
CSLPP算法的设计流程图如图2:
3 实验结果与分析
3.1不同分类器的识别结果
本实验选择在模糊k近邻分类器、神经网络与贝叶斯分类器、最近邻分类器、支持向量机分类器4种分类器下,对4种算法的识别率进行了比较,图3为将样本代价敏感稀疏表示后样本标签和稀疏系数之间的关系.
为了寻找最优分类器,观察表4、表5、表6、表7,可以发现YALE人脸库的识别率普遍比FERET人脸库的识别率高,原因是YALE人脸库的图片比FERET人脸库的图片简单.在识别率方面,CSLPP算法的识别率最高,LPP、SPP、概率距离判据的特征提取算法和欧式测量的特征提取算法的识别率偏低.其中LPP只考虑样本的局部,忽略了一些全局的特征,同样的,SPP算法考虑的是全局特征,忽略了局部的一些局部的特征,相同实验设置下,CSLPP算法的识别率更高一些,由下面4个表可以看出,各种算法在使用最近邻分类器的情况下识别效果最好,
3.2不同人脸库的实验
根据3.1的实验结果,在接下来的实验中选择最近邻分类器.图4为5种特征提取方法在FE-RET人脸库上,不同维数的情况下的识别效果,图4中a代表代价敏感学习的稀疏局部保留投影b表示稀疏局部保留算法c表示局部保留投影算法,图4中d表示按概率距离判据的特征提取算法的识别效果,e表示按欧式测量的特征提取的识别效果.
图5为5种特征提取算法在YALE人脸库上的识别效果.图6为5种特征提取算法在JAFFE人脸库上的识别效果.图中横坐标表示特征维数,纵坐标表示识别率,两个人脸库下由图可以看出,本文所提出的代价敏感学习的局部保留投影的识别率比其他4种特征提取算法平均高出15%,并且在YALE和FERET人脸库上最高识别率已经超过95%,大约可以到达98%上下,在JAFFE表情库上也比其它3种算法高出10%左右的识别率,这些数据表明代价敏感学习是值得与人脸识别技术联系在一起的.
由于YALE人脸库的图片较少,接下来的实验的可行性比较高,考虑在YALE人脸库中,不同训练样本集下,各算法的识别性能,采用随机选择训练样本,每一个类随机地选择Z个样本作为训练样本,剩余(II—l)个为测试样本,独立地训练10次,求取平均识别率.m为特征维数,设置近邻数k=2.表8中a、b、c、d、e分别代表5种算法,表8表示在选取不同个数训练样本集的情况下,各算法的最高识别率及相应的特征维数的比较.可以看出随着样本数的不断增加,同时各算法的识别率也在增加,不难发现,样本数量越多越有利于分类,并且算法a的优势十分明显.
从以上的实验数据可以看出,CSLPP算法在YALE人脸库和FERET人脸库上,比较与其他4种算法,有着不可超越的高识别率,
4 结 语
本文提出了一种新的特征提取算法——代价敏感学习的稀疏局部保留投影(CSLPP)算法.CSLPP算法引入了代价敏感学习,使其一方面保持了样本稀疏重构后的全局和局部属性,另一方面,该算法将错分代价融入SPP模型中,使算法满足错分代价最小化准则,降低了样本的错分风险.同时,该算法在维数较低的情况下就有着与其他算法相比较高的识别率.在YALE和FERET人脸数据库上的试验结果表明了CSLPP算法的可行性和有效性,