基于加权最大边缘间距准则MMC的特征选择问题
2014-05-25董乃铭洪振杰
董乃铭,洪振杰
(温州大学数学与信息科学学院,浙江温州 325035)
基于加权最大边缘间距准则MMC的特征选择问题
董乃铭,洪振杰†
(温州大学数学与信息科学学院,浙江温州 325035)
特征选择是模式识别经典而重要的课题.由于不同类别样本之间存在边缘样本点,其分布区域互相交叉重叠,经典的MMC(Maximize Marginal Criterion)方法简单地采用最大化类中心距离,不利于样本分类.针对此问题,给出了一种基于加权最大边缘间距准则(加权 MMC)并改进了的特征选择算法,该方法考虑了不同类别数据边缘样本点在模式分类中的作用,建立了基于最大边缘间距的新型特征评分准则,提高了边缘样本点在衡量特征判别能力时的作用.在公开数据集 PIE和MIT-CBCL3000标准人脸图像库上进行了实验,结果表明,该算法与经典的MMC特征选择算法相比较具有明显的优势.
模式识别;加权MMC;边缘样本点
模式分类主要任务是处理高维数据.由于高维数据计算量大且复杂,从而导致运算时间变长,且不相关或者冗余特征往往干扰分类结果,不利于样本数据分类,因此,如何将高维数据降维,从而减少运行时间,降低冗余特征对样本分类的不利影响,成为处理高维数据面临的一个重要问题[1-2].在处理高维数据中,特征选择是一种非常重要的方法.根据样本类别标签信息,特征选择算法可以粗略地分成三类:无监督特征选择算法,半监督特征选择算法,监督特征选择算法.这些特征选择算法可以被归到Filter和Wrapper类中.Wrapper是特殊的分类,是基于特定分类器的特征子集选择方法;而 Filter独立分类,特征子集的选择基于定义好的分类器.通常,Wrapper可以取得比Filter更好的结果,因为Wrapper直接关系到特定分类器的算法结果.但是,Wrapper比Filter更耗费计算量,同时缺乏良好的泛化能力[3-4].
Fisher score和laplaceian score是运用很广泛的Filter形式的特征选择算法,它们同属于一般的全局特征选择框架,在这个框架中,特征子集的选择是基于整个特征全集的评分,评分是根据特定形式给出的.
计算评分有很多种方法,通常会采用散度比和散度差的形式.散度比应用在特征选择上时,由于样本个数相对于样本维数而言要少很多,那么在计算中就会出现小样本问题,导致模式分类出现异常.因此,在评分算法中,采用散度差的形式来计算特征评分,从而避免小样本问题,同时,在模式分类中,可以取得与散度比相差无几,甚至超过散度比的结果.
人脸识别技术,由于其在日常生活中的巨大应用前景,出现了越来越多的研究成果,he xiaofei等人在文献[5]中提出的基于laplacian score的特征选择算法,在实验上取得了很好的效果,在文献[6]中提出的基于laplacian准则的最小协方差标准[6],取得了较高的精确度;Li Haifeng等人提出的基于最大间距准则(MMC)算法[7],克服了fisher算法中的奇异值问题,取得了较好的效果.
本文研究方法基于最大间距准则特征选择算法.最大间距准则算法对于克服 Sw奇异值问题取得了很好的效果.该算法主要考虑样本间的中心距离,如图 1(a)所示,但是对于图 1(b)所示样本的分布情形,边缘样本点相距很小,但属于不同的样本类,在分类过程中可能会被归为一类,从而导致分类错误.边缘样本交叉,不利于样本的分类,因此在分类过程中若考虑到边缘样本点在分类中的作用,则可克服样本边缘交叉带来的分类误差.
图1 样本分布
1 MMC score特征选择算法
MMC score特征选择算法,是求平均类间边缘的特征选择方法,在分类识别方面优于PCA算法,并与LDA算法有近似的分类效果,有效地克服了小样本导致Sw奇异的问题,有较高的稳定性和可靠性.
2 加权MMC score特征选择算法
在样本数据中,考虑到距离样本中心的边缘样本点可能在分类过程中会起到关键的作用,同时,距离同类样本中心较远的样本点,在数据分类中可能发挥更大的作用,因此,在类间散度和类内散度前加个权重,并考虑不同类样本边缘样本数据点之间的距离,增强边缘样本点在模式分类中的作用,从而让类间散度更大,而类内散度更小,得到比MMC score、LDA score更好的实验结果,这就是本文所要探讨的基于最大边缘间距准则的特征选择算法,即加权MMC score特征选择算法KMMC score.
本文定义的类间散度、类内散度如下:
3)根据评分结果,对特征进行排序,按评分顺序挑选识别特征;
4)用最小近邻分类器对样本分类,得出精确度.
实验一:本实验在PIE标准人脸库上进行,该人脸库包含68位志愿者的41 368幅多姿态、光照和表情的面部图像,其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要的测试集合.图2是从PIE人脸图像库上采集的4人40副经过处理的人脸图像.
图2 来自PIE人脸图像库的人脸图像
本文采用90到130个特征值,取r=1,k=3和r=1,k=5,得到如下实验结果(图3).
图3 实验一的结果
实验二:本实验在MIT-CBCL3000标准人脸库上进行,MIT-CBCL3000人脸库专门用于人脸检测,包含2 429个人脸样本,4 548个非人脸样本,其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要的测试集合.
本文采用50到300个特征值,取r=1,k=3和r=1,k=5,横坐标表示特征值个数,纵坐标表示识别率,得到如图4的实验结果.
通过在PIE和MIT-CBCL3000实验库上的实验,并且与MMC score算法、LDA score算法比较,结果表明,基于加权MMC最大边缘间距准则算法KMMC score的精确度明显要比MMC score、LDA score高.
本文提出的基于加权MMC最大边缘间距准则特征选择方法KMMC score的识别率整体上是最高的,在图3(b)中,KMMC score算法的识别率有些波动,这是由于数据库存在噪声,导致不稳定,但整体识别是上升的,故基于最大边缘间距准则算法具有较好的稳定性,也说明,经过基于加权最大边缘间距准则算法特征选择,在最大程度上实现了同类样本的集中和异类样本之间的分离.
图4 实验二的结果
3 结 语
本文提出的基于加权MMC的最大边缘间距准则的人脸识别方法,在改变特征个数和样本个数时,取得的实验效果均比MMC score、LDA score的要好.实验表明,本文采用的加权方式,是一个比较有效的加权方法.如何找到一个最优的加权函数及合理的边缘样本点个数,是后续研究工作的重点.
[1] 蒋胜利. 高维数据的特征选择和特征提取研究[D]. 西安: 西安电子科技大学理学院, 2011: 7-11.
[2] 李勇智. 图像特征提取方法及其在人脸识别中的应用[D]. 南京: 南京理工大学理学院, 2009: 12-14.
[3] 冯宗翰. 特征选择新算法研究[D]. 无锡: 江南大学理学院, 2011: 10-11.
[4] 计智伟, 胡珉, 尹建. 特征选择算法综述[J]. 电子设计工程, 2011, 19(9): 46-51.
[5] He X F, Cai D, Niyogi P. Laplacian Score for Feature Selection [J]. IEEE transaction on pattern analysis and machine intelligence, 2006, 27(3): 507-514.
[6] He X F, Yan S C , Hu Y X, et al. Face Recognition Using Laplacianfaces [J]. IEEE transaction on pattern analysis and machine intelligence, 2005, 27(3): 328-340.
[7] Li H F, Tao J, Zhang K S. Efficient and Robust Feature Extraction by Maximum Margin Criterion [J]. Neural Networks, IEEE Transactions on Neural Networks, 2006, 17(1): 157-165.
[8] Wang H X, Zheng W M, Hu Z L, et al. Local and Weighted Maximum Margin Discriminant Analysis [J]. IEEE Conference on Computer Vision and Pattern Recognition, 2007, DOI: 10.1109/CVPR.2007.383039.
On Feature Selection of Weighted MMC Distance Based on the Maximum Margin Criterion
DONG Naiming, HONG Zhenjie
(School of Mathematics and Information Science, Wenzhou University, Wenzhou, China 325035)
Feature selection is a classical and important subject of pattern recognition. Due to the edge points among different samples whose regional distributions are overlapping, the classical MMC method is not conducive to the sample classification by simply using the maximum center distance. Therefore, a feature selection algorithm based on weighted Maximize Marginal Criterion ( MMC ) is proposed, considering the roles of edge sample points of different types of data in the pattern classification , establishing a new feature score criterion based on maximum edge distance, and improving the functions of marginal sample points in measuring feature discrimination ability. The experiments on public data set PIE and MIT-CBCL3000 face image database show that the proposed feature selection algorithm in this paper has obvious advantages compared with the classic MMC method.
Pattern Recognition; Weighted MMC; Edge Sample Points
TP391.41
A
1674-3563(2014)01-0025-06
10.3875/j.issn.1674-3563.2014.01.004 本文的PDF文件可以从xuebao.wzu.edu.cn获得
(编辑:王一芳)
2013-04-01
浙江省研究生创新活动计划(YK2010093)
董乃铭(1987- ),男,浙江温州人,硕士研究生,研究方向:优化算法.† 通讯作者,hong@wzu.edu.cn