基于Laplace谱结构特征和局部特征的图像分类
2015-12-05鲍文霞
孙 山,梁 栋,鲍文霞,张 成
(安徽大学 计算智能与信号处理教育部重点实验室,安徽 合肥230039)
视觉信息以数字图像的形式大量出现在人们的生活中,如何快速准确地进行图像分类与处理,以获取用户所需的信息成为近年来的研究热点之一.词袋(bag of words,简称BoW)模型最早出现在自然语言处理(natural language processing,简称NLP)和信息检索(information retrieval,简称IR)领域中,被用于处理文档的识别与分类[1].受BoW模型应用在文档分类与信息检索等方面的启发,视觉词袋(bagof-visual-words)模型将图像类比为文档,将图像特征类比为文档中的单词[2],计算一个语义图像的紧凑直方图向量,再结合分类器进行图像分类,即能取得较好的效果.
但是,BoW模型在计算机视觉领域的应用中仍有可优化的问题,如特征描述子计算复杂、词典完备性对图像分类的影响以及图像空间结构信息的缺失等.文献[2]首次将BoW模型引入到计算机视觉领域中并结合尺度不变特征变换[3](scale invariant feature transform,简称SIFT)描述子对图像进行分类.文献[4]针对SIFT描述子计算复杂度较高的问题提出了一种新的快速稠密局部特征描述子(DAISY)来对图像进行特征提取,并利用BoW模型进行建模.文献[5]提出空间金字塔匹配(spatial pyramid matching,简称SPM)模型以改善图像全局直方图表示时空间结构信息丢失问题,并应用到BoW模型中进行图像分类.文献[6]研究了图像底层特征与高层特征之间的“语义鸿沟”问题,并基于BoW模型构建了一个有效的图像检索系统.
鉴于传统BoW模型仅依赖单一图像局部特征构建视觉词典,其对图像信息描述欠完备,且应用于图像分类时精度不高的问题,作者在文献[5]的基础上,提出一种基于Laplace谱结构特征与图像局部特征相结合的图像分类方法.
1 词袋模型
BoW模型最早出现在NLP和IR领域中,被用于处理文本的识别与分类[1].该模型忽略文档的语序及语法部分,用一个关键词的无序组合来表示文档,通过统计每个关键词在文档中出现的频率来得到不同文档的有差异的向量表示,从而进行分类.
近年来,BoW模型因其简易且行之有效的优点而得到了更广泛的应用,结合其特点,Li等[2]提出了用词袋模型表达图像的方法,并将图像类比为文档,而将图像中的局部特征类比为文档中的单词,从而可以将该模型应用于图像分类中.在BoW模型的图像表达技术中,通常包含如下3个部分:特征提取、特征表示以及视觉词典构造,再结合分类器的训练即可进行图像的分类与识别.图1给出了BoW模型应用于图像分类的基本流程.
2 特征选取
2.1 Laplace谱结构特征
鉴于直接抽取整幅图像的谱结构特征会丢失图像细节结构信息,作者借鉴文献[5]中采用空间金字塔匹配模型来获取更丰富的空间结构信息的思想,对图像进行均匀划分(见图2),然后抽取均匀划分后的图像细节结构特征.
给定序列图像集I1,I2,…,In,…,IN,设图像In被均匀划分为λ×λ=k个部分,分别记为对提取m个特征点得到特征点集,则点集就表征了图像的结构特征信息.特征点集的基于递增权函数的邻接矩阵可表示为
其中:S为权值系数,为点集中特征点和之间的欧氏距离.邻接矩阵的度矩阵可定义为
基于所有训练图像的Laplace谱细节结构特征构建视觉词典,其中K1为视觉词典的大小.依据对每幅图像的Laplace谱结构特征进行向量量化(vector quantization,简称VQ),并归一化得到图像的全局直方图向量表示VL.通过图像细节结构谱特征的汇聚,该图像向量表示可更好地表达图像的细节以及整体空间结构信息.
2.2 SIFT局部特征
尺度不变特征变换描述子(SIFT)是文献[3]中提出的一种基于尺度空间且对图像旋转、缩放等变换保持较好不变性的图像局部特征描述子.SIFT算法的步骤为:
(1)尺度空间构造;
(2)空间局部极值点检测与筛选;
(3)特征点主方向的确定;
(4)关键点描述子的生成.
SIFT描述子鉴别力强且信息量丰富,优化后的SIFT算法计算速度较快且易于进行特征联合.文
3 视觉词典构造
一个简单有效的视觉词典的构造方法就是执行K-means聚类算法.聚类算法一般要满足同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小,具体到K-means聚类算法中即要将Q个点分到K个簇中,且保证K个簇内平方和最小化[9],其数学表达式如下
其中:K为聚类中心数;Ci为聚类中心;xj为聚类对象表示第i个簇内点到聚类中心的平方,j=1,…,Q.
设图像集中有N=N1+N2幅图像,其中N1为训练集图像数目,N2为测试集图像数目.对训练集的N1幅图像分别抽取图像划分后的Laplace谱结构特征和SIFT局部特征,并进行K-means聚类,获得图像信息描述更完备的视觉词典和.在实际视觉词典构造过程中采取有权值的分层K-means聚类策略,先对每类训练图像分别进行聚类得到子视觉词典和为第y类图像的Laplace谱结构特征聚类中心,为第y类图像的SIFT局部特征聚类中心,其中ky为第y类训练图像聚类中心数,y=1,2,…,M,M为图像类别数.再对所有类别的图像子视觉词典进行二次聚类,即
其中:K1和K2分别为训练图像的Laplace谱特征聚类中心数目和SIFT局部特征聚类中心数目,K为训练图像总的聚类中心数目,α为聚类的权值系数,经实验得出K=250,α=0.2时分类效果最好.
4 分类器及图像分类流程
支持向量机(support vector machine,简称SVM)是基于类间最大间距概念的分类器[10],也是较常用且较易实现的分类器之一.其核心思想是通过寻求最优分界超平面,来对输入空间中的多个特征集进行划分.SVM分类器最初只适用于二分类问题,现在在解决多类别高维度分类问题中也逐渐引入该分类器并取得了很好的效果[11-12].其可以描述为下式所示的优化问题
约束条件为:yl(w·xl-b)≥1-ξl,ξl≥0,l=1,…,n.其中:ξl为稀疏变量,R为惩罚因子,w为与超平面垂直的向量,yl的值为1或-1,表示数据点所属的类别.文中采用一对多的LIBSVM[13]分类器进行分类实验.
将最终图像全局特征表示V=(VL,VS)归一化后,送入分类器进行训练与分类,分类过程中采取网格化寻优策略,训练分类器的最佳参数.图3为文中进行图像分类的方法流程框图.
5 实验与分析
5.1 模拟图像实验
输入图4所示3类房子的模拟图像,每幅图像均由32个特征点构成,将3类图像进行仿射变换后各自得到100幅图像.
根据分类方法流程框图,对3类模拟图像抽取基于图像均匀划分后的Laplace谱结构特征和SIFT特征,结合BoW模型得到图像最终表示,将其输入LIBSVM分类器中进行图像分类(BoW+SIFT+Laplace谱),重复实验10次后取平均值(每类图像随机取5幅用于训练,95幅用于测试),并与文献[2]方法(BoW+SIFT)以及邻接谱结合SVD分解的方法(邻接谱+SVD)进行对比试验,实验结果如表1所示.
表1 3类房子的模拟图像分类结果Tab.1 Image classification results of simulation images of three types of houses
5.2 真实图像实验
为了验证Laplace谱结构特征结合SIFT局部特征在BoW模型下进行图像分类的可行性与准确性,从图像库ALOI(http://aloi.science.uva.nl/)中选取5类真实序列图像进行试验,它们分别为cmu、hotel、movi、inn和frame,如图5所示.
在试验过程中,每类真实序列图像均选取60幅,每类图像随机取10幅用于训练,50幅用于测试.根据分类方法流程框图,对每幅图像提取基于图像划分的Laplace谱结构特征和SIFT局部特征,结合BoW模型得到最终的图像向量表示,将其输入LIBSVM分类器中进行图像分类(BoW+SIFT+Laplace谱),重复实验10次后取平均值,并与文献[2]方法(BoW+SIFT)及文献[14]方法(邻接谱+NMF)进行对比试验,实验结果如表2所示.
表2 5类真实序列图像的分类结果Tab.2 Image classification results of five types of real sequence images
由表1、2的结果可以看出,在BoW模型下,结合Laplace谱结构特征与SIFT局部特征图像分类的准确率有较高的提升.仅依赖于图像局部特征或结构特征的图像分类方法,因不能同时更好地描述图像局部特征和细节结构特征,故分类准确率不够理想.实验结果表明,该文所述的分类方法应用于图像分类具有较高的分类准确率.
6 结束语
在BoW模型下,作者抽取图像均匀划分的Laplace谱结构特征和SIFT局部特征,构造图像信息描述完备的视觉词典,并结合简单的SVM分类器进行图像分类.实验结果表明基于图像均匀划分的Laplace谱结构特征可以对图像的细节结构有很好的描述,提升了在BoW模型下进行图像分类的有效性和可行性.同时,实验结果还表明,与使用单一图像特征进行图像分类相比,将两种合适的图像特征结合在一起进行分类的准确率更高.
[1]Lewis D D,Jones K S.Natural language processing and information retrieval[J].Communications of the ACM,1996,39(1):92-101.
[2]Li F F,Perona P.A Bayesian hierarchical model for learning natural scene categories[J].Computer Vision and Pattern Recognition,2005,2:524-531.
[3]Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[4]Zhu C,Bichot C E,Chen L.Visual object recognition using DAISY descriptor[C]//IEEE International Conference on Multimedia and Expo,Barcelona,Spain,2011:1-6.
[5]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[J].Computer Vision and Pattern Recognition,2006,2:2169-2178.
[6]Jing Y,Zeng C Q,Tao W,et al.Feature integration analysis of bag-of-features model for image retrieval[J].Neurocomputing,2013,120:355-364.
[7]潘鸿飞.形状特征描述及聚类算法研究[D].合肥:安徽大学电子信息工程学院,2011.
[8]Wang N,Zhang J,Tang J.A spectrum based algorithm for image classification[J].Chinese Journal of Electronic,2009,24(12):427-430.
[9]Hartigan J A,Wong M A.Algorithm AS 136:Ak-means clustering algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
[10]William S N.What is a support vector machine?[J].Nature Biotechnology,2006,24:1565-1567.
[11]Mathur A,Foody G M.Multiclass and binary SVM classification:implications for training and classification users[J].IEEE Geoscience and Remote Sensing Letters,2008,5(2):241-245.
[12]Kalya ni S,Swarup K S.Classification and assessment of power system security using multiclass SVM[J].IEEE Transactions on Systems,Man,and Cybermetics,2011,41(5):753-758.
[13]Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2012-12-21].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[14]蒋云志,王年.基于递增权函数的邻接矩阵与非负矩阵分解的图像分类方法[J].安徽大学学报:自然科学版,2011,35(5):63-67.