基于p.d.f特征的分层稀疏表示在图像分类中的应用
2017-05-17王博
王博
摘 要: 为了在计算机视觉任务中构造有意义的图像表示,提出一种基于概率密度函数(p.d.f)梯度方向直方图特征的分层稀疏表示方法用于图像分类。传统分层稀疏表示方法利用SIFT描述子或者直接从图像块学习图像表示,通常不具有较强判别性。该文利用具有通用性的p.d.f特征进行分层学习并使用空间金字塔最大池化方式构造图像级稀疏表示。实验结果证明了所提算法的鲁棒性和有效性,在UIUC?Sports,Oxford Flowers,Scene15三类数据集上分别达到87.3%,86.6%,84.1%的分类准确率。
关键词: 图像分类; 分层稀疏表示; 空间金字塔最大池化; 图像表示
中图分类号: TN911.73?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2017)10?0095?04
Abstract: In order to construct the meaningful image representation in computer vision task, a novel hierarchical sparse representation method based on oriented histogram feature of probability density function (p.d.f) gradients is proposed for image classification. The traditional hierarchical sparse representation method which learns the image representation with SIFT descriptor or learn it directly from image block has poor discrimination. A universal p.d.f feature is employed for hierarchical learning, and the spatial pyramid max pooling method is used to construct the image?level sparse representation. The experimental results show that the algorithm has robustness and availability, and the classification accuracy for classifying the datasets of UIUC?Sports, Oxford Flowers and Scene 15 can reach up to 87.3%, 86.6% and 84.1% respectively.
Keywords: image classification; hierarchical sparse representation; spatial pyramid max pooling; image representation
0 引 言
图像分类作为计算机视觉中的基本任务被广泛应用于图像检索、网络图像搜索、智能交通系统和生物工程系統等领域中。其中,获取有效的图像表示则是影响分类性能的关键因素[1]。而分层模型已经逐渐成为可靠的方法用于提取具有判别力的图像表示[2?4]。在分层模型中,图像表示是逐层进行构造的。传统的算法中采用局部图像块或者SIFT描述子进行分层稀疏编码[5?6],然而所获得的图像表示并不具有较强的判别力,这种局限性直接影响了该模型在多类测试数据集上的性能。
文献[7]提出了一种全新的方式提取用于分类的图像特征。该方法源于特征袋(Bag of Features,BOF)模型,即首先需要从图像中提取大量的局部描述子;然后将核密度估计用于这些已经获取的局部描述子,从而获得相应的概率密度函数;最后,概率密度函数的梯度方向被编码并同时整合为直方图。从几何观点角度出发,这可以对概率密度函数的形状分布进行有效的表征。值得注意的是利用这种方法获得的图像特征具有通用性,可以广泛应用到众多目标和场景类测试数据集中。
另一方面,分层学习(Hierarchical Learning)可以让一个由多处理层组成的计算模型通过多个抽象层的学习而获得有意义的数据表示。这个模型通常是由多层非线性的信息处理过程构成的,图像表示的学习过程逐渐地向更抽象的阶段发展[8]。这种更为高效且直接的分层构造方法,能够使得所有来自输入图像的p.d.f特征可以进行独立的稀疏编码。在获得最终的图像表示前,模型中总是需要加入一个十分重要的特征池化步骤。这一关键步骤令特征的编码阶段和分类器紧密联系在一起,且已经变成了图像分类任务中不可或缺的部分[9]。依照文献[10]对特征池化在视觉识别中的理论分析,池化阶段主要具备以下三种作用:首先,对于图像的形变可以保持一定的不变性;其次,可以获取更为紧密的图像表示;另外,对于干扰和噪声还具有更优的鲁棒性。其中,空间金字塔最大池化操作被应用于许多计算机视觉任务中。
本文提出一种基于p.d.f特征的分层稀疏表示方法。在每一训练层中均利用K?SVD进行字典学习,而在稀疏编码阶段使用高效的正交匹配追踪(OMP)方案。每层稀疏编码阶段后分别利用最大池化和空间金字塔最大池化算法进行生成更紧密的图像表示。同时,引入局部对比度归一化作为下一层输入数据的预处理方案,这一步骤可以使得图像的不同区域对于光照变化具有不变性。最后,利用非线性的支持向量机(Non?linear SVM)完成分类任务并获取各测试数据集的分类准确率。该图像分类模型如图1所示。
1 分层稀疏表示模型
1.1 分层稀疏编码流程
在计算机视觉与机器学习任务中,利用具有更强判别力的图像特征取代传统SIFT描述子的方案受到了越来越多的关注。在分层学习结构里,考虑到需要使用极为高效的编码器,因此通常借助以OMP为代表的贪婪训练方式以生成图像的稀疏表示。分层稀疏编码主要包含以下四个步骤。假定在提取p.d.f图像特征时统一采取256个视觉单词中心的方案,那么分层稀疏编码流程图如图2所示。
(1) 第一层稀疏编码时,通过K?SVD方法可以获得含有[D1]个原子的字典。然后利用OMP算法得到了形如[32×64×D1]的稀疏表示。
(2) 在邻近的[s×s]稀疏表示中,利用最大池化策略,然后生成了形如[(32s)×(64s)×D1]的池化表示。
(3) 在所有[D1]个特征图上,利用[j×j]尺寸的感受野,其间隔设定为1。通过OMP算法得到了形如[[(32s)-j+1]×[(64s)-j+1]×D2]的图像表示。
(4) 最后利用空间金字塔最大池化方法得到最终的稀疏图像表示。
1.2 K?SVD字典学习与BOMP编码器
2 实验结果与分析
本文将使用全尺寸自然图像分类数据集作为标准,验证以上所提算法的性能。其中包括目标数据集Oxford Flowers,事件数据集UIUC?sports和场景数据集Scene 15。在实验中发现,如果仅针对单层网络进行学习,图像分类性能没有显著提升。但进行三层训练,计算开销十分庞大,同时分类性能无明显提高。所以,本文最终利用训练双层网络的学习方案获取有意义的图像表示。其中的空间金字塔池化子区域分别设置为[1×1,2×2,4×4。]实验平台配置包括:Intel i5 CPU 3.1 GHz,Windows 7,64位操作系统及Matlab 2010b进行仿真实验。
2.1 测试数据集
UIUC?Sports被视为一类典型的事件数据集。该测试集由8类不同运动项目组成。例如:马球、室外地滚球、单板滑雪、攀岩等项目。每个类别中包含137~250幅图像,所有图像数目总计为1 579幅。由于该数据集图像带有相对复杂的背景,且每类图像所包含内容变化较大,所以利用该数据集进行测试具有一定的挑战性。为了确保公正的测试条件,按照常规实验设定,本文将随机从每个类中抽取70幅用于训练,而60幅用作测试图像。
Oxford Flowers数据集包括1 360幅花卉图像,共计17个不同花卉种类,每个类别中均有80幅图像。由于类内差异比较明显,且同时存在类间相似度极高的情况,所以该测试数据集具有较大的挑战性。为了进行公正的评价,本文将与此前的实验保持一致,即随机抽取60幅训练图像,剩下的图像将用于测试。
Scene 15是一类常见的场景图像数据集。Oliva等人早期建立该数据集时,仅包含8个不同类别。Li和Lazebnik等人后期分别添加了5个和2个类别,因此现在的Scene 15总共含有15类,共计4 485幅场景图像。其中包含室外和室内场景,且每个类别都含有200~400幅
图像,平均尺寸约为[250×300]像素。例如:用于室外场景识别的海岸和森林类,用于室内场景识别的卧室与厨房类。
2.2 实验结果分析
首先,针对三类不同测试数据集,实验将固定第二训练层中的字典原子数目为1 600,并逐步增加第一训练层中的字典原子数,同时将编码稀疏度设定为4。然后,通过选择第一阶段中的最优原子数,并将其固定为512,按照固定间隔增加第二层字典的原子数,同时将编码稀疏度设定为10。两层训练中的K?SVD迭代次数分别设置为50和20。实验结果表明,在第一组测试中,当字典原子数目大于特征维度时,分类准确率呈逐渐增加的趋势且在设置为512时达到最大值,即相应的字典原子数两倍于特征维度;第二组测试中,在固定第一层字典大小的基础上,逐步增大第二层字典的大小并观察分类准确率呈增加的趋势。当原子数目设定为1 600时,在三类数据集上均达到了最佳分类性能。两部分实验的变化曲线分别如图4和图5所示。
为了证明本文算法的有效性,将针对同一测试数据集,采用与其他先进算法的性能进行对比的方案,其对比结果分别如表1~表3所示。
其中,Visual Concepts是基于視觉概念学习的中层特征表示方法,LSCSPM是一种拉普拉斯稀疏编码,HMP是一种典型的分层稀疏编码方式,DPD则将判别式部件检测的方法用于图像分类。所提算法在分类性能上分别超越以上算法,达到2.5%,2%,1.6%和0.9%。
HSSL是一种基于稀疏性、局部性和显著性学习的分层图像表示算法。WSCSPM是基于区域显著性检测的目标分类算法。基于本文算法的分类性能大幅领先这两类先进算法分别达到10.4%和9.8%。
HSPMP与本文算法相似,但是图像表示是基于SIFT描述子获得的,因而在判别力方面会受到一定程度的影响。SV也是一种分层特征学习方法,基于软投票的方式进行编码。WCS?LTP基于加权中心对称局部三元模式,是一种十分有效的局部描述子。本文算法在分类准确率上均超越先进的对比方法。
3 结 语
本文提出一种基于p.d.f特征的分层稀疏表示算法,并将其应用于三类不同的图像分类测试数据集中。由于p.d.f特征具有较强的通用性和判别力,而分层学习模型可以获取更为高级的抽象特征,实验结果证明了所提算法性能在事件、目标及场景类数据集上均超越了先进的对比算法。同时,针对分层稀疏表示中的K?SVD字典学习过程,实验部分证明了当字典原子数目增加时,分类性能将得到显著提高。而第一层字典原子数目两倍于特征维度时,将获得最优的分类准确率。下一步的研究工作将聚焦于大规模测试数据集上,利用分层学习模型高效地获取具有判别力的图像表示。
参考文献
[1] BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798?1828.
[2] YU K, LIN Y, LAFFERTY J. Learning image representations from the pixel level via hierarchical sparse coding [C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2011: 1713?1720.
[3] BO L, REN X, FOX D. Hierarchical matching pursuit for image classification: architecture and fast algorithms [C]// Proceedings of 2012 IEEE Conference on Advances in Neural Information Processing Systems. Granada, Spain: NIPS Foundation, 2012: 2115?2123.
[4] TEDMORI S, AI?NAJDAWI N. Hierarchical stochastic fast search motion estimation algorithm [J]. IET computer vision, 2012, 6(1): 21?28.
[5] HAN H, HAN Q, LI X, et al. Hierarchical spatial pyramid max pooling based on SIFT features and sparse coding for image classification [J]. IET computer vision, 2013, 7(2): 144?150.
[6] LIU B Y, LIU J, BAI X, et al. Regularized hierarchical feature learning with non?negative sparsity and selectivity for image classification [C]// Proceedings of 2014 IEEE International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 4293?4298.
[7] KOBAYASHI T. BFO meets HOG: feature extraction based on histograms of oriented p.d.f. gradients for image classification [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 947?954.
[8] DENG L, YU D. Deep learning: methods and applications [M]. Hanover, MA: Now Publishers, 2014.
[9] XIE L, TIAN Q, ZHANG B. Simple techniques make sense: feature pooling and normalization for image classification [J]. IEEE transactions on circuits & systems for video technology, 2015, 26(7): 1251?1264.
[10] BOUREAU Y, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of 2010 the 27th International Conference on Machine Learning. Haifa, Israel: IMLS, 2010: 111?118.
(上接第98页)
[11] LI Q, WU J, TU Z. Harvesting mid?level visual concepts from large?scale internet images [C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 851?858.
[12] GAO S H, TSANG I W H, CHIA L T. Laplacian sparse coding, hypergraph Laplacian sparse coding, and applications [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 92?104.
[13] SUN J, PONCE J. Learning discriminative part detectors for image classification and cosegmentation [C]// Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 3400?3407.
[14] YANG J M, YANG M H. Learning hierarchical image representation with sparsity, saliency and locality [C]// Proceedings of 2011 British Machine Vision Conference. Dundee, UK: BMVA, 2011: 1901?1911.
[15] REN Z X, GAO S H, CHIA L T, et al. Region?based saliency detection and its application in object recognition [J]. IEEE transactions on circuits & systems for video technology, 2014, 24(5): 769?779.
[16] LIU J Y, HUANG Y Z, WANG L, et al. Hierarchical feature coding for image classification [J]. Neurocomputing, 2014, 144(1): 509?515.
[17] HUANG M, MU Z, ZENG H. Efficient image classification via sparse coding spatial pyramid matching representation of SIFT?WCS?LTP feature [J]. IET computer vision, 2016, 10(1): 64?67.