基于局部性约束和视觉显著性的图像分类方法
2020-08-17梁晔马楠许亮桂雨晗
梁晔 马楠 许亮 桂雨晗
[摘要]基于词包模型的图像表示方法是目前应用最广泛的特征表示方法之一,特征编码是该模型中非常重要的环节。针对已有编码方法未考虑语义信息的缺点,提出了基于局部性约束和视觉显著性的特征编码方法,并用于图像分类。在5个标准图像库进行实验和分析,结果表明融入显著性语义信息的图像编码方法能够提升分类性能。
[关键词]视觉显著性;特征编码;图像分类;局部性约束
[中图分类号]TP391.41 [文献标志码]A [文章编号]1005-0310(2020)01-0057-06
0 引言
近年来,随着Internet的广泛应用和智能手机、数码相机等设备的普及,以图像和视频为主的多媒体信息逐渐成为人们传递和获取信息的主要载体,在丰富人们生活、工作、教育和娱乐的同时也形成了海量的图像数据。如何对这些图像数据进行有效的计算和管理成了巫待解决的问题。视觉是人类获取信息、认识世界最重要的途径。人类的视觉系统在获取外界信息的过程中并不是被动接受所有信息,而是通过人眼的视觉注意机制将次要的信息过滤掉,从而减少大脑处理信息的负担。显著性检测技术是让计算机模拟人眼的视觉注意力选择机制,检测图像中最能引起用户兴趣和体现图像内容的显著区域。显著性检测可以为诸多应用提供原始对象,大大降低了计算量,应用广泛,是目前研究的热点。此外,图像分类方法是指根据图像的内容将其划分到预定义类别的方法,是人工分类的延续和发展,也是实现对图像自动管理和语义理解的重要途径,已经在图像检索、智能安防、视频监控和无人机平台上有广泛的应用,也是图像研究领域的热点问题。
本文重点研究视觉显著性和图像分类的关系,根据图像库是否含有显著区域把图像库分为场景类图像库和对象类图像库。对含有显著区域的对象类图像库,提出新的图像分类方法,既突出了显著区域对于分类的重要性,也体现了局部性空间约束对于编码一致性的重要作用,从而提高图像分类的精度。
1 相关工作
1.1 图像分类技术
图像分类技术大体分为基于人工设计特征和基于深度学习特征的图像分类方法[1-5],与本文相关的主要图像编码技术分析如下。
词包(Bag of Feature,BoF)模型[6]将图像表示为无序的特征集合,统计局部不变特征的全局出现情况,既保留了局部特征的不变性,又增强了全局特征的鲁棒性,同时与数量庞大的局部不变特征相比起到简化特征的作用,是对图像的压缩表示。BoF方法最初采用硬指派方法对局部描述子进行编码。硬指派将视觉特征描述子分配给离它最近的一个视觉词,被分配的视觉词对应的编码为1,其余的视觉词编码为0。硬指派编码方法对字典的失真错误非常敏感。相对于硬编码方法,软指派编码方法将一个特征描述子用多个视觉词来描述。软指派编码的优点是概念简单、计算有效,计算过程不需要优化。稀疏编码[7-8]作为一种软指派编码方法,将编码看作视觉字典的稀疏子集的线性组合,并通过l1范式进行正则化的近似。这种方法的缺点是优化计算代价太大,且会产生相似描述子的编码并不一致的问题[9-10]。针对稀疏编码存在的问题,文献[11]提出了基于局部性约束的编码方法,证明了选择局部视觉词进行编码的合理性。文献[12]在传统的软量化编码方法上加入了局部性约束,将非近邻的其他视觉词的距离设置为。。显著性编码[13]指出显著性是特征编码的基础,显著性强的视觉词应该得到更强的响应,并通过显著性进行编码。文献[9]在目标函数里面增加了拉普拉斯矩阵进行字典和编码的学习,以提高稀疏编码一致性,这种方法的最大缺点是计算量太大。文献[14]加入了图像空间域的上下文信息,改善了编码的一致性,取得了更好的效果。
以上文献表明,目前的编码技术主要是基于局部性约束的软编码。在图像分类中,不同的视觉词对描述图像内容所起的作用是不一样的,但是目前的编码方法并没有考虑视觉词所体现的语义性差异。
1.2 显著性检测技术
显著性检测方法大体上分为两类:基于人工设计特征的检测方法和基于深度学习特征的检测方法。多数基于人工设计特征的方法都采用浅层模型和启发式先验。最早的基于生物学模型的视觉计算模型由Koch和Ullman提出。Itti等[15]在Koch和Ullman模型基础上并行地提取多尺度、多特征的显著图,此方法是最经典的基于生物学模型的自底向上的方法。由于基于生物学模型的显著性检测方法过于复杂,研究重点逐渐转向以对比度计算为主的提取方法,产生了纯计算模型和混合模型[16-19]。基于人工设计特征的浅层模型虽然取得了一定的成效,但在处理有复杂背景的图像时往往效果不佳。
随着研究的发展,纯粹的底层特征不能取得令人满意的提取效果,越来越多的机器学习方法被引入到显著性提取中,常用的机器学习方法有随机森林、条件随机场、多示例学习和高斯混合模型等。高级语义线索的利用也大大提高了自底向上提取方法的性能,包括通用的对象性、背景性、连通性、中心先验以及水平线、人脸、汽车、暖色调等[16-18]。随着GPU等硬件资源的发展和大规模训练图像集的涌现,基于深度神经网络的显著区域提取方法受到越来越多的关注[20-21]。文献[22]通过无监督方法学习多个中层滤波器进行局部显著区域的提取,并且将多个显著区域的提取结果进行融合。文献[23]采用全局上下文信息和局部区域信息相融合的方法实现显著区域的提取。文献[24]在多任务学习框架下训练FCN网络;文献[25]在recurrentFCN网络结构中引入显著性先验取得了更准确的推理结果。以上文献都证明了将多尺度网络结构和深度特征应用于显著性检测的有效性。
2 基于局部性约束和显著性的分类方法
2.1 图像库的显著性分析
对多个图像库进行显著性提取,观察不同类别图像库的显著图是否存在差异。在场景类图像库中,以15场景类图像库[26]为例,从中选择6幅图像,提取对应的显著图,如图1所示,第一行为原图,第二行为显著图。不难发现,场景类图像中不含有明显的显著区域。在对象类图像庫中,以17花库[27]、102花库[28]、Caltech-101[29]、Caltech-256[30]和UIUC8[31]作为例子,提取这些图像对应的显著图,如图2所示,可以看出对象类图像中含有明显的显著区域。
通过上面分析,可以得出:场景类图像的显著图和对象类图像的显著图存在明显的差异,显著性分析结果能够应用到图像分类算法中。下面讨论的分类方法适用于含有显著区域的对象类图像库。
2.2 基于局部性约束的特征编码方法
2.2.1 图像编码的符号表示局部特征描述子的集合表示为
2.2.2 基于局部性约束的编码方法
首先选取牲描述子xi的k个最近邻视觉词,在传统软件分配编码基础上引入局部性约束,编码公式为
2.3 基于显著性的编码方法
当图像中包含显著区域时,显著区域往往体现图像的主体内容,对图像分类有重要的辅助作用。对圖像进行编码时,本文认为显著区域的编码值应该赋予更大的值以突出这部分特征在图像表示中的作用。以图3为例,其中图(a)为原图像,图(b)为原图的显著图,图(c)的红色圆点表示背景中的一个局部特征描述子,图(d)表示引入显著性前的背景局部特征描述子的编码情况,图(e)表示引入显著性后的背景局部特征描述子的编码情况,图(f)中的红色圆点表示前景中的局部特征描述子,图(g)表示引入显著性前的前景局部特征描述子的编码情况,图(h)表示引入显著性之后的前景局部特征描述子的编码情况。可以看出,对于背景局部特征描述子,由于显著值较低会导致引入显著性后的编码值较引入显著性前的编码值有所降低;而对于前景局部特征描述子,由于显著值较高会导致引入显著性后的编码值较引入显著性前的编码值有所提高。
基于显著性的编码方法为:通过显著区域提取算法得到图像的显著图I,其中sij代表(i,j)位置像素的显著值。显著性高的像素应该加强像素的编码值,所以将像素的显著值和编码值进行融合得到新的编码值,融合公式为
u'ij=uij×exp(sij)。(6)
3 实验
3.1 实验设置
实验选取的对象类图像库包括17花库、102花库、Caltech-101、Caltech-256和UIUC8库。17花库包含17个类,每个类包含80幅图像。102花库包含102个类,每个类包含80幅图像。Caltech-101图像库包含102个图像类,每个类包含31~800幅图片,共9144幅。Caltech-256是一个图像物体识别数据集,包含256个物体类别,每类图片最少80幅,最多827幅,共30608幅图片。UIUC8图像库包含8个运动类,每个类包含137~250幅图像,共1579幅,可以用于运动分类。从每个图像库的每类中随机选取30幅图像用来训练,其余图像用来测试。分类测试重复10轮,每次都随机选取训练图像和测试图像,最后计算10轮的平均分类率和标准差。
实验在灰度范围内处理图像,采用128维的SIFT[32]特征描述子,采样间隔为8个像素,描述子周围区域块为16×16像素。通过k-means方法得到包含400个视觉词的字典。编码中的参数β=10,最近邻的个数为5。实验采用文献[17]的显著区域提取方法进行显著性提取。实验中比较流行的编码方法包括LLC[10]、SC[14]、ScSPM[8]和LSC[12]。
3.2 实验结果及分析
实验结果如表1所示。表格中的数字表示分类的精度,数值越大表明分类的精度越高,分类效果越好。运用本文分类方法,17花库和102花库的性能提升特别明显,原因是因为这两个图像库图像中的显著区域和分类语义一致性非常高,显著性加强了分类关键区域的编码值;Caltech-101、Caltech-256和UIUC8库的分类性能也有一定的提升,但是效果没有花库明显,原因在于这3个图像库包含对象较多,且图像结构复杂。然而,实验数据都表明基于显著性和局部性空间约束的分类方法在实验图像库中分类性能是最好的。视觉注意力机制可以自动选择一幅图像中最能引起人们注意的区域,这些被关注的区域通常是图像的主体,而图像主体往往是分类的关键信息,所以视觉注意力相当于对分类的关键信息进行了选择。对于图像特征来说,在图像编码时,加大显著区域的特征编码值,使得图像的特征表示具有更强的判别性,从而能够提高分类性能。
4 结束语
本文提出了基于局部性约束和视觉显著性的特征编码方法,加强了特征的语义性和判别性。本文在5个标准图像数据集进行实验和分析,结果表明融入显著性语义信息的图像编码方法能够提升分类性能,为图像分类方法提供了新思路。但本文方法也有局限性,对于既包含对象类图像、又包含场景图像的混合图像库就不能很好地训练分类模型,这也是下一步将要研究的问题。
[参考文献]
[1]KOLSCH A,AFZAL M Z,EBBECKE M,et al.Real-time document image classification using deep CNN and extremelearning machines[C]//Proceedings of 14th IAPR International Conference on Document Analysis and Recognition,2017:1318-1323.
[2]ZHAO B,FENG J,WU X,et al.A survey on deep learning-based fine-grained object classification and semanticsegmentation[J].International Journal of Automation and Computing,2017,14(2):119-135.
[3]ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[C]//Proceedings of IEEE Conference on Computer Visionand Pattern Recognition,2017:6230-6239.
[4]JIA X,SONG S,HE W,et al.Highly scalable deep learning training system with mixed-precision:Training imagenet in fourminutes[Z/OL].(2018-07-30)[2019-09-15].https://arxiv.org/pdf/1807.11205.pdf.
[5]HE T,ZHANG Z,ZHANG H,et al.Bag of tricks for image classification with convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:558-567.
[6]GABRIELLA C,CHRISTOPHER R D,FAN L X,et al.Visual categorization with bags of keypoints[C]//Proceedings ofEuropean Conference Computer Vision 2004,workshop on Statistical Learning in Computer Vision,2004:59-74.
[7]LEE H,RATFLE A,RAINA R,et al.Efficient sparse coding algorithms[C]//Proceedings of Advances in NeuralInformation Processing System,2006:801-808.
[8]YANG J,YU K,GONG Y,et al,Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2009:1794一1801.
[9]GAO S,TSANG I,CHIA L,et al.Local features,not lonely-Laplacian sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2010:3555-3561.
[10]WANG J J,YANG J C,YU K,et al.Locality-constrained linear coding for image classification[C]// Proceedings of IEEEConference on Computer Vision and Pattern Recognition,2010:3360-3367.
[11]YU K,ZHANG T,GONG Y.Nonlinear learning using local coordinate coding[C]// Proceedings of Advances in NeuralInformation Processing System,2009:2223-2231.
[12]LIU L Q,WANG L,LIU X W.In defense of soft-assignment coding[C]//Proceedings of IEEE Conference on ComputerVision and Pattern Recognition,2011:2486-2493.
[13]HUANG Y,HUANG K,YU Y,et al.Salient coding for image classification[C]//Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,2011:1753-1760.
[14]SHABOU A,LEBORGNE H.Locality-constrained and spatially regularized coding for scene categorization[C]//Proceedingsof IEEE Conference on Computer Vision and Pattern Recognition,2012:3618-3625.
[15]ITTI L,KOCH C,NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions onPattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[16]CHENG M,MITRA N,HUANG X,et al.Global contrast based salient region detection[J]·IEEE Transactions on PatternAnalysis and Machine Intelligence,2015,37(3):569-582.
[17]WANG J,JIANG H,YUAN Z,et al.Salient object detection:A discriminative regional feature integration approach[J].International Journal of Computer Vision,2017,123(2):251-268.
[18]JIA Y Q,HAN M.Category-independent abject-level saliency detection[C]//Proceedings of IEEE International Conferenceon Eomputer Vision,20113:1761-1768.
[19]JIANG P,LING II B,YUJY,et al.Salient region detection by UFO:uniqueness,focusness and objectness[C]//Proceedings of IEEE International Conference on Computer Vision,20,13:1976-1983.
[20] WANG W G,SHEN J B,SHAG)L:Video salient object detection via fully convolutional networks[J].IEEE Transactions,Image Processing,2018,27(I):38-49.
[21]WANG T,ZHANG IJ,WANG S,et al.Detect globally,refine locally:A novel approach to saliency detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2018:3127.-3135.
[22]LIN Y T,KONG S,WANG D H,et al.Saliency detection within a deep convolutional architecture[C]/Proceedings of theAssociation for the Advancement of Artificial Workshop,2014:839-848.
[23]ZHAO,OUYANG W L,LI H S,et al.Saliency detection by multi-context deep learning[C]//Proceedings of the IEEEConference ton Computer Vision and Pattern Recognition,21115:1265-1274.
[24]LI X,ZHAO L M,yyEILN,et al.Deep saliency:Multi-task deep neural network model for salient object detection[J].IEEE Transactions,on Imag3 Processing,2016,25(8):3919-3930.
[25]WANG L Z,WANG L J,LUHC,et al.Saliency detection with recurrent fully convolutional networks[C]//Proceedings ofEuropean Conference an Computer Vision,2016:825-841.
[26]LI F F,PERQNA P.A hayesian hierarchical model for learning natural scene categories[C]//Proceedings of IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition,2005:524-531.
[27]17category flower dataset[DB/OL].[2019-09-15].http://www.robots.ox.ac.uk/~ugg/drtafflowers/17/index.html.
[28]102category flower dataset[DB/OL].[2019-09-15]http://www:robots.ox.ac.uk/~vgg/data/flowers/102/udex.html,
[29]Caltech-101[DB/OL].(2006-04-05)[2019-09-15].http://www.vision.caltech.edu/Image_Datasets/Caltech101/.
[30]Caltech-256[DB/OL].(2006-11-15)[2019-09-15].http://www.visinn.caltech,edu/Image_Datasets/Caltech256/.
[31]Event dataset[DB/OL].(2007-11-01)[2019-09-15].http://vision.stanfvrd.edu/lijiali/event_dataset/.
[32]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International jourrial of Computer Vision,2004,60(2):91-110.
(責任编辑 白丽媛)
[收稿日期]2019-09-18
[基金项目]北京市自然科学基金项目(4182022),国家自然科学基金项目(61871038,61871039)。
[作者简介]梁哗(1978-),女,内蒙古赤峰人,北京联合大学信息服务工程重点实验室讲师,博士,主要研究方向为图像处理;马楠(1978-),女,北京市人,北京联合大学机器人学院教授,博士,主要研究方向为图像处理和数据挖掘;许亮(1997-),男,安徽芜湖人,北京联合大学机器人学院2016级软件实验班学生;桂雨晗(1998-),女,安徽东至人,北京联合大学机器人学院2016级软件实验班学生。E-mail:liangye@buu.edu.cn