基于支持向量机的图像分类
2021-09-10苏亮
摘要:随着多媒体技术的不断发展,传统的基于关键字匹配的图像检索方式已经不能满足图像检索的需求,基于内容的图像检索方式成为研究的重点。为了实现图像低层特征和高层语义的关联,文中采用提取图像的底层特征,使用支持向量机(SVM)对图像进行分类的方法,实验中比较了不同图像特征对分类结果的影响。结果表明,采用多种特征综合对图像进行分类会取得比较好的结果。
关键词:图像检索;图像特征;支持向量机;图像分类
引言
随着数字图像的日益增多,图像检索技术在不断的向前推進。图像检索技术的发展经过了基于关键字检索的“以字找图”方式和基于图像底层特征相似性比较的“以图找图”方式。在理想的状况下,用户期望根据图像的高层语义进行检索得到有用的图像。在利用图像高层语义进行检索之前,对图像数据库进行语义分类是一个有效的方法,具有相同语义的图像一般也都具有相似的视觉特征,使得将图像按语义进行分类成为可能。图像分类仅仅试图将图像归并到某一种语义类别中,从而实现图像语义特征的提取。
图像分类的难点在于如何根据图像的底层视觉特征将图像归并到某种有意义的类别当中。许多机器学习的方法由于可以很好的获得图像特征和文本描述的对应关系,被引入到了这一领域。万华林结合图像的颜色、纹理和边缘特征,用SVM实现了图像的语义分类。Boutell采用贝叶斯网络,利用图像的视觉特征,处理了室内室外图像的分类问题。SIMPLIcity系统将图像分成纹理/非纹理类别,以及照片/非照片语义类。卷积神经网络 用在图像分类和物体检测中。
由于支持向量机(SVM)在优越性能,在模式识别问题中得到了广泛的应用,本文采用SVM设计图像分类器,将图像归并到某一语义类别当中,实现图像语义特征的提取。
1 图像底层特征的提取
目前图像的颜色和纹理特征的提取技术比较成熟,本文采用这两种特征来作为图像底层特征的表示。
1.1 颜色特征
描述了图像的颜色统计特性,提取方便,速度快,缺点是不能表达图像的空间信息以及图像中的目标物体。
1.1.1 HSV空间非均匀量化颜色直方图
颜色直方图是图像的一种全局特征表示。每一幅图像具有唯一的颜色直方图,但是不同的图像可能具有相同的颜色直方图。由于HSV更符合人的视觉特征,这里考虑采用HSV空间颜色直方图。在不降低检索性能的前提下,同时节省存储空间和计算时间,将HSV三个分量进行非等间隔量化。
本文中将H,S,V分别划分成7份,2份,2份,按照公式,式中Qs,Qv,Q分别取2,这样得到一个36维的特征向量。
1.1.2 RGB空间颜色矩
颜色矩是一种简单而且有效的颜色特征,是由Stricker和Oreng提出,这种方法的数学基础是图像中的任何颜色分布都可以用它的矩来表示,由于图像的信息多集中在图像的像素颜色的低阶矩上,一般只提取一阶中心矩(均值),二阶中心距(方差),三阶中心距(斜度)作为颜色特征的表示。本文采用RGB颜色空间,对R,G,B3个颜色分量分别计算上述3阶矩,得到9维的颜色矩特征。
1.2 纹理特征
纹理是描述了图像或者图像区域所对应景物的表面特征,与颜色特征不同,纹理特征需要在包含多个像素点的区域中进行统计计算,不是基于单个像素点的特征。本文采用灰度共生矩阵的纹理特征分析方法。
灰度共生矩阵即表示图像灰度及空间相关的矩阵,即图像中相距(Δx,Δy)的两个灰度像素同时出现的联合概率分布。若将图像的灰度级定位L,那么共生矩阵为L*L矩阵,可表示为M(Δx,Δy)(h,k),其中位于(h,k)的元素mhk的值表示一个灰度级为h,另一个灰度级为k的两个相距为(Δx,Δy)的像素对出现的次数。
实验中采用反差、能量、熵和相关四个特征量来表示纹理特征。
反差(主对角线的惯性矩):
能量(角二阶矩):ASM=ΣhΣk(mhk)2
熵:ENT=-ΣhΣkmhk logmhk
相关:COR=其中μx、μy和σx、σy分别为mx、my的均值和方差。
构造4个方向上的共生矩阵,对共生矩阵归一化,取上述4个参数的均值和标准差作为纹理特征向量中的各个分量,得到一个8维的纹理特征向量。
2支持向量机的构造
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的推广能力[5]。
相比起神经网络技术,SVM使用起来简单方便。它将待解决的问题转化为一个二次规划寻优问题,从而避免了局部收敛现象,理论上保证了全局最优解。
给定一组带标记的训练数据对(xi,yi),i=1,2,…,l,其中xi∈Rn,且yi∈{-1,1}1。SVM需要解决如下的最优解问题:
训练向量xi被φ函数映射到高维空间。在特征空间中,分类器实现最有分类超平面的函数为:
f(x)=sign(ΣaiK(xi,xj)+b,其中K(xi,yi) =φ(x)φ(xi)为其核函数。采用不同的点积运算将产生不同的支持向量机算法,常用的支持向量机核函数有多项式核函数、高斯核函数和Sigmoid核函数。
用SVM实现图像分类,定义所有图像为输入空间中的点,要从图像中抽取图像的特征向量作为原始空间的输入向量,由于图像内容的多样性,所以图像为非线性可分,采用线性不可分的SVM分类器。采用SVM实现图像分类通常需要结合多个二值分类器来解决,包括一对一和一对多两种方法。
3 图像分类实验
对于做实验的图像类别不能过于抽象,像自然风光类、季节类、某个国家或者地区类的图像,这类图像难于从颜色纹理特征上把握其共同点。实验中所用的图像库来源于Corel图像库,由宾夕法尼亚大学实验室整理用于SIMPLIcity[6]的测试图像库。该图像库包含了10个语义类别,分别是非洲人物、海滩、罗马建筑、巴士车、恐龙、大象、花、马、雪山、美食。每个语义类别各包含100幅图像,图像的大小为256*384或者384*256像素。
实验中所选取的图像特征为36维的HSV空间非均匀量化颜色直方图、9维的RGB空间颜色矩以及8维的灰度共生矩阵,将它们作为支持向量机的输入向量对图像类进行学习,建立图像底层特征与高层语义的关联。训练测试工具采用的SVM为林智仁的LIBSVM[7]库,它提供了编译好的可执行文件,对SVM所涉及的参数调节相对较少,提供了很多的默认参数,并且提供了交互检验的功能。在实验中选取高斯核函数,参数为默认参数。
3.1实验一
从每类图像中抽取60幅图像作为实验的训练集,剩余的40幅图像作为测试集,得到的训练集大小为600幅,测试集大小为400幅。 共进行5组实验分别采用不同的特征以及特征的组合作为支持向量机的输入向量构造分类器。
得到的实验结果如表1所示:
为了更好的说明每一类别的分类正确率,得到采用颜色直方图、颜色矩和灰度共生矩阵作为综合特征时的混淆矩阵如图1所示
由表1和图1结果可以看出:
(1)用综合特征作为支持向量机输入向量的分类性能要优于采用单一特征作为输入向量。
(2)恐龙、花这两类由于由于背景单一,达到了很好的分类效果,由于历史建筑、大象以及雪山这几类图像中的背景比较复杂,导致这几类的分类正确率特别低,从而使总体的分类正确率不高。这几类图像难以从颜色纹理特征上把握其共同点,所以仅从颜色纹理底层特征上进行区分效果不好,需要选取新的图像特征或者建立新的分类模型。
3.2实验二
选取其中的6个语义类别与文献中提到的分类正确率进行比较,本文采用三种特征综合作为支持向量机的输入向量。
从实验结果可以看出
(1)对于背景单一的花、马、恐龙,取得了100%的分类正确率。
(2)对于背景稍显复杂的大象和建筑物两类,分类正确率不高。
4 结论
本文采用多特征结合的图像分类方法,分别采用颜色直方图和颜色矩表征颜色特征、灰度共生矩阵表征纹理特征,采用较少的特征维数较好的表示了图像。对基于SVM的图像分类方法进行研究,采用libsvm实现图像的多分类,对于背景不是很复杂的图像取得了较为显著的分类结果。但是对于背景复杂的图像类别分类准确率不高,在下一步的工作中考虑选取更加合适的图像特征来进行图像分类。
参考文献
[1]万华林,Chowdhury MU.基于支持向量机的图像语义分类[J].软件学报,2003,14(11):1891-l899.
[2]Bouteli.M,Luo Jie-bo.Bayesian fusion of camera metadata cues in semantic scene classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.
[3]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity: Semantics- Sensitive Integrated Matching for Picture Libraries[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(9):947-963, 2001.
[4]常亮,邓小林等. 图像理解中的卷积神经网络[J],自动化学报,2016,9(42):1300-1312.
[5]V.Vapnik.”The nature of statistical learning theory”Springer- Verlag, New York,1995.
[6]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity: Semantics- Sensitive Integrated Matching for Picture Libraries[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(9):947-963, 2001.
[7]http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[8]劉盈盈,石跃祥. 一种基于SVMS的语义图像分类方法[J].计算机应用研究,2008,25(2):452-454.
[9]潘崇,朱红斌. 基于自适应特征选择和SVM的图像分类的研究[J].计算机应用与软件,2010,1:244-246.
作者简介:苏亮(1987.6-),汉族,山东莱芜人,硕士,工程师,研究方向:人工智能、网络安全。