遗传算法优化特征权值的支持向量机图像分类
2015-07-02王东霞周观民
王东霞,周观民
(济源职业技术学院 信息工程系,河南 济源 459000)
遗传算法优化特征权值的支持向量机图像分类
王东霞,周观民
(济源职业技术学院 信息工程系,河南 济源 459000)
为了提高图像分类的准确率,提出了一种遗传算法优化特征权值的支持向量机图像分类(GA-SVM)。首先分别提取图像的颜色和纹理特征,然后采用改进遗传算法确定特征权值,最后采用支持向量机建立图像分类器,并对corel图像库进行仿真测试。结果表明,相对于其他图像分类算法,GA-SVM提高了图像分类精度。
图像分类;特征加权;支持向量机;遗传算法
随着图像处理技术和互联网技术迅速发展,图像数据日益增多,如何对这些图像进行分类,帮助用户找到自己感兴趣的图像,显得越发重要。图像分类是图像检索的基础,受到多种因素综合影响,图像分类精确率有待进一步提高[1]。
图像分类实际上是一个模式识别问题,其分类结果优劣与特征选择和分类器构建密切相关。传统方法主要采用单一颜色或纹理特征对图像进行建模和分类,但是不同图像对于颜色和纹理的敏感度不同,单纯依靠单一的特征对复杂多变的图像进行分类达不到好的效果。比如,海底世界和海滩、花朵和落日,其类与类之间都有极其相似的颜色特征,故只通过颜色特征来分类则效果必然不佳,单一特征从一个角度对图像类别信息进行描述,难以全面、准确地描述图像类别信息,无法保证识别的正确性,识别精度低[2]。为了克服单一特征不足,一些学者基于组合优化原理,提出特征融合的图像分类算法,使图像的分类正确率得以提高[3]。在当前组合特征图像分类中,每一维的权重都默认为1,即认为所有特征对分类结果贡献相同,这与实际情况不相符[4]。当前图像分类器主要采用神经网络、支持向量机等进行构建[5-7],神经网络均基于“大样本”定理,在满足大样本条件下,具有较好的分类结果,当图像数量样本有限时,易陷入局部极值和过拟合等缺陷,分类正确率难以满足图像实际分类应用的要求。支持向量机(Support Vector Machine Classifier,SVM)基于结构风险最小化原则,较好地克服了神经网络的过拟合等缺陷,在图像分类中得到了广泛的应用[8]。
为了提高图像分类的准确率,提出了一种遗传算法优化特征权值的支持向量机图像分类(GA-SVM)。首先分别提取图像的颜色和纹理特征,然后采用改进遗传算法确定特征权值,最后采用支持向量机建立图像分类器,并对corel图像库进行仿真测试。结果表明,相对于其他图像分类算法,GA-SVM提高了图像分类精度。
1 GA-SVM的图像分类思想
GA-SVM的图像分类基本思想为:首先分别提取图像的颜色和纹理特征,然后采用遗传算法得到最优分类权值向量解,并利用该最优权值对图像各个特征进行加权,最后用加权支持向量机建立图像分类器。具体如图1所示。
图1 图像分类算法的工作流程
2 图像特征的提取和权值确定
2.1 颜色特征
对于一幅图像,直方图和矩阵特征难以描述其类别关系,这主要由于它们没有考虑各个颜色分布的结构特性,因此本文选择用颜色聚合向量来表达图像的颜色特征[9]。其表达式为:<(∂1,β1),(∂2,β2),...(∂N,βN)>,其中 βi为非聚合像素的数目,∂i为第i个bin的聚合像素的数目[10]。
2.2 Gabor纹理特征
Gabor滤波器函数可以表示为
各个滤波器的方差可以表示为
通过Gabor滤波,可以找到一个40维的Gabor纹理特征向量:(μ11,σ11,μ12,σ12,...,μ45,σ45)。
2.3 特征归一化
由于特征数量纲量不一致,容易对分类效率产生不利影响,为了解决该难题,将提取的特征进行归一化处理,具体方式如下[11-12]。
提取的颜色和纹理特征如图2所示,从图2可知,不同类图像的颜色和纹理特征差异大,因此,根据该差异对图像进行分类。
图2 十类图像的特征分布
2.4 遗传算法确定特征权值
传统图像分类算法认为各个特征对分类效果的贡献一样,但实践证明,对于不同类型的图像,起决定性因素的分类特征是不一样的。鉴于此,采用遗传算法对图像特征进行加权,考虑各个特征对图像分类效果的不同贡献,为贡献大的特征在分类中分配更大的权值,贡献小的特征分配较小的权值,然后结合多种特征共同对图像进行分类。
1)收集图像数据,并对图像预处理,消除图像中的噪声。
2)分别提取图像的纹理、颜色特征,并转化为相应的特征向量,同时对特征进行归一化处理。
3)随机初始化种群,每个个体对应一组特征权值。
4)根据特征值建立学习样本,输入到支持向量机中学习,计算每一组权值相对应的检索结果。
5)对个体进行选择、交叉和突异操作,产生新一代种群。
6)如果达到最大迭代次数,则结束权值寻优,否则跳转到步骤4)继续执行。
7)将最优个体进行解码,得到特征的最优权值。
具体流程如图3所示。
图3 遗传算法优化特征权值的流程
3 图像分类器的构建
设训练集的样本数为n,那么训练集可以表示为:xi,yi,1<i<n,其中,xi∈Rm,yi∈R ,m表示训练集输入参数的准度,xi为一个m维的向量,yi表示训练集输出结果,为一个实数。SVM通过非线性映射函数φ(x)将输入样本映射到高维特征空间F,并在F中进行线性估计,SVM在高维特征空间中的估计函数为
式中:w和b分别为估计函数的权值向量及偏移量。
根据结构风险最小化原则,式(6)可转化为如下优化问题,即
式中:‖w ‖是与函数 f复杂度相关的项;ε为不敏感损失系数;ξi,表示松弛因子;C表示惩罚因子。
引入拉格朗日乘子,优化问题变为凸二次优化问题
式中:αi和表示拉格朗日乘子。
为了加快求解速度,将式(6)转成对偶形式,即有
相应的约束条件为
采用核函数K(xi,x)代替高维空间中的向量内积(φ(xi),φ(x)),避免维数灾难,则SVM的分类决策函数为
由于RBF函数待优化参数少,因此选择其建立SVM分类函数,因此有
式中,σ为RBF核函数宽度。
SVM是二分类器,而图像分类是一种多分类问题,必须构造多分类器才能进行图像自动分类,采用一种“一对多”方式进行构建,具体如图4所示。
4 仿真实验
4.1 数据来源
为了验证GA-SVM的图像分类性能,在Intel 2.8 GHz CPU,2 Gbyte RAM,Windows 7的计算机平台,采用VC++进行仿真实验。实验图像来自corel公司发布的权威图像数据库,共包含有10类图像,它们分别为非洲、蝴蝶、建筑、汽车、恐龙、海底世界、花朵、骏马、山峰和落日,每类图像100幅,共1 000幅图像,训练集每类50幅,测试集每类50幅,各类图像如图5所示。
图4 图像分类器的构建
图5 仿真实验用到的图像
4.2 结果与分析
提取图像的72维颜色聚合向量表征颜色特征和40维Gabor纹理向量表征纹理特征,根据遗传算法得到权值,然后采用支持向量机进行分类,并采用颜色特征、纹理特征分类、没有加权组合特征的分类图像结果进行对比,结果见表1。
表1 不同算法在测试集的分类正确率%
从表1可以得到如下结论:
1)相比于单特征和不加权组合特征分类方法,GA-SVM能够明显提高分类系统的平均准确性。并且利用遗传算法自身特有的优势,为特征权值找到全局最优解,提高了图像分类准确率。
2)对于建筑和山峰,这两种图像很容易造成错分,主要是由于两者的灰色调相同,使得提取纹理特征十分相似,而且两者都具有相似的外形,如都较挺拔坚硬,如图6所示。
图6 容易被错分图像
4.3 识别速度比较
测试颜色特征方法、纹理特征方法、没有加权的组合特征方法以GA-SVM的识别速度,结果见图7。从图7可知,相较于其他算法,GA-SVM的识别效率得到大幅度提高,可以更好地满足网络图像的在线检索应用。
图7 各算法的识别速度对比
5 结束语
针对图像分类的特征提取和分类器优化问题,提出一种特征加权和支持向量机相融合的图像分类模型。首先分别提取图像的颜色和纹理特征,然后采用遗传算法确定特征权值,最后采用支持向量机建立图像分类器,并对corel图像库进行仿真测试。仿真结果表明,GA-SVM提高了图像分类的正确率,具有较高的分类速度,验证GA-SVM的有效性。
[1] SIMPSON J J,MCINTIR JT.A recurrent neural network classifi⁃er for improved retrievals of area extent of snow cover[J].IEEE Trans.Geosciences and Remote Sensing,2001,39:2135-2147.
[2]SMEULDERS A W M,WORRING M,SANTINI S,et al.Con⁃tent-based image retrieval at the end of the early years[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2000,22(12):1-32.
[3] 谢文兰,石跃祥,肖平.应用BP神经网络对图像分类[J].计算机工程与应用,2010,46(2):163-166.
[4]付岩,王耀威,王伟强,等.SVM用于基于内容的图像分类和检索[J].计算机学报,2003,26(10):1262-1265.
[5]朱飞,王兴起.基于SIFT算法的体育类图像分类与应用研究[J].计算机应用与软件,2011,28(10):232-234.
[6] LU D,WENG Q.A survey of image classification methods and techniques for improving classification performance[J].Internation⁃al Journal of Remote Sensing,2007,28(5):823.
[7] CHEN Y X,WANG J Z.Image categorization by learning and reasoning with regions[J].Journal of Machine Learning Re⁃search,2004,5(8):913-939.
[8] ZHAO G,PIETIKAINEN M.Dynamic texture recognition using local binary patterns with an application to facial expressions[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2007,27(6):915-928.
[9]ZHANG B C,GAO Y S,ZHAO SQ,et al.Local derivative pat⁃tern versus local binary pattern:face recognition with high-order local pattern descriptor[J].IEEE Trans.Image Processing,2010,19(2):533-544.
[10] 刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图象图形学报,2009,14(4):623-635.
[11] JIANG Shuhong,HEN Bingfa.Method of image retrieval based on integrating low level feature with relevance feedback[J].Ma⁃chine Building and Automation,2009,38(3):51-53.
[12] 张刚,马宗民.一种采用Gabor小波的纹理特征提取方法[J].中国图象图形学报,2010,15(2):248-254.
Iam ges Classification Based on Genetic A lgorithm Optim izing Features W eight and Support Vector M achine
WANG Dongxia,ZHOU Guanmin
(Department of Information Engineering,Jiyuan Vocational and Technical College,Henan Jiyuan 459000,China)
In Order to improve the accuracy of the image classification,a support vector machine image classification (GA-SVM)is proposed based on genetic algorithm optimizing feature weight.Firstly,the color and texture of image are extracted.Then the feature weight are determined by the improved genetic algorithm.Finally,image classifier is established by support vector machine and the simulation test is carried out on core image library.The results show that the GA-SVM algorithm can improve the image classification accuracy compared to other image classification algorithm.
image classify;feature-weighted;support vector machine;genetic algorithm
TN911.73
A
10.16280/j.videoe.2015.02.020
王东霞(1970—),女,副教授,主研计算机应用、图像图像处理、知识工程;
2014-04-21
河南省科技攻关项目(132102210229)
【本文献信息】王东霞,周观民.遗传算法优化特征权值的支持向量机图像分类[J].电视技术,2015,39(2).
周观民(1964—),副教授,主研计算机应用、图像处理、网络技术。
责任编辑:闫雯雯