基于改进SVM算法的高分辨率遥感影像分类
2016-07-18邓曾李丹柯樱海吴燕晨李小娟宫辉力
邓曾, 李丹, 柯樱海, 吴燕晨, 李小娟, 宫辉力
(首都师范大学城市环境过程与数字模拟国家重点实验室培育基地,北京 100048)
基于改进SVM算法的高分辨率遥感影像分类
邓曾, 李丹, 柯樱海, 吴燕晨, 李小娟, 宫辉力
(首都师范大学城市环境过程与数字模拟国家重点实验室培育基地,北京100048)
摘要:针对面向对象高分辨率遥感影像分类样本维数多、数据量大的特点,提出了一种简单的支持向量机(support vector machine,SVM)改进算法。首先对原始样本数据进行主成分分析(principal component analysis,PCA)实现降维,对降维后的样本数据进行SVM分类器训练,利用网格搜索法得出降维数据的最佳参数; 以此参数作为基准,对基于原始样本数据的SVM分类器参数搜索范围进行重新设定,从而快速获取原始样本数据的最佳SVM分类器参数,并实现分类。利用2景WorldView2高分辨率影像分别对城市土地利用以及林木树种进行分类实验,比较分析传统SVM算法、仅基于PCA降维样本数据的SVM算法以及改进的SVM算法在分类精度与效率方面的差异。实验结果表明,改进的SVM算法能够快速有效地寻找最佳SVM分类器参数,并获得较高的分类精度。
关键词:高分辨率遥感影像; 支持向量机(SVM); 主成分分析; 网格搜索法; 分类性能
0引言
随着遥感技术的不断发展,近年来涌现出一系列诸如IKONOS,QuickBird,GeoEye,RapidEye,WorldView1,WorldView2,WorldView3以及我国高分1号和高分2号等高空间分辨率卫星传感器(地面分辨率小于5 m)。由于高分辨率遥感影像能在较小的空间尺度上获取细节丰富的地物信息,目前已成为遥感领域的重要数据源,在城市环境、交通、林业和军事等领域发挥出重大作用。为了解决传统基于像元方法在高分辨率影像分类时产生的“椒盐”问题,近年来面向对象的分类方法已成为高分辨率遥感影像分类的主要手段。该方法将影像分割为若干个由相邻像元组成的图斑,即影像对象,以对象作为基本单元进行分类。其优势在于对象的光谱、纹理和空间统计特性等多种遥感信息均可以作为分类属性。然而,这也造成了分类属性过多、统计特性不符合正态分布的困扰,因此不满足传统分类方法的基本假设条件,分类精度往往较低。针对这一问题,国内外专家将一系列机器学习算法,如人工神经网络、支持向量机(support vector machine,SVM)、决策树、随机森林等方法应用于高分辨率影像的分类中。其中,SVM以统计学习理论为基础,是一种基于结构风险最小化准则的机器学习算法。不要求样本属性的分布假设,相比其他机器学习算法,具有精度高、泛化能力强等特点,适合于具有高维样本特征的面向对象的遥感影像分类[1-3]。
然而,传统的SVM分类算法对大规模样本集的训练会导致系统资源占用率过高、训练时间迅速增长、分类速度下降等不足[4]。张磊等[5]提出了一种改进的最佳指数法(optimum index factor,OIF)和SVM相结合的高分辨率影像分类方法,通过OIF值对波段进行重新组合,降低数据量; 韦春桃等[6]利用遗传算法寻找SVM最佳参数,对高分辨率影像进行分类,避免多学习和欠学习状态的发生; 陈杰等[7]将粗糙集理论与SVM相结合,由粗糙集生成信息颗粒,去掉冗余信息,然后在颗粒的层次上进行SVM分类。
目前对SVM分类算法的改进主要体现在通过神经网络算法、遗传算法等寻找SVM分类器的最佳参数,目的是在减少分类时间、提高分类效率的同时保证分类精度。为此,本文从面向对象的高分辨率遥感影像分类特点出发,提出一种简单的SVM改进算法,并结合主成分分析(principle component analysis,PCA)和网格搜索法,进行SVM分类器最佳参数的快速寻找与获取,提高高分辨率影像的分类效率与精度。
1SVM基本原理
SVM理论最初来源于对数据二值分类问题的处理[8]。其基本原理为寻找一个满足分类要求的最优分割超平面[8-9],使其作为决策曲面实现线性划分空间中的点。它具有结构简单、适应性强、全局最优等特点,能较好地解决高维特征、非线性、过学习与不确定性等问题,广泛应用于遥感影像分类中。
SVM的分类精度主要取决于核函数与参数的选取[10-11]。通常,SVM参数选择的常用方法包括穷举法、智能优化法和网格搜索法。其中网格搜索法简单易操作,且收敛速度较快,因此被广泛应用于SVM参数优化中。该方法是将误差惩罚因子c和核参数(如径向基函数RBF中的γ)分别取M和N个值,用M×N个(c,γ)组合分别训练,并估计其学习精度,进而得到精度最高的一组作为最优参数。虽然网格搜索法可以并行多个SVM的训练,但其循环次数多,计算量大[14]; 且在不同的分类应用中,存在不同的最佳参数,参数搜索的区间也不同。对于面向对象的高分辨率遥感影像分类,由于数据量大、维数多,分类参数搜索时间过长,分类器效率会降低,不利于实际应用。
2SVM改进算法
针对传统SVM分类器分类效率低、计算时间长等不足,本文以RBF作为核函数,探讨快速寻找SVM分类器最佳参数c与γ的方法,方法流程如图1所示。
图1 改进的SVM算法分类流程
2.1基于PCA降维数据的SVM最佳参数获取
针对面向对象的高分辨率遥感影像分类样本数据量大、维数多导致网格搜索法寻找最佳参数的时间成倍增长的不足,本文首先利用PCA实现数据降维[15-17],消除样本属性之间的相关性[18],并基于降维数据设定参数搜索范围的初始值; 随后以PCA产生的前P个主分量(保证前P个主分量信息占总信息的99%以上,P一般小于15)作为新的样本属性,基于SVM算法对新样本进行训练,通过网格搜索法得出PCA降维数据的最佳参数。网格搜索法的搜索范围设为
(1)
式中:c和γ分别为惩罚因子与RBF核参数;x,y为网格搜索中的坐标对,其搜索范围默认在-14~14之间,步长为1,共29个值,即最佳参数c和γ需要从841个(29×29)组合中选取。
原始样本数据的分类属性一般多于100个,由于PCA处理后样本数据维数大幅度减少,与基于原始数据的最佳参数搜索相比,参数的搜索时间会缩短。然而,经过PCA处理的数据丢失了某些信息,因此该过程生成的SVM分类器最佳参数并不等同于基于原始数据的最佳参数,但可由此推导出后者的大致范围,缩小最佳参数的搜索时间。
2.2基于原始数据的SVM最佳参数获取及分类
以基于PCA降维数据的SVM分类器最佳参数为依据,划定原始数据分类器参数的搜索范围,从而对网格搜索法的参数进行优化,获取基于原始数据的最佳参数组合。
假设上述基于PCA降维数据的SVM分类器最佳惩罚因子和核参数分别为cPCA和γPCA,首先将其转换为网格搜索法对应的坐标对,即
(2)
本方法假设基于原始样本数据的SVM分类器最佳参数位于基于降维数据的分类器最佳参数附近。基于此假设,以cPCA,γPCA作为初始值,重新设定原始数据分类器参数搜索范围,即
(3)
式中:x1,y1为基于原始数据SVM参数搜索中的坐标对,步长为1,分别为5个值; 由此,最佳参数仅需从25个参数组合中获取。基于新的网格搜索范围,针对原始样本数据采用网格搜索法获取SVM最佳参数组合c’,γ’。最后采用最佳参数SVM分类器对原始数据进行分类,并验证其精度。
3实验及结果分析
本文选取2幅WorldView2高分辨率卫星遥感影像数据,利用3种面向对象的SVM分类方法分别对城市土地利用以及林木树种进行分类实验。WorldView2技术参数如表1所示。
表1 WorldView2参数
采用ENVI软件中Gram-Schmidt spectral sharpening方法进行融合,结果如图2和图3。
(a) 实验1(b) 实验2
图2WorldView2影像
Fig.2WorldView2 imageries
本文将传统SVM算法、仅基于PCA降维数据的SVM算法与改进的SVM算法分别应用于2个分类实验中,对3种算法的分类精度及效率进行比较分析。
3.1实验1: 城市土地利用分类
利用Definiens 8.2软件中的分形网络演化算法将WorldView2影像进行分割(分割尺度为70,形状参数为0.2,颜色参数为0.5),得到13 342个分类对象,如图3所示。根据目视解译建立植被、道路、水体、建筑物以及阴影共5个类别的分类样本,样本数共4 482个。对于每一样本,提取各波段均值、标准差、对比度、NDVI、亮度、NDWI和灰度共生矩阵等信息共142个特征属性。经PCA处理后,特征属性减少至13个主成分分量,其包含原始样本中99.5%的信息。根据层次抽样法,将数据平均分为5份,随后利用5-fold交叉验证法进行分类器训练及验证。表2列举了分类实验中传统SVM算法、仅基于PCA降维数据的SVM算法以及改进的SVM算法的分类结果精度、采用参数以及历时。较传统SVM算法,基于PCA降维数据的SVM算法的平均分类时间减少1 381.92 s; 但是PCA无法保留原始样本的所有属性信息,因此该方法的分类精度平均降低7.91%。相比仅基于PCA降维数据的SVM算法,改进的SVM算法分类时间稍有延长,但平均分类精度却提高11.23%; 相比传统SVM算法,改进的SVM算法的平均分类时间减少了1 308.22 s,平均分类精度提高了3.32%; 同时其惩罚因子也大于或等于传统SVM算法,证明改进后的SVM算法分类允许的误差更小。为了进一步分析3种算法的分类效果,分别选用图2(a)中蓝色和绿色方框中的局部区域进行对比,如图4所示。
图3 实验1研究区影像对象
分类方法分类次数参数cγ精度/%时间/s传统SVM12345646412832640.060.120.060.120.1288.8488.7989.0686.6888.011672.961680.651685.681698.891687.21平均值70.40.1088.281685.08基于PCA的SVM1234564326432640.120.120.090.060.1281.6880.5679.7278.8580.97298.13301.25309.29307.52299.59平均值51.20.1080.37303.16改进的SVM1234512864128641280.120.060.030.060.0691.6591.8792.1990.8991.38382.65360.97384.56375.24380.86平均值102.40.0791.60376.86
(a) 蓝框范围传统SVM算法(b) 蓝框范围基于PCA的SVM算法(c) 蓝框范围改进的SVM算法
(d) 绿框范围传统SVM算法(e) 绿框范围基于PCA的SVM算法(f) 绿框范围改进的SVM算法
图4实验1分类结果
Fig.4Classification results in study site 1
从图4中可以看出,传统SVM算法分类容易将水体和阴影混淆,建筑物和道路混淆; 仅基于PCA算法的分类,由于丢失了某些属性信息,导致大量的建筑物与道路混淆,分类结果比较混乱; 改进的SVM算法明显改善了混淆的情况,仅存在少许道路与建筑物混淆,基本上不存在水体与阴影的混淆。综上所述,较传统SVM算法与仅基于PCA降维数据的SVM算法,改进的SVM算法分类更加准确。
3.2实验2: 城市林木树种分类
同实验1,利用分形网络演化算法进行影像分割,分割结果如图5所示。
图5 实验2 研究区影像对象
影像分割尺度为50,形状参数为0.2,颜色参数为0.5,影像分割矢量图最终包含2 171个分类对象。通过研究区实地考察,结合遥感影像目视解译,建立泡桐、毛白杨、国槐以及银杏共4个类别的分类样本,样本数共525个。
对于每一对象,提取各波段均值、标准差、NDVI、亮度和灰度共生矩阵等信息共108个特征属性。经PCA处理后,原始特征属性降维至7个主成分分量,包含原始样本中99.3%的信息。同实验1,利用5-fold交叉验证法进行分类器训练及验证,结果如表3所示。与实验1类似,较传统SVM算法,仅基于PCA降维数据的SVM算法大幅度缩短了分类时间,平均缩短了26.93 s,但其分类精度平均降低5.4%; 改进的SVM算法平均分类时间减少20.91 s,平均分类精度增加1.15%。同样,其惩罚因子也都大于传统SVM算法,即分类允许的误差更小。通过对比可知,改进的SVM算法分类性能更好。针对图2(b)中的蓝色和绿色方框区域,分别利用3种分类算法进行对比研究,结果如图6所示。
表3 3种分类方法分类结果的对比(实验2)
(a) 蓝框范围传统SVM算法(b) 蓝框范围基于PCA的SVM算法 (c) 蓝框范围改进的SVM算法
(d) 绿框范围传统SVM算法(e) 绿框范围基于PCA的SVM算法(f) 绿框范围改进的SVM算法
图6实验2分类结果
Fig.6Classification results in study site 2
由图6可知,分类结果中部分地方的植被分类不准确,传统SVM算法易将毛白杨误分为泡桐与国槐; 基于PCA的SVM算法将大量的泡桐、毛白杨与国槐混淆; 改进的SVM算法仅有少许的毛白杨与泡桐混淆,其他树种分类比较清晰。总体而言,改进的SVM算法具有更高的分类精度。
3.3实验结果分析
通过上述2个实验,改进的SVM算法分类效率和精度相比传统SVM算法都有所改进。实验1的13 342个对象,改进后分类总时间平均减少了80%,精度平均提高了3%。实验2的2 171个对象,改进后分类总时间减少了50%,精度平均提高了1%。在2个实验中,通过PCA降维,原始样本的属性数量分别由142和108个减少到13和7个,属性维数的减少间接缩短了最佳参数搜索的时间。以PCA降维数据的SVM分类器最佳参数为初始值,缩小了基于原始样本数据的SVM最佳参数的网格搜索范围,同时也缩短了搜索时间,提高了最终分类效率。从分类结果可以看出,本文方法采用的基本假设合理,即基于原始数据的SVM分类器最佳参数c’,γ’与基于PCA降维数据的最佳参数cPCA,γPCA接近。对比核函数惩罚因子c可知,改进的SVM算法的惩罚因子都大于或等于原来的惩罚因子,即改进的SVM分类器允许误差更小。
4结论
针对传统SVM算法在分类效率与精度上的不足,提出基于PCA和优化网格搜索参数的改进SVM算法。对2幅高分辨率遥感影像进行分类实验可知,改进的SVM算法从整体上提高了SVM算法分类性能,主要体现在2方面:
1)通过PCA降低训练样本维数,缩小了最佳参数的网格搜索范围,从而减少了寻找最佳参数的时间。
2)通过优化网格搜索参数,对原始数据进行分类,避免基于PCA的降维数据分类时信息丢失,从而提高了分类精度。
上述2个方面的改进相辅相成,在减少分类时间的同时,提高了分类精度。实验结果表明,改进的SVM算法具有较高可行性,在高分辨率遥感影像分类中具有良好的应用前景。
参考文献(References):
[1]张伐伐,李卫忠,卢柳叶,等.SPOT5遥感影像土地利用信息提取方法研究[J].西北农林科技大学学报:自然科学版,2011,39(6):143-147.
Zhang F F,Li W Z,Lu L Y,et al.Study on extraction methods of land utilization information based on SPOT5[J].Journal of Northwest A and F University:Natural Science Edition,2011,39(6):143-147.
[2]盛佳,洪中华,张云,等.基于TerraSAR-X影像的格陵兰岛海岸水边线提取[J].极地研究,2014,26(4):418-424.
Sheng J,Hong Z H,Zhang Y,et al.Extraction of the greenland coastline based on TerraSAR-X imagery[J].Chinese Journal of Polar Research,2014,26(4):418-424.
[3]张锦水,何春阳,潘耀忠,等.基于SVM的多源信息复合的高空间分辨率遥感数据分类研究[J].遥感学报,2006,10(1):49-57.
Zhang J S,He C Y,Pan Y Z,et al.The high spatial resolution RS image classification based on SVM method with the multi-source data[J].Journal of Remote Sensing,2006,10(1):49-57.
[4]俞晓冬,周栾爱.基于改进SVM模型的电能质量扰动分类[J].电力系统保护与控制,2010,38(3):15-19.
Yu X D,Zhou L A.Classification method of power quality disturbances based on improved SVM model[J].Power System Protection and Control,2010,38(3):15-19.
[5]张磊,邵振峰.改进的OIF和SVM结合的高光谱遥感影像分类[J].测绘科学,2014,39(11):114-117,66.
Zhang L,Shao Z F.Hyperspectral remote sensing image classification based on improved OIF and SVM algorithm[J].Science of Surveying and Mapping,2014,39(11):114-117,66.
[6]韦春桃,王宁,张利恒,等.基于纹理特征的高分辨率遥感影像分类方法[J].桂林理工大学学报,2013,33(1):80-85.
Wei C T,Wang N,Zhang L H,et al.Remote sensing image classification based on texture features[J].Journal of Guilin University of Technology,2013,33(1):80-85.
[7]陈杰,邓敏,肖鹏峰,等.结合支持向量机与粒度计算的高分辨率遥感影像面向对象分类[J].测绘学报,2011,40(2):135-141,147.
Chen J,Deng M,Xiao P F,et al.Object-oriented classification of high resolution imagery combining support vector machine with granular computing[J].Acta Geodaetica et Cartographica Sinica,2011,40(2):135-141,147.
[8]萧嵘,王继成,孙正兴,等.一种SVM增量学习算法α-ISVM[J].软件学报,2001,12(12):1818-1824.
Xiao R,Wang J C,Sun Z X,et al.An incremental SVM learning algorithm α-ISVM[J].Journal of Software,2001,12(12):1818-1824.
[9]付元元,任东.支持向量机中核函数及其参数选择研究[J].科技创新导报,2010(9):6-7.
Fu Y Y,Ren D.Kernel function and parameter selection of support vector machine[J].Science and Technology Innovation Herald,2010(9):6-7.
[10]Hsu C W,Chang C C,Lin C J.A Practical Guide to Support Vector Classification[R].Taipei,Taiwan:Department of Computer Science and Information Engineering,University of National Taiwan,2003.
[11]奉国和.SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124,128.
Feng G H.Parameter optimizing for support vector machines classification[J].Computer Engineering and Applications,2011,47(3):123-124,128.
[12]吴渝,向浩宇,刘群.一种基于网格的最近邻SVM新算法[J].重庆邮电大学学报:自然科学版,2008,20(6):706-709.
Wu Y,Xiang H Y,Liu Q.A new NN-SVM algorithm based on gird[J].Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition,2008,20(6):706-709.
[13]李京华,张聪颖,倪宁.基于参数优化的支持向量机战场多目标声识别[J].探测与控制学报,2010,32(1):1-5.
Li J H,Zhang C Y,Ni N.Multi-target acoustic identification in battlefield based on SVM of parameter optimization[J].Journal of Detection and Control,2010,32(1):1-5.
[14]LaValle S M,Branicky M S,Lindemann S R.On the relationship between classical grid search and probabilistic roadmaps[J].The International Journal of Robotics Research,2004,23(7/8):673-692.
[15]Liang Y C,Lee H P,Lim S P,et al.Proper orthogonal decomposition and its applications-Part I:Theory[J].Journal of Sound and Vibration,2002,252(3):527-544.
[16]Zhao G,Maclean A L.A comparison of canonical discriminant analysis and principal component analysis for spectral transformation[J].PE and RS,Photogrammetric Engineering and Remote Sensing,2000,66(7):841-847.
[17]Metternicht G I,Zinck J A.Remote sensing of soil salinity:Potentials and constraints[J].Remote Sensing of Environment,2003,85(1):1-20.
(责任编辑: 陈理)
An improved SVM algorithm for high spatial resolution remote sensing image classification
DENG Zeng, LI Dan, KE Yinghai, WU Yanchen, LI Xiaojuan, GONG Huili
(Base of the State Key Laboratory of Urban Environmental Process and Digital Modelling,CapitalNormalUniversity,Beijing100048,China)
Abstract:Support vector machine (SVM) algorithm has been widely used for remote sensing image classification. For high spatial resolution image classification, traditional SVM algorithm usually leads to low efficiency due to large quantities of high dimensional sample data. This paper presents a simple improved SVM algorithm with the purpose of improving both efficiency and accuracy of classification models. The algorithm first uses PCA to reduce the dimension of sample features. The grid-based method is used to search for optimal parameters for SVM classification of PCA-based samples. Then new range around the PCA-optimal parameters is set up and used for optimal parameter search based on the original sample data. Finally, SVM with the optimal parameters is used to train the original sample data and classify the image. The new algorithm was evaluated by two classification experiments based on WorldView2 images including urban land cover land use classification and urban tree classification. Compared with the traditional SVM and SVM merely based on PCA data, the results show that the improved SVM algorithm could quickly and efficiently find the optimum parameters of the SVM classifier and achieves higher classification accuracy.
Keywords:remote sensing images of high spatial resolution; support vector machine(SVM); principal component analysis; grid search method; classification performance
doi:10.6046/gtzyyg.2016.03.03
收稿日期:2015-03-30;
修订日期:2015-07-21
基金项目:教育部博士点基金项目“城市复杂环境对高分辨率遥感提取多尺度植被信息的影像研究——以北京市为例”(编号: 20131108120006)和国家自然科学基金项目“基于时序InSAR技术与灰色-马尔可夫模型的北京平原区地面沉降时空预测研究”(编号: 41401493)共同资助。
中图法分类号:TP 79
文献标志码:A
文章编号:1001-070X(2016)03-0012-07
第一作者简介:邓曾(1990- ),男,硕士研究生,研究方向为遥感技术与应用。Email: 995594273@qq.com。
引用格式: 邓曾,李丹,柯樱海,等.基于改进SVM算法的高分辨率遥感影像分类[J].国土资源遥感,2016,28(3):12-18.(Deng Z,Li D,Ke Y H,et al.An improved SVM algorithm for high spatial resolution remote sensing image classification[J].Remote Sensing for Land and Resources,2016,28(3):12-18.)