APP下载

基于EnMAP-Box的遥感图像分类研究

2014-07-24林海晏岳彩荣吴晓晖

西南林业大学学报 2014年2期
关键词:分类器网格精度

林海晏 岳彩荣 吴晓晖 胥 辉 郑 欣

(1.西南林业大学林学院,云南 昆明 650224;2.首都体育学院现代教育技术中心,北京 100086)

基于EnMAP-Box的遥感图像分类研究

林海晏1岳彩荣1吴晓晖2胥 辉1郑 欣1

(1.西南林业大学林学院,云南 昆明 650224;2.首都体育学院现代教育技术中心,北京 100086)

采用2007年6月云南省勐腊县TM遥感数据,利用EnMAP-box进行了支持向量机的图像分类研究,以网格搜索法寻找最优参数,在设定的范围内,求得了最优C和g参数,用此参数进行支持向量机的遥感图像土地覆盖分类。结果表明:SVM方法较最大似然分类方法具有较高的分类精度,特别是阔叶林和橡胶林的精度明显优于最大似然分类方法;对于面积较小的次要类型,2种分类方法的精度基本保持一致;SVM的总体精度相对于最大似然分类提高了11.9%。

支持向量机;EnMAP-box;网格搜索法;遥感图像分类

SVM(support vector machines)支持向量机是建立在统计学习理论基础上的一个学习算法,根据有限的样本信息在模型的复杂性(对特定训练样本的学习精度)和学习能力(无错误识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力,是统计学习、最优化方法和核函数方法的结合[1-2],目前主要应用于分类和回归问题。随着空间技术的发展,SVM被引入遥感影像分类处理,现已成为SVM应用的一个热门研究方向。很多研究表明[3],SVM分类精度与其惩罚参数(C)和核函数参数(g)是影响SVM分类器性能的关键参数。近年来,许多学者提出或改进了SVM分类研究中参数优化问题。目前,主要有以下方法:实验法、网格搜索(grid search)法[4]、遗传算法(genetic algorithm,GA)[5]寻优法、粒子群算法(particle swarm optimization,PSO)[6]寻优法等。然而尚未见关于整合SVM分类器和参数优化模块软件的相关报道,因而很多SVM参数优化的应用性研究受到工具的限制。本文利用EnMAP-Box工具包中的网格搜索作为研究工具,以(C,g)作为寻优变量,以TM影像中各波段像素值和NDVI作为特征向量,研究EnMAP-Box工具包中SVM参数优化在遥感图像分类中的性能表现。

1 SVM分类原理和EnMAP-Box

1.1 SVM分类原理

SVM最初是针对2个数据类别的分类问题提出来的。对于样本集:(xi,yi),其中:i=1,2,3,…,n;yi∈{-1,1}。

构造分类面:ωX+b=0,能将2类样本无错误的分开,并且使2类样本之间的距离最大。其中,X为n维向量。

对于线性不可分的情况,首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的核函数(内积函数)来实现。SVM训练样本集和核函数完全描述,因此采用不同核函数k(x,xi),就可以构造实现输入空间中不同类型的非线性决策面的学习机,导致不同的支持向量算法。在实际问题中,通常是直接给出核函数。目前,研究最多、最常用的核函数有:

1) 线性核函数:k(xi,x)=(xi,x);

2) 多项式核函数:k(xi,x)=((xi,x)+1)q,q为参数;

3) Sigmoid核函数:

k(xi,x)=tanh(v(xi,x)+c);

4) 径向基(RBF)核函数:

1.2 EnMAP-Box工具包

EnMAP-Box是一款由德国环境制图与分析计划(environmental mapping and analysis program)项目组基于IDL(interactive data language)开发的处理高光谱遥感数据的工具包。工具包提供了数据归一化、SVM和RF(random decision forests)分类和回归、滤波等功能。目前,EnMAP-Box功能还在进一步扩展,其组件式设计可以和ENVI遥感图像处理软件较好的耦合,其简单易用的用户界面使得工具包有较好的推广前景。内置一些模块可以针对高光谱数据进行处理,如Savitzky-Golay平滑滤波器和基于网格搜索参数优化的支持向量机的图像分类等。本研究使用EnMAP-Box的SVM分类器,对TM遥感图像进行分类。

EnMAP-Box工具包中的SVM分类模块依赖于台湾大学林智仁等[7]开发设计的libsvm,一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,其功能模块集成了网格搜索参数优化。

2 研究区概况

研究区主要包括云南省勐腊县关累镇和勐腊自然保护区的大部分范围,地处东经101°07′28″~101°33′56″,北纬21°30′07″~21°51′04″,海拔400~ 1 450m,土壤类型以砖红壤和赤红壤为主,主要的植被类型为热带常绿阔叶林。研究区物种丰富,包括望天树(Parashorea chinensis)、番龙眼(Pometia pinnata)、版纳青梅(Vatica xishuangbannaensis)、见血封侯(Antiaris toxicaria)、纤细龙脑香(Dipterocarpus gracilis)等名贵树种;此外研究区人为干扰较多,其中以橡胶树(Hevea brasiliensis)为主的人工林分布广泛。由2007年6月24日Landsat5卫星获取研究区域作为研究主要数据来源,图像范围见图1。

3 数据处理与方法

3.1 技术路线

此次研究以提高SVM分类精度为目的,应用EnMAP工具实现网格搜索参数寻优SVM遥感图像分类,其中的EnMAP工具包已经集成于ENVI遥感图像处理软件,能够为数据预处理、采集样本、图像分类、精度检验提供便利,其优势在于为SVM分类提供了参数寻优方法。研究中采用SVM分类和传统的最大似然分类,分别对研究区遥感图像进行分类研究比较。研究流程见图2。

3.2 研究方法

交叉验证[8](crossvalidation,CV)方法贯穿于SVM参数优化过程中,是完成参数优化过程中最基本的手段之一,也是参数优化中重要精度检测方法之一。很多SVM分类器在设计之初就将交叉验证纳入设计范围之内,因此EnMAP-Box实现参数优化功能也依赖于其使用的libsvm模块自身具备的交叉验证功能。交叉验证的基本思想是把原始样本数据进行分组,一部分作为样本集,另一部分作为测试集。首先用样本集对分类器进行训练,得到训练模型,再利用测试集验证分类模型的精度,以此作为评价分类器的性能指标。通常人们都采用K-foldCV,即将原始数据分成K组,将每个子集数据分别做一次测试集,其余的(K-1)组子集数据作为样本集,这样会得到K个分类模型,用这K个分类模型最终测试集的分类准确率平均数作为此K-CV下分类器分类精度的性能指标。

3.2.1 样本获取 研究中选取了除第六波段之外6个TM波段以及NDVI,一共7个分类特征。使用ENVI遥感图像处理软件及工具,对图像进行了大气校正、地形校正等预处理,尽量消除气溶胶、地形等环境因子对遥感图像的影响;使用EnMAP工具对相应的遥感图像进行归一化处理。根据实地调查的数据,选取一定数量的训练样本,研究区主要类型分为:水域、农地、橡胶林、竹林、灌木林、常绿阔叶林。

实地调查的地类以及一些辅助参考数据作为选取样本的依据,其中最重要的样本类型是常绿阔叶林和橡胶林(人工林)。根据森林资源清查数据,2种类型的面积占到研究区面积85%以上。样本的选择兼顾了代表性和样本间的可分离度。样本的数量见表1。

表1 各类型样本数量

3.2.2 数据归一化 遥感数据经过大气校正、地形校正等预处理,完成数据归一化操作。归一化并不是必须采用的预处理方法。但一旦采用了,这个步骤就十分重要,因为这是使用SVM分类的第一步骤,原始数据将会被变化,若处理不当会使后面的分类或回归效果不佳,最好的效果是将测试集和样本集放在一起归一化。因此,遥感图像的分类归一化问题显的尤为重要,有学者研究证明归一化能有效提高分类器的分类准确率,SVM尤为明显,且能使其参数的寻优范围缩小,缩短训练周期[9]。

3.2.3 参数寻优 对于以RBF核函数的SVM分类器,网格搜索法[10]的基本原理是让惩罚参数(C)和核参数(g)在一定的范围划分网格并遍历网格内所有点进行取值,对于取定的C和g利用交叉验证K-CV方法得到在此组C和g下训练集验证分类准确率,最终取使训练集验证分类准确率最高那组的C和g作为最佳的参数。值得提出的是,为了保证参数选择的合理性,在设定的取值范围之内,在取值过程中舍去边界值。在一定取值范围之内在保证模型的精度的前提下,C和g的取值在非边界值内,可以在一定程度上解决网格搜索寻优陷入局部最优解的问题。

在ENVI中获取的样本信息ROI文件,使用ENVI的ROITool工具CreatClassImagefromROI功能转为符合EnMAP使用规范的分类图像。使用EnMAP工具的parameterizeSVclassifer(支持向量分类器参数优化),设定惩罚参数和核参数的取值范围,对样本分类模型进行依据交叉验证方法的精度分析,得出分类精度较好的分类模型。参数寻优见图3。

3.2.4 图像分类 在得到合理的参数优化结果后,对遥感图像进行SVM分类。值得提出的是,EnMAP工具包网格搜索参数寻优SVM分类器使用的核函数是RBF径向基核函数。

4 结果与分析

4.1EnMAP参数寻优结果

通过多次的反复试验发现,网格搜索中模型的精度与网格搜索范围的设定有着密切的联系。在样本空间、遥感数据等背景设定一定的情况下,C和g参数的初始设定范围和搜索步长对模型精度的影响是显而易见的。参数设定范围要在可控范围内避免出现局部最优解,即寻优参数应是非临界值,而搜索的步长应当在寻优时间允许的范围内,保证步长最小,交叉验证中样本集的分割数量应>3。

文章中网格搜索参数设置如下:Cmin和Cmax为初始最大值和最小值,M为乘数;则C的搜索范围是:

合理的初始值设定值能够有效增加搜索密度,并且能够将参数控制在初始设定值的范围内。计算结果表征了在设定的参数范围之内,交叉验证模型的最优分类精度为0.947 964。网格搜索寻优所得的参数C=137.370 55;g=1.728 00。网格搜索参数设定见图4。

4.2 分类结果与精度检验

将以上参数寻优结果代入分类器SVM,得到研究区分类结果,见图5。为了便于对比,研究中使用同样的训练样地采用最大似然方法进行分类,结果见图6。

对2种方法得到的分类结果采用2006年森林资源二类清查数据作为地面真实数据进行精度检验(表2)。检验结果表明,SVM的分类总体精度为84.4%,kappa系数为0.778 8;最大似然分类总体精度为72.5%,kappa系数为0.622 1。SVM分类精度比最大似然方法有了较大幅度的提高,特别是对于面积比例较大的阔叶林和橡胶林,使用网格搜索的SVM分类方法,其分类精度得到了较大程度的提高。

表2 SVM和最大似然分类精度比较

5 结论与讨论

1) SVM参数的优化选取,国际上并没有公认统一的最好的方法[11-12]。本文尝试网格搜索最优参数的方法,通过网格搜索参数寻优,在设定的范围内,求得了最优的C和g参数。用此参数进行了支持向量机的遥感图像土地覆盖分类。结果表明:SVM方法较最大似然分类方法具有较高的分类精度,特别是阔叶林和橡胶林的精度明显优于最大似然分类方法;对于面积较小的次要类型,2种分类方法的精度基本保持一致;SVM的总体精度相对于最大似然分类提高了11.9%。

2)EnMAP-box工具包中的SVM分类模块包含网格搜索参数优化功能,为中尺度遥感图像SVM分类提供了一个可行方案。同时,网格搜索中初始设定范围和步长是得到最优解的关键,按照EnMAP中网格搜索算法设定,乘数(multipler)是直接影响C和g取值密度的重要参数。基于网格搜索参数优化的SVM分类是一个提高中尺度遥感图像分类精度的有效手段。

3) 在SVM分类中,在设定参数寻优范围时,应避免参数范围过窄陷入局部最优解的问题。

4) 在遥感图像的分类问题中,SVM是解决小样本、非线性问题的有力工具,其参数的优化方法也多种多样,文章介绍的EnMAP工具集成了网格搜索参数优化的功能,一定程度上为提高光谱遥感图像分类精度提供了一个有效的途径。

[1] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报, 2000, 26(1): 32-42.

[2] 张学工. 统计学习理论的本质[J]. 北京: 清华大学出版杜, 2000.

[3] 李娇.支持向量机参数优化研究[D].武汉:华中师范大学,2011.

[4]LiuXianglou,JiaDongxu,LiHui,etal.ResearchonKernelparameteroptimizationofsupportvectormachineinspeakerrecognition[J].ScienceTechnologyandEngineering, 2010, 10(7): 1669-1673.

[5]ChenPW,WangJY,LeeHM.ModelselectionofSVMsusingGAapproach[C]//NeuralNetworks, 2004.Proceedings. 2004IEEEInternationalJointConferenceon.IEEE, 2004, 3: 2035-2040.

[6]EberhartRC,KennedyJ.Anewoptimizerusingparticleswarmtheory[C]//Proceedingsofthesixthinternationalsymposiumonmicromachineandhumanscience, 1995, 1: 39-43.

[7]ChangCC,LinCJ.LIBSVM:alibraryforsupportvectormachines[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST), 2011, 2(3): 27.

[8] 王健峰, 张磊, 陈国兴, 等. 基于改进的网格搜索法的SVM参数优化[J]. 应用科技, 2012, 39(3): 28-31.

[9] 邹鹏, 姜秋喜, 莫翠琼, 等. 基于SVM识别的雷达辐射源特征向量归一化研究[J]. 电子信息对抗技术, 2010, 25(6): 30-33.

[10] 王兴玲, 李占斌. 基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报: 自然科学版, 2005, 35(5): 859-862.

[11] 刘淳安, 陈一虎. 基于带变异算子的粒子群优化算法[J]. 重庆工学院学报, 2006, 19(8): 38-40.

[12] 张荣沂. 一种新的集群优化方法:粒子群优化算法[J]. 黑龙江工程学院学报, 2005, 18(4): 34-36.

(责任编辑 曹 龙)

Remote Sensing Image Classification by EnMAP-Box Model

LIN Hai-yan1, YUE Cai-rong1, WU Xiao-hui2, XU Hui1, ZHENG Xin1

(1.College of Forestry, Southwest Forestry University, Kunming Yunnan 650224, China;2.New Media Service Center, Capital University of Physical Education and Sports, Beijing 100086, China)

Image classification of the TM remote sensing data of Mengla County, Yunnan Province in June of 2007 was conducted by EnMAP-box model with the support vector machine (SVM), attempting to search for the optimal parameters by grid search. The optimal C and g parameters were obtained within a set range, and the land cover classification was done by SVM with the optimized parameters and the remote sensing image. The results showed that the classification accuracy of SVM classifier was higher than that of the regular Maximum Likelihood Classifier (MLC), especially for the broadleaved forests and rubber plantations. The classification accuracy of the two methods would be similar for smaller secondary land types. Comparatively speaking, the overall accuracy of the SVM was 11.9% higher than that of MLC.

support vector machine (SVM); EnMAP-box Model; grid search; remote sensing image classification

2013-12-29

国家公益性行业科研专项(200904045)资助;国家自然基金项目(31260156)资助。

岳彩荣(1964—),男,教授。研究方向:遥感与地理信息系统应用。Email:cryue@163.com。

10.3969/j.issn.2095-1914.2014.02.013

S771.3

A

2095-1914(2014)02-0067-05

第1作者:林海晏(1985—),男,硕士生。研究方向:林业遥感。Email:lindar2004@163.com。

猜你喜欢

分类器网格精度
热连轧机组粗轧机精度控制
超高精度计时器——原子钟
反射的椭圆随机偏微分方程的网格逼近
追逐
分析误差提精度
基于DSPIC33F微处理器的采集精度的提高
重叠网格装配中的一种改进ADT搜索方法
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于曲面展开的自由曲面网格划分