利用可分性指数的极化SAR图像特征选择与多层SVM分类
2018-03-20李平,徐新,董浩,邓旭
李 平,徐 新,董 浩,邓 旭
(武汉大学 电子信息学院,武汉 430072)(*通信作者电子邮箱xinxu@whu.edu.cn)
0 引言
合成孔径雷达(Synthetic Aperture Radar, SAR)是一种主动式高分辨率微波遥感器,并且具备全天候昼夜对地成像的能力[1]。极化信息提取能最大限度地将不同地物的散射特征以量的形式表现出来,揭示地物的散射差别,进而实现目标的分类与识别。目前,地物覆盖类型和土地利用分类已经成为极化SAR最重要的应用之一[2]。
极化SAR可以通过极化分解得到大量的极化分解特征,然而,特征数量的增加并不能导致相应的分类精度提高,相反,有时可能会降低分类精度,同时增加计算时间和复杂度。目前,常用的方法有以支持向量个数作为评估准则,并辅助常用的搜寻策略进行特征寻优[3-7],但这种方法需要遍历所有特征,在面对特征维数较多的情况下,该方法明显比较繁琐。文献[8]通过特征线性判别分析(Linear Discriminant Analysis, LDA)来优选特征,提出一种面向对象的极化SAR分类方法;文献[9]分析了极化特征对不同地物类型的刻画能力,选择适合每类地物类型的特征,提出一种多层分类的方法;文献[10-14]利用可分性指数来选择特征,但其所用的特征维数都较少,并基本上是极化SAR中的纹理特征和相关的指数特征,缺少对极化SAR目标分解特征的分析与描述,并且该方法中构建的发展决策树算法,通过阈值分析来进行分类对于大样本数据分类具有一定的局限性。支持向量机(Support Vector Machine, SVM)在非线性分类、样本数目有限和高维模式识别中具有诸多的优势[15],并且适用于小样本情况,具有良好的泛化性。
有鉴于此,本文提出一种新的基于可分性指数和顺序后退法(Sequential Backward Selection, SBS)[16]选择特征并利用多层SVM进行分类的方法。该方法包括3步:
第1步 以可分性指数(Separability Index, SI)[10]确定各类地物的分类顺序,初步筛选敏感特征;
第2步 将SI所选出的敏感特征采用顺序后退法搜索特征子集,得到结果特征集;
第3步 利用SI确定的分类顺序和SBS确定的敏感特征,利用多层SVM进行分类。
1 研究数据
第一景数据为旧金山San Francisco地区L波段的RadarSat- 2星载全极化SAR数据,数据大小为1 600像素×1 200像素,分辨率为10 m。主要地物类型为水域、建筑和林地。如图1所示。
第二景数据为荷兰Flevoland地区C波段RadarSat- 2星载全极化SAR图像。分辨率为8 m×12 m,图像大小为1 400像素×1 200像素。主要地物类型为水域、耕地、建筑和林地。如图2所示。两景数据中白色区域为未定义类别,不参与分类评估。
图1 San Francisco实验数据
图2 Flevoland 实验数据
2 基于可分性指数的特征选择
2.1 极化特征提取
特征提取对极化SAR的分类十分重要。目标分解方法作为极化SAR数据特征提取的主要方法,它利用地物目标的不同散射机制,提取不同散射信息对地物目标进行分类。常用的极化目标分解特征如表1所示。
2.2 基于可分性指数和顺序后退法特征选择算法
对于多个极化特征,如何选择最优特征是比较关键的工作。在选择特征时,其中最主要的原则就是该特征具有区分不同类别的能力。由此引入了特征可分性,当考虑两类或更多类时,如果在该特征下的均值的距离大于该特征下标准差的距离,就认为该特征具有较好可分性[10]。可分性指数(SI)被定义为:
SIab=|μa-μb|/(Sa+Sb)
(1)
其中:μ和S分别表示a类和b类在某一特征下的均值和标准差。SIab值越大表明a类和b类之间的可分性越好,SIab的值在0.8和1.5之间说明该特征为有用特征,其值超过2表明该特征几乎完全实现类类可分。
表1 极化分解特征
Flevoland数据地物类型较为丰富,故选择该景数据进行实验分析。特征分析实验中每类地物选择8 000个样本点。首先,将SI指标应用于4类地物组成的对:1)水域和其他(林地、耕地和建筑);2)耕地和其他(水域、林地和建筑);3)林地和其他(水域、耕地和建筑);4)建筑和其他(水域、林地和耕地)。4类地物组成的四对类类地物在所有特征下的可分性指数如图3所示。
在特征为香农熵时,水域的可分性指数SI>2。与其他类相比水域的可分性指数较大,因此选择水域作为第一个分类目标,其可分性特征为H、α、Ks、Kd、CSE、l3、CHmA、CmHA、YPs。其可分性指数结果如图3(a)。在选择水域作为第一个分类目标后,其余三类地物作为待分类目标(耕地、林地和建筑),并需要将这三类地物组成对并求其可分性指数。剩余三类地物之间的分类过程按照以下方式完成:
1)耕地的可分性特征为FPs、α、Ks、Kd、CLUE、CPA、C1mH1mA、YPs、P1、P2,其可分性指数均在0.8 2)林地和建筑的可分性特征为FPv、A、CPH、CPF、CRVI、C1mHA、CHA、CH1mA、YPv、P3,其可分性指数也均在0.8 由于利用可分性指数在选择具有可分性的特征时,没有考虑特征之间存在冗余性。为进一步去掉特征之间的冗余,利用SVM的分类精度作为特征评估准则,采用顺序后退法(SBS)作为搜索策略进行特征选择。 图3 各类地物在不同特征下的可分性指数 SBS作为常用的次优搜索算法,能极大减少计算量,并保证结果特征集具有较好的分类性能[16]。其具体步骤为: 1)输入由可分性指数初步得到的特征集F={fi,i=1,2,…,k}。 2)计算各个特征fi(i=1,2,…,k)的分类精度Acc。 3)按照Acc的降幂对F中所有特征排序,得到排序特征集F′={fi′,i=1,2,…,k}其中Acc(fi′)>Acc(fj′)(i 4)按照Acc的降幂逐个选择特征集F′中的特征fi′,将其作为待剔除特征。 5)对于第n个待剔除特征fn′,若Acc(F′fn′)>Acc(F′),则从F′中剔除fn′;否则保留。 6)令n=n+1,若n≤k,返回步骤4);否则,特征选择结束,得到新的特征集F″。 表2给出了利用可分性指数进行初步特征选择后,再辅助以顺序后退法所选的特征。 表2 基于可分性指数和顺序后退法所选特征 统计区域合并(Statistical Region Merging, SRM)算法在处理噪声干扰具有高效的性能,并且它不依赖于数据分布,而这些优点使SRM适合于具有斑点噪声的合成孔径雷达图像的分割。文献[17]对其改进提出了广义SRM算法,即GSRM(Generalized Statistical Region Merging)算法,使其可以适用于乘性噪声,并能更好地应用于极化SAR数据的抗噪处理。其中,调节分割尺度的参数需要根据不同的应用需求来设置。本实验中,数据1和数据2的尺度调节参数均为16。 在分类之前,采用GSRM分割对极化SAR图像进行预处理,可以确定最小同质区域,方便后续的特征提取与分类,同时对噪声具有一定的抑制作用。本文方法的流程如图4所示。 图4 多层SVM分类方法流程 在利用可分性指数和顺序后退算法确定了各类地物的分类顺序和可分性特征后,利用多层SVM对4类地物进行分类。该方法中SVM分类器的核函数为径向基函数(Radial Basis Function, RBF)。RBF核函数在处理线性不可分的分类问题有较大优势,其SVM核参数为默认参数,具体实现的步骤如图5所示。 图5 多层SVM分类方法的具体步骤 本文通过分析两景实验数据中的各类地物的分类精度和总体的分类精度来评价本文算法及对比算法。实验硬件平台为PC配置为i7处理器/16 GB内存,64位操作系统,软件平台为Matlab 2014a。对比实验1为经典的Wishart监督分类;对比实验2为多维特征+SVM;对比实验3为利用可分性指数选择特征和确定分类顺序后直接进行分类;对比实验4为在利用可分性指数和顺序后退法选择特征后,选择随机森林(Random forest)作为分类器,在后续描述中均用RT表示随机森林算法。随机森林算法实质是一个包含多个决策树的分类器,这些决策树的形成采用了随机的方法,因此也叫作随机决策树,随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终结果。本实验中,随机森林中决策树的个数ntree为10,迭代次数为200;对比实验5为在利用可分性指数和顺序后退法选择特征后,将BP_AdaBoost作为分类器进行分类,在后续描述中均用Ada表示BP_AdaBoost方法。AdaBoost算法的分类的思想是合并多个弱分类器的输出以产生有效分类。BP_AdaBoost模型即把BP神经网络作为弱分类器,反复训练BP神经网络预测样本输出,通过AdaBoost算法得到多个BP神经网络弱分类器组成的强分类器。该实验中,构建的BP网络数为6,最大训练次数epochs为4,训练要求精准度为0.000 04。训练样本为全数据的8%。San Francisco数据分类顺序为先将水域从三类地物中分开,其所用特征为H、CSE、CmHA、ρHH-VV,再将建筑和林地分开,其所用特征为Kd、P3、CPH、ρRR-LL、A。其分类后的总体精度和分类结果如表3和图6所示。表4中时间为各类算法的运行时间,单位为秒(s),本文将该运行时间作为运算复杂度的判断指标。 表3 旧金山地区各类地物分类精度和总体分类精度 % 表4各种算法在旧金山地区的运行时间s Tab. 4 Running time of different algorithms for San Francisco data s 从整体结果分析:1)对比实验1是经典的Wishart监督分类,实验结果表明其对水域的分类效果比较理想,且其运行时间最短,复杂度较低,但其总体分类的准确率比其余5种算法差。2)对比实验2为多维特征进行分类,其对林地的分类精度只有83.54%。3)对比实验3为利用可分性指数初步进行特征选择后直接进行多层SVM分类,相较于多维特征下SVM分类方法,林地的分类精度提高了7%,并且整体分类精度也有所提高。4)对比实验4和对比实验5为在利用可分性指数和顺序后退法选择特征后,分别利用随机森林和AdaBoost分类器进行分类,从实验结果可以看出,在这两种分类器条件下,总的分类精度相近,但它们对林地的分类效果稍差,林地的分类精度分别为89.78%和89.89%。5)利用本文方法总体分类精度为95.81%,每类地物的精确度均高于90%。 由于San Francisco地区的地物较少,且地物之间的可分性也比较好,各种方法的总体分类精度相差约为1%,故选择从运行时间,即各个算法的复杂度来分析。对比实验3即SVM+SI的运行时间约为53 min,约为实验4、5和6运行时间的3倍。San Francisco数据由可分性指数得到水域的可分特征数共有17个,为所用特征数目的1/2;林地和建筑由可分性指数得到的特征数共有13个。从实验结果也可以看出,多维的特征并没有取得理想中较高的分类准确率,并带来了运行时间加长的厄运。在利用顺序后退法对特征再次进行选择后,实验4、实验5的运行时间分别为18 min和20 min,实验6的运行时间约为15 min,复杂度降低。在SVM+SI+SBS算法下,时间相对最短,故而认为该算法的复杂度相对较小。 图6 San Francisco数据分类结果 San Francisco数据只有水域、建筑和林地这三类地物,地物类别较少,为充分说明可分性指数在多层分类方法中的适用性,选择具有水域、林地、耕地和建筑四类地物的Flevoland地区作验证实验。Flevoland数据分类后各地物的分类精度和分类结果分别如表5和图7所示。表6为各种算法在Flevoland数据中的运行时间对比。 表5 Flevoland数据分类精度对比 % 从整体结果分析:1)对比实验1对水域的分类效果依然比较理想,且运行时间最短。2)对比实验2对建筑的分类结果较差,分类精度只有76.70%,但相比实验1其总体分类精度有所提高。其运行时间为该几种算法中最长的,约为1.68 h。3)对比实验3和4的分类精度相接近,其中SVM+SI算法下,耕地的分类精度只有84.55%,而RT+SI+SBS算法下,建筑的分类精度只有82.51%。SVM+SI算法时间约为RT+SI+SBS的两倍。4)在利用可分性指数和顺序后退法选择特征后,BP_AdaBoost和SVM两种分类器下,总体分类精度相接近,但BP_AdaBoost算法的情况下,建筑的分类精度只有84.63%。同时,本文发现,在SVM作分类器进行分类时,每类地物的分类精度均在86%以上,且运行时间也比较短。 表6各种算法在Flevoland数据中的运行时间s Tab. 6 Running time of different algorithms for Flevoland data s 综上,对于各类地物之间的可分性较好的极化SAR数据,仅由可分性指数选出的特征进行多层分类,没有提高分类的准确率,且带来了运算量大幅增加。在利用可分性指数和顺序后退法选择特征后进行多层分类,在SVM分类器的情况下,运行时间大幅度减少,且分类精度提高2%;在不同分类器的情况下,SVM分类器的分类效果相对较好,这也说明了支持向量机适用于小样本情况,具有良好的泛化性。 图7 Flevoland数据分类结果 本文提出一种基于可分性指数的多层SVM的极化SAR特征分析与分类方法,该方法解决了在面对高维特征情况下利用可分性指数初步筛选特征时特征之间依然会出现冗余的问题。可分性指数先将高维特征作第一步筛选,剔除了一部分特征,降低了特征的维数;然后利用顺序后退选择算法进行第二次特征选择,进一步去除特征之间的冗余性。通过实验证明了该方法的可行性和有效性。 下一步的研究方向主要是面向更丰富的地物目标类型,提出更多的可利用的特征,研究出各类地物的通用的敏感特征,用于极化SAR图像的分类,以期在减灾、土地利用等重要领域发挥积极作用。 References) [1] 李仲森.极化雷达成像基础与应用[M].北京:电子工业出版社,2013:2.(LI Z S. Polarization Radar Imaging Foundation and Application [M]. Beijing: Publishing House of Electronics Industry, 2013: 2.) [2] 王超,张红,陈曦.全极化合成孔径雷达图像处理[M].北京:科学出版社,2008:107.(WANG C, ZHANG H, CHEN X. Full Polarimetric Synthetic Aperture Radar Image Processing [M]. Beijing: Science Press, 2008: 107.) [3] 吴永辉,计科峰,郁文贤.SVM全极化SAR图像分类中的特征选择[J].信号处理,2007,23(6):877-881.(WU Y H, JI K F, YU W X. Feature selection in SVM full polarimetric SAR image classification [J]. Signal Processing, 2007, 23(6): 877-881.) [4] 吴永辉,计科峰,李禹,等.利用SVM的极化SAR图像特征选择与分类[J].电子与信息学报,2008,30(10):2347-2351.(WU Y H, JI K F, LI Y, et al. Characteristic selection and classification of polarimetric SAR images using SVM [J]. Journal of Electronics & Information Technology, 2008, 30(10): 2347-2351.) [5] 巫兆聪,欧阳群东,李芳芳.顾及特征优化的全极化SAR图像SVM分类[J].测绘科学,2013,38(3):115-117.(WU Z C, OUYANG Q D, LI F F. SVM classification of fully polarimetric SAR images with feature optimization [J]. Surveying Science, 2013, 38(3): 115-117.) [6] 代琨,于宏毅,马学刚,等.基于支持向量机的特征选择算法综述[J].信息工程大学学报,2014,15(1):85-91.(DAI K, YU H Y, MA X G, et al. Research on feature selection algorithm based on support vector machine [J]. Journal of Information Engineering University, 2014, 15(1): 85-91.) [7] 袁春琦,徐佳,程圆娥,等.顾及分类器参数的全极化SAR图像特征选择与分类[J].测绘科学技术学报,2016,33(5):507-512.(YU C Q, XU J, CHENG Y E, et al. Design and classification of full polarized SAR image based on classifier parameters [J]. Journal of Surveying and Mapping Science and Technology, 2016, 33(5): 507-512.) [8] 李雪薇,郭艺友,方涛.基于对象的合成孔径雷达影像极化分解方法[J].计算机应用,2014,34(5):1473-1476.(LI X W, GUO Y Y, FANG T. Based on the object-based synthetic aperture radar image polarization decomposition method [J]. Journal of Computer Applications, 2014, 34(5): 1473-1476.) [9] 宋超,徐新,桂容,等.基于多层支持向量机的极化合成孔径雷达特征分析与分类[J].计算机应用,2017,37(1):244-250.(SONG C, XU X, GUI R, et al. Analysis and classification of polarized synthetic aperture radar based on multi-layer support vector machine [J]. Journal of Computer Applications, 2017, 37(1): 244-250.) [10] CUMNLING I G, ZYL J J V. Feature utility in polarimetric radar image classification [C]// IGARSS’89: Proceedings of the 1989 International Canadian Symposium on Remote Sensing. Piscataway, NJ: IEEE, 2002: 1841-1846. [11] MISHRA P, SINGH D. A statistical-measure-based adaptive land cover classification algorithm by efficient utilization of polarimetric SAR observables [J]. IEEE Transactions on Geoscience & Remote Sensing, 2014, 52(5): 2889-2900. [12] WU F, WANG C, ZHANG H, et al. Rice crop monitoring in south China with RADARSAT- 2 quad-polarization SAR data [J]. IEEE Geoscience & Remote Sensing Letters, 2011, 8(2): 196-200. [13] GUPTA S, SINGH D, KUMAR S. An approach based on texture measures to classify the fully polarimetric SAR image [C]// Proceedings of the 2015 International Conference on Industrial and Information Systems. Piscataway, NJ: IEEE, 2015: 1-6. [14] JAIN A, SINGH D. Decision tree approach to classify the fully polarimetric RADARSAT- 2 data [C]// Proceedings of 2015 National Conference on Recent Advances in Electronics & Computer Engineering (RAECE). Piscataway, NJ: IEEE, 2015: 318-323. [15] VAPNIK V N. An overview of statistical learning theory [J]. IEEE Transactions on Neural Networks, 1999, 10(5): 988-99. [16] PUDIL P, NOVOVICOVJ, KITTLER J. Floating search methods in feature selection [J]. Pattern Recognition Letters, 1994, 15(11): 1119-1125. [17] LANG F, YANG J, LI D, et al. Polarimetric SAR image segmentation using statistical region merging [J]. IEEE Geoscience & Remote Sensing Letters, 2014, 11(2): 509-513. This work is partially supported by the Technology Research and Development Major Project of High-Resolution Earth Observation System (03-Y20A10- 9001- 15/16), the Comprehensive Disaster Demonstration Project of Spatial Information Services. LIPing, born in 1992, M. S. candidate. Her research interests include synthetic aperture radar image interpretation. XUXin, born in 1967, Ph. D., professor. His research interests include signal and information processing. DONGHao, born in 1990, Ph. D. candidate. His research interests include synthetic aperture radar image interpretation. DENGXu, born in 1993, M. S. candidate. Her research interests include synthetic aperture radar image interpretation.2.3 多层SVM分类方法
3 实验分析
4 结语