一种利用空间和光谱信息的高光谱遥感多分类器动态集成算法
2017-04-28苏红军刘浩
苏红军, 刘浩
(1.河海大学地球科学与工程学院,南京 211100; 2.武汉大学测绘遥感信息工程国家重点实验室,武汉 430079)
一种利用空间和光谱信息的高光谱遥感多分类器动态集成算法
苏红军1, 刘浩2
(1.河海大学地球科学与工程学院,南京 211100; 2.武汉大学测绘遥感信息工程国家重点实验室,武汉 430079)
针对高光谱遥感影像分类面临的小样本、分类器不稳定等问题,在总结现有多分类器动态集成算法的基础上,提出了一种利用空间和光谱信息的多分类器动态集成算法。首先,采用支持向量机等5个基分类器构建多分类器集合; 其次,计算各个分类器的分类结果,将大多数分类器分类一致的像元列入样本数据; 最后,根据待分类像元的邻域像元的标签分类情况,动态地选择合适的方式进行分类器集成。该算法只在空间邻域信息满足一定条件的情况下,才采用空间和光谱信息结合的方法进行处理,即利用空间信息提高算法的灵活性。采用2幅不同传感器的高光谱遥感影像数据对算法进行实验,并与现有5种多分类器动态集成算法进行对比分析。结果表明,本文提出的多分类器动态集成算法可以保持较高的分类精度,并能有效提升高光谱遥感影像分类的稳定性,对于推动高光谱遥感精细分类研究具有一定的理论和实用价值。
高光谱遥感; 多分类器动态集成; 空间和光谱信息; 多分类器系统
0 引言
高光谱遥感分类是当前遥感信息处理领域的热点问题,分类精度的高低显著影响到后续应用的水平。随着遥感应用对高光谱遥感影像分类精度要求的不断提升,传统分类算法已很难满足要求。多分类器集成已经成为模式识别领域的一个前沿方向,以其出色的性能受到越来越多研究者的关注。将多分类器动态集成方法应用在高光谱遥感影像分类中,将会进一步提升分类结果的可靠性和精度。
通常情况下,进一步提升高光谱遥感影像分类精度的方式有2种: 一种是发展新的高光谱遥感影像分类算法,如支持向量机(support vector machine,SVM)[1-3]、人工免疫系统、DNA计算[4-5]等; 但由于基分类器自身的局限性,其精度和适用范围有一定限制[6]; 另一种是对现有的基分类器进行集成,通过对几个性能较差、结构较为简单的基分类器集成,可能取得优于单个复杂分类器的性能[7]。多分类器集成包括静态分类器集成和动态分类器集成(dynamic classifier selection,DCS)[8]。现有多分类器集成大部分都是静态集成,多分类器集成系统一经设定就无法改变和更新,缺陷非常明显。高光谱遥感数据的高维、小样本等特性又给现有多分类器集成方法和系统带来了更大的麻烦,特别是在小样本的情况下,原有的分类器可能无法发挥其应有的性能。而多分类器动态集成则根据分类过程中的训练性能以及未知模式的相关参数动态进行[9-11],可实现对待分类像元的较好预测。
现有DCS算法主要通过局部精度估算进行多分类器的动态选择,包括总体局部精度(overall local accuracy,OLA)估算、局部类别精度(local class accuracy,LCA)估算[12]、利用多分类器行为(multiple classifier behavior,MCB)信息进行局部精度估算[13]和改进的局部精度(modified local accuracy,MLA)估算[14]等方法。此外还有一类基于聚类与选择(clustering and selection,CS)的DCS算法[15],然而,现有算法在动态集成时大多仅利用了光谱信息而忽略了高光谱遥感影像这种高度规则化数据本身所包含的空间信息。虽然DCS-CS算法在集成时也利用了空间信息,但该算法受到聚类方法等因素的制约,集成效果并不理想。
为克服上述问题,本文提出了一种利用空间和光谱信息的多分类器动态集成算法(dynamic classifier selection with spatial and spectral information,DCS-SSI),解决了传统分类器集成方法利用空间信息不足、分类效果不稳定的问题; 针对HyMap和AVIRIS 2个不同传感器的高光谱遥感影像进行实验,并与DCS-CS算法对比分析。在保持较高分类精度的基础上,进一步提升高光谱遥感分类的稳定性,为后续遥感应用提供技术支持。
1 DCS算法
1.1 基于局部精度估计的DCS
Woods等[12]1997年提出了基于局部精度估计的DCS算法。该算法通过计算待分类像元局部区域上各分类器的分类精度,选择分类精度最高的分类器输出作为该像元的标签。算法中的局部区域指的是待分类像元在训练样本中的l邻域,并提出了2种计算局部精度的方法: OLA和LCA。OLA方法计算训练样本中被正确分类样本的百分比,取精度最高的分类器输出作为该像元的标签; LCA方法计算各类别被分类器正确分类的百分比,取百分比最高的类别作为该像元标签。研究发现,局部区域取待分类像元在测试样本中的l邻域会获得更高的分类精度。
1.2 DCS-MLA
Smits[14]在2002年提出了DCS-MLA算法,该算法改进了文献[12]中局部精度估计方法,其主要思想是: 对每个待分类像元Xij,分别计算所有训练/测试样本到该像元的距离,按样本距离进行升序排列,选择n个最邻近像元(本文取n=10),根据距离计算每个邻近像元的权重,并计算各基分类器在n邻近像元上正确分类的权重和,取权重和最高的分类器输出作为待分类像元的标签。
1.3 DCS-CS
Kuncheva[16]于2000年提出了DCS-CS算法[16]。该算法首先对影像进行聚类(利用K-means算法,k取高光谱遥感影像数据的地物类别总数),聚类后各聚类区域为R1,R2,…,Rk,计算各聚类中心C1,C2,…,Ck,选择各聚类上分类性能最佳的分类器CR1,CR2,…,CRk; 计算待分类像元到各聚类中心距离,选择距离最近聚类上的分类器输出作为该像元标签。
1.4 DCS-MCB
Giacinto[13]于2001年提出了DCS-MCB算法。该算法首先计算待分类像元到所有训练/测试样本的距离,并选择n个距离最近像元作为该像元邻近像元; 其次在n邻近像元中选择光谱相似度(本文选用欧式距离)大于设定阈值的m个邻近像元(本文设定阈值为0.85); 在选定的m个邻近像元上计算各基分类器的分类正确率; 如果某基分类器的分类正确率显著优于其他分类器,选择该基分类器输出作为待分类像元的标签,否则利用简单投票法计算待分类像元的标签。
2 DCS-SSI算法
2.1 基本原理
空间和光谱信息都可以作为待分类像元分类的参考信息。由于仅利用光谱信息进一步提升高光谱遥感影像的分类精度已非常困难,本文在多分类器集成时加入空间信息,提出了一种DCS-SSI算法。
该算法的核心思想是: 在进行待分类像元分类时首先考察该待分类像元的空间信息。当待分类像元的空间信息较少时,加入空间信息会降低结果的可靠性,此时采用DCS-MCB算法直接利用光谱信息进行待分类像元的标签计算; 当待分类像元的空间信息较为丰富时,采用空间-光谱信息相结合进行待分类像元标签的计算以提高结果的可靠性。DCS-SSI算法只在一定条件下加入空间信息,其原因在于尽管地物在地表上的分布呈现出一定的空间自相关性,即地物分布在空间上具有连续性,但这种连续并不是绝对的。为保证DCS-SSI算法利用空间和光谱信息进行动态集成的结果具有较高的分类精度,应在空间和光谱信息利用上取得平衡。
2.2 算法步骤
DCS-SSI算法进行待分类像元标签的计算时,首先对数据进行预处理: ①对输入影像进行聚类(采用K-means算法),聚类后的各聚类分别为R1,R2,…,Rk; ②对各基分类器意见一致的像元直接赋予分类器输出结果[12]; ③在结果中添加训练样本数据。然后进行计算方式判别: 对于每个待分类像元,统计边长为L的邻域中(取L=5)已分类点的比例,如果该比例超过设定阈值(本文设定为0.75),利用空间和光谱信息依据设定准则进行待分类像元类标签的计算,否则利用训练/测试样本的光谱信息进行待分类像元类标签的计算。其中,在利用空间和光谱信息进行待分类像元标签的计算时选用简单投票法和MLA+LCA 2种方式。DCS-SSI算法流程如图1所示。
图1 DCS-SSI算法流程
DCS-SSI伪代码为:
设定高光谱影像数据X及比例阈值Perc_set
If 多分类器系统中分类器意见一致
基分类器输出Xij标签;
End
在X中添加训练样本数据;
While 影像中存在待分类像元Xij
统计待分类像元空间邻域中已分类样本的比例Perc;
IfPerc≥Perc_set
基于空间和光谱信息依据简单投票法和MLA+LCA准则计算Xij标签并输出;
Else
基于光谱信息采用DCS-MCB算法计算Xij标签并输出;
End
End
DCS-SSI算法与常规基于局部精度估计算法的区别在于: ①需要对高光谱遥感数据进行预处理; ②需要根据待分类像元的空间信息判断并选择计算方式,在已分类点比例达到设定阈值的情况下才将空间和光谱信息相结合。
3 实验与分析
选取HyMap Purdue Campus与AVIRIS Indiana Pine 2幅高光谱遥感影像数据,分别对DCS-SSI算法和前述DCS-OLA,DCS-LCA,DCS-MLA,DCS-CS和DCS-MCB等5种DCS算法进行实验对比分析。其中DCS-SSI算法中利用Matlab平台提供的SVM(poly),SVM(gaussian),SVM(RBF),KNN,Classify(diagquadratic)等5种基分类器构建了多分类器集合,相关参数的选取分别根据格网搜索算法优化或专家经验确定。
3.1 HyMap Purdue Campus高光谱遥感数据
该数据是1999年9月30日利用HyMap航空高光谱仪采集的普渡大学西拉斐特分校的一幅影像。该数据涵盖了可见光和红外区的128个波段,空间分辨率为3.5 m。实验选择了除水汽吸收影响之外的126个波段。该数据的训练样本和测试样本数量如表1所示。
表1 HyMap数据的样本数量
为比较DCS-SSI算法和上述5种现有算法的分类性能,分别用这6种DCS算法对该HyMap数据进行对比实验。5种现有DCS算法分类结果如图2所示,其分类精度如表2所示。
(a) DCS-OLA (b) DCS-LCA(c) DCS-MLA
图2-1 HyMap数据5种DCS算法分类结果
(d) DCS-CS(e) DCS-MCB
图2-2 HyMap数据5种DCS算法分类结果
表2 HyMap数据5种DCS算法分类精度
由表2得知,针对HyMap数据,DCS-LCA的分类精度不如DCS-OLA算法,与文献[12]结果略有出入,可能是由于基分类器选择和实验数据不同造成的。DCS-MLA算法的分类精度比DCS-OLA和DCS-LCA算法都高,进一步佐证文献[15]中加入距离权值信息后分类精度更高的结论; DCS-CS算法在5种DCS算法中的分类精度最低,也是唯一和其他4种算法差异较大的一种DCS算法。由于分类精度受聚类算法和各聚类上的基分类器选择影响较大,虽然该算法也加入了空间信息,但分类精度并未出现显著提升,说明DCS-CS和基于局部精度估计的DCS算法在分类精度上还有一定差距; DCS-MCB算法的分类精度是5种DCS算法中最高的,该算法在进行多分类器动态集成时加入了分类器行为信息,每个待分类像元的邻近像元数量都是变化的,保证了分类器动态选择时待分类像元的邻近样本信息更加可靠,且仅当一个基分类器在该待分类像元邻近区域上的分类精度显著优于其他基分类器的分类结果时,才选择该基分类器的输出结果,否则选择投票法的输出作为结果。
DCS-SSI算法分类结果如图3所示,其分类精度如表3所示。
(a) 简单投票法 (b) MLA+LCA
图3 HyMap数据DCS-SSI算法分类结果
表3 HyMap数据DCS-SSI算法分类精度
DCS-SSI算法在进行空间和光谱信息平衡时选择了简单投票法和MLA+LCA 2种方式,由表3得知,基于简单投票法的DCS-SSI算法在HyMap数据上表现出更高的分类精度。因为空间邻域样本数量要比训练/测试样本少很多,分类器在小样本情况下学习不充分造成的分类误差较大,因而基于MLA+LCA方式的DCS-SSI算法动态集成的分类精度不及简单投票法。从实验结果可以看出,虽然DCS-SSI 算法的分类精度低于DCS-MCB算法,但是高于其他4种DCS算法,整体分类精度较高。比DCS-MCB算法性能偏低的原因可能在于该数据中含有大量的混合像元,因此利用空间信息反而会导致算法分类精度降低。
3.2 AVIRIS Indiana Pine高光谱遥感数据
该数据是1992年6月利用机载可见光/红外成像光谱仪(AVIRIS)成像获取的印第安纳州西北部的Pines数据(145像元×145像元,220个波段)。实验中去除了信噪比较低的波段,保留了202个波段。该数据的样本数量共10 366个,如表4所示。分类时采用了5次交叉验证的方法,最后取5次分类的平均值作为最终结果。
表4 AVIRIS数据的样本数量
为了对比不同算法的分类性能,对上述5种现有DCS算法进行分析,实验结果如图4所示,其分类精度如表5所示。
(a) DCS-OLA(b) DCS-LCA(c) DCS-MLA
(d) DCS-CS (e) DCS-MCB
图4 AVIRIS数据5种DCS算法分类结果
表5 AVIRIS数据5种DCS算法分类精度
由表5得知,针对AVIRIS数据,DCS-LCA算法的分类精度和DCS-OLA算法差距较大,这仍与文献[12]结果不同,可能的原因为AVIRIS数据具有16类,在训练样本总数一定的情况下地物类别越多,每个类别的平均样本数量越少,小样本学习会对局部分类精度的计算结果产生较大影响。DCS-MLA算法的分类精度与DCS-OLA和DCS-LCA算法相比有显著提升,是5种DCS算法中分类精度最高的,进一步佐证了文献[15]的结论。DCS-CS算法的分类精度并未出现显著提升,说明基于DCS-CS算法和基于局部精度估计的DCS算法在分类精度上还有一定的差距。DCS-MCB算法在多分类器动态集成时加入了分类器行为信息,但该算法并未取得理想的优异表现,可能的原因为AVIRIS数据类别数量较多,小样本学习时导致了算法分类精度的降低。
DCS-SSI算法分类结果如图5所示,其分类精度如表6所示。
(a) 简单投票法(b) MLA+LCA
图5 AVIRIS数据DCS-SSI算法分类结果
表6 AVIRIS数据DCS-SSI算法分类精度
DCS-SSI算法在进行空间和光谱信息平衡时同样选择了简单投票法和MLA+LCA 2种方式。由表6得知,基于简单投票法的DCS-SSI算法在AVIRIS数据上表现出更高的分类精度。因为空间邻域样本数量和训练样本及测试样本相比要少很多,分类器在小样本情况下学习不充分造成分类误差较大,因而基于MLA+LCA方式的分类精度不及简单投票法。从3.1和3.2节实验结果可以看出,针对不同的高光谱遥感影像,传统DCS算法的分类精度波动和差异较大,而本文提出的DCS-SSI算法具有较好的稳定性和适用性。
4 结论
本文提出了一种顾及空间和光谱信息的多分类器动态集成的DCS-SSI算法。为了权衡空间和光谱信息,利用了简单投票法和MLA+LCA 2种方式进行高光谱遥感影像分类,并与5种现有DCS算法进行对比分析。研究结论如下:
1)由于采用了空间信息,DCS-SSI算法集成结果的分类精度优于大部分类似算法,且简单投票法的分类效果更好。
2)虽然在2种数据源中,DCS-SSI算法分别与DCS-MCB和DCS-MLA算法的性能相当,但因为有空间信息的支撑,2幅影像的DCS-SSI算法结果均具有较高分类精度,且相对稳定,受实验数据、类别及样本数量的影响较小。
本文提出的DCS-SSI算法可为高光谱遥感影像的分类提供新的选择,有效提高不同传感器高光谱遥感影像分类的稳定性。但是本文算法也存在一些不足之处,由于利用邻近像元的空间信息,导致迭代过程较慢,从而导致算法的运行时间比较长。下一步将采用并行计算等技术对该算法进行改进。
[1] Hsu C W,Chang C C,Lin C J.A Practical Guide to Support Vector Classification[R].Technical Report.Taipei:Department of Computer Science and Information Engineering,National Taiwan University,2003.
[2] Mercier G,Lennon M.Support vector machines for hyperspectral image classification with spectral-based kernels[C]//Proceedings of 2013 IEEE International Geoscience and Remote Sensing Symposium.Toulouse,France:IEEE,2003,1:288-290.
[3] Melgani F,Bruzzone L.Classification of hyperspectral remote sensing images with support vector machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(8):1778-1790.
[4] Adleman L M.Molecular computation of solutions to combinatorial problems[J].Science,1994,266(5187):1021-1024.
[5] 焦洪赞,钟燕飞,张良培,等.高光谱遥感数据的DNA计算分类[J].遥感学报,2010,14(5):865-878. Jiao H Z,Zhong Y F,Zhang L P,et al.Classification of hyperspectral remote sensing data based on DNA computing[J].Journal of Remote Sensing,2010,14(5):865-878.
[6] 苏红军.高光谱影像光谱-纹理特征提取与多分类器集成技术研究[D].南京:南京师范大学,2011. Su H J.Spectral-texture Feature Extraction and Multi-classifier Ensemble for Hyperspectral Imagery[D].Nanjing:Nanjing Normal University,2011.
[7] Du P J,Xia J S,Zhang W,et al.Multiple classifier system for remote sensing image classification:A review[J].Sensors,2012,12(12):4764-4792.
[8] 张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. Zhang C X,Zhang J S.A survey of selective ensemble learning algorithms[J].Chinese Journal of Computers,2011,34(8):1399-1410.
[9] Didaci L,Giacinto G,Roli F,et al.A study on the performances of dynamic classifier selection based on local accuracy estimation[J].Pattern Recognition,2005,38(11):2188-2191.
[10]Canuto A M P,Abreu M C C,de Melo Oliveira L,et al.Investigating the influence of the choice of the ensemble members in accuracy and diversity of selection-based and fusion-based methods for ensembles[J].Pattern Recognition Letters,2007,28(4):472-486.
[11]Ko A H R,Sabourin R,Britto JR A S.From dynamic classifier selection to dynamic ensemble selection[J].Pattern Recognition,2008,41(5):1718-1731.
[12]Woods K,Kegelmeyer W P Jr,Bowyer K.Combination of multiple classifiers using local accuracy estimates[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(4):405-410.
[13]Giacinto G,Roli F.Dynamic classifier selection based on multiple classifier behaviour[J].Pattern Recognition,2001,34(9):1879-1881.
[14]Smits P C.Multiple classifier systems for supervised remote sensing image classification based on dynamic classifier selection[J].IEEE Transactions on Geoscience and Remote Sensing,2002,40(4):801-813.
[15]Kuncheva L I.Switching between selection and fusion in combining classifiers:An experiment[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2002,32(2):146-156.
[16]Kuncheva L I.Clustering-and-selection model for classifier combination[C]//Proceedings of the Fourth International Conference on the Knowledge-Based Intelligent Engineering Systems and Allied Technologies.Brighton:IEEE,2000,1:185-188.
(责任编辑: 陈理)
A novel dynamic classifier selection algorithm using spatial-spectral information for hyperspectral classification
SU Hongjun1, LIU Hao2
(1.SchoolofEarthSciencesandEngineering,HohaiUniversity,Nanjing211100,China; 2.StateKeyLaboratoryofInformationEngineeringinSurveying,MappingandRemoteSensing,WuhanUniversity,Wuhan430079,China)
To further improve the classification accuracy of hyperspectral remotely sensed imagery, this paper proposes a novel dynamic classifier selection algorithm, in which spatial and spectral information is used. The class labels of unlabeled pixels are predicted based on the percentage of their classified neighbors. The experiment is conducted between the proposed DCS-SSI algorithm and five dynamic classifier selection algorithms, and the results show that the proposed DCS-SSI algorithm can improve the robustness of classification performance for hyperspectral image analysis, which would be useful for high level classification of hyperspectral remote sensing images.
hyperspectral remote sensing; dynamic classifier selection; spatial and spectral information; multiple classifier system
10.6046/gtzyyg.2017.02.03
苏红军,刘浩.一种利用空间和光谱信息的高光谱遥感多分类器动态集成算法[J].国土资源遥感,2017,29(2):15-21.(Su H J,Liu H.A novel dynamic classifier selection algorithm using spatial-spectral information for hyperspectral classification[J].Remote Sensing for Land and Resources,2017,29(2): 15-21.)
2015-12-01;
2016-05-08
国家自然科学基金项目“高光谱遥感影像多特征优化模型与协同表示分类”(编号: 41571325)和“基于共形几何代数的高光谱遥感影像降维与分类”(编号: 41201341)共同资助。
苏红军(1985-),男,博士,副教授,主要从事高光谱遥感、资源环境遥感方面的研究。Email: hjsu@hhu.edu.cn。
P 237.4
A
1001-070X(2017)02-0015-07