APP下载

基于多分类器组合的遥感影像分类方法研究

2011-09-07彭正林毛先成刘文毅何美香

自然资源遥感 2011年2期
关键词:测度分类器类别

彭正林,毛先成,刘文毅,何美香

(中南大学地学与环境工程学院,长沙410083)

基于多分类器组合的遥感影像分类方法研究

彭正林,毛先成,刘文毅,何美香

(中南大学地学与环境工程学院,长沙410083)

针对遥感影像分类特点,提出了一种基于多分类器组合的遥感影像分类方法。该方法选取分类性能以及多样性最好的马氏距离、支持向量机(SVM)和最大似然等3种分类器作为子分类器,自定义规则对简单投票法、最大概率类别法以及模糊积分法进行组合,并以山西怀仁县为研究区,对基于航摄数字正射影像进行分类。结果表明,与单个子分类器中精度最高的SVM分类相比,基于多分类器组合的遥感影像分类总体分类精度提高了12%,Kappa系数提高了0.12,该方法是一种有效的分类方法。

多分类器;遥感影像分类;土地利用类型;IDL

0 引言

目前,常见的土地利用信息提取技术主要包括3种:基于像元提取技术、面向对象提取技术以及多分类器组合分类技术。由于遥感图像中“同物异谱”以及“同谱异物”现象的存在,传统的基于像元的分类技术容易造成较多的错分、漏分现象,从而导致分类精度较低。对于高分辨率的遥感图像,尽管各种分类器分类性能有所差异,而且针对某一种类的分类精度不尽相同,但被不同分类器错分的样本并非重叠的[1],即对于某个分类器错分的样本,运用其他分类器有可能得到正确的分类结果。这表明,不同分类器之间存在着分类模式的互补[2]。如何对这些互补信息加以利用,多分类器组合分类思想就是在这种条件下被提出来的。

国内外多数学者使用一种算法或者规则将多个分类器进行组合[3-8],提高了分类精度。常见的分类器组合算法有简单投票法、最大概率类别法及模糊积分判别法等。简单投票法基于群体的判断优于个体的判断假设,简单、准确且易操作,由于其判决条件比较苛刻,结果的可靠性较高,但会出现判决率降低,而且没有考虑各分类器本身的特性;最大概率判别法受主观因素影响较大,也会因专家过多或过少无法分类;模糊积分判别法不仅反映了各个独立分类器的重要程度,而且也反映了分类器之间的相互作用,同时其可视为一种复杂的神经网络,分类效果较好,但其计算量比前两种组合算法大很多。为此,本文提出了一种基于多分类器组合的遥感影像分类方法,该方法选取分类性能以及多样性最好的马氏距离、支持向量机(SVM)和最大似然3种分类器作为子分类器,用自定义规则对简单投票法、最大概率类别法以及模糊积分法进行组合;以山西怀仁县为研究区,基于航摄数字正射影像进行土地利用分类;对分类过程和结果进行了综合分析,并与传统分类方法进行比较。

1 分类方法

1.1 多分类器组合方法的选取

多分类器组合方法有多种,常见的有3种分类标准,分别是根据单个分类器的输出结果进行分类(抽象级、排序级和测量级3大类[9])、根据训练样本的选取进行分类(Bagging算法[10]和Boosting算法[11])以及根据分类器组合的形式进行分类(级联方式、并联方式、嵌入方式和混合方式)。

1.2 混合分类器组合算法

(1)简单投票判决法[12-14]。简单投票判决法属于典型的抽象级分类器融合方法,其基本思想是当各子分类器输出结果不完全一致时,可以通过投票的方式来决定类别的归属问题[9]。

(2)最大概率类别法[14]。最大概率类别法是将分类精度较高的某种子分类器作为“专家分类器”来对目标进行分类判别。所谓专家分类器就是指对遥感图像中某种地物分类精度极高的一种分量分类器。在具体的实现过程中,可以将各个分量分类器对各个地物的分类精度组成一个类别精度矩阵,在进行目标分类提取时,通过该矩阵选取出专家分类器的分类作为判别最终输出分类结果的标准。

(3)模糊积分融合法。一般而言,单个分类器可以视作一个单层的多输入单输出的神经网络,而模糊积分融合模型可以视作一个两层的多输入、多输出的神经网络。根据最大值规则,未知事例对应的类标[15]可以表示为

式中,φ(xi)为未知事例对应的类标,i=1,2,…,n;K为对应类标的最大值。

模糊测度定义如下:设X为非空集合,F为由X的子集构成的σ-代数;集函数g:F→(-∞,+∞)如果满足g(Ø)=0,则称g为定义在F上的广义模糊测度,集函数g:F→(0,+∞)如果满足g(Ø)=0,并且满足E∈F,A∈F E⊂A,则g(E)≤g(A),称g为定义在F上的模糊测度。

当X为有限集合时,通常取X的幂集作为模糊测度定义中的σ-代数F。

模糊测度有多种具有特殊构造的模糊测度类型,如可能性测度、必要性测度、信任度测度以及λ-模糊测度等。在此介绍融合中应用较多的λ-模糊测度[20]。

模糊测度g如果满足:存在常数λ>-1,使得g(A∪B)=g(A)+g(B)+λg(A)g(B),其中A∈F,B∈F,A∩B=Ø,则称g为λ-模糊测度。

设有限集合A={x1,x2,…,xn},单点集上的模糊测度值为gi=g({xi}),则gλ(A1)=g({x1})=g1,gλ(Ai)=gi+gλ(Ai-1)+λgigλ(Ai-1),其中λ>-1且λ≠0,可以按照式(7)、(8)确定,即

在模糊积分中,最常见同时也是最典型的一种积分方法为Choquet模糊积分法[16-18]。

设f为定义在X上的实值函数,F为由X的子集构成的σ-代数(X有限时,F为X的冥集),g为定义在F上的广义模糊测度,则函数f在集合X上关于模糊测度g的Choquet模糊积分定义为

式中,Fα={x|f(x)≥α,x∈X},α∈[0,∞],表示黎曼积分。

当X是有限集合时,将f(x1),f(x2),…,f(xn)进行重新排列,并使其满足,其中是X的一个按列排列,则基于普通模糊测度的Choquet模糊积分的计算公式可简化为

1.3 模糊测度的确定方法

根据式(10)可以得出,计算Choquet模糊积分的关键是求出模糊测度。如果模糊测度选择得当,该方法的分类精度较单个子分类器的分类精度有明显提高,反之,则降低。本文根据实际情况,总结前人的宝贵经验,提出了一种基于模糊一致矩阵的主客观相结合的模糊测度确定方法。

1.3.1 基于模糊一致矩阵[19]的模糊测度确定方法

设组合分类器共有n个子分类器xi(i=1,2,…,n),则基于模糊一致矩阵的模糊测度值可以按照以下步骤得出:

(1)对n个子分类器的分类性能进行比较评价,给出两两间的优劣关系,进而建立起模糊优先关系矩阵B=(bij)n×n,其中bij称为分类器xi对分类器xj的优先关系系数,其值为

(2)根据步骤(1)得出的模糊优先关系矩阵B,将其转换成模糊一致矩阵R,即

(3)计算出各子分类器xi的模糊测度值si,即

1.3.2 主客观相结合的λ-模糊测度确定方法

上面所讲述的基于模糊一致矩阵的模糊测度确定方法是以对各子分类器性能评价为判断基础的,带有人为主观因素。为了减少人为主观因素带来的影响,这里提出了一种基于主客观相结合的模糊测度方法。其中,将基于模糊一致矩阵的模糊测度值si称为主观模糊测度值。基于主客观相结合的模糊测度确定方法包括以下4步:

(1)首先,计算各子分类器的主观模糊测度值si(i=1,2,…,n);

(2)以各子分类器的整体判别精度作为各子分类器的客观模糊测度值ti(i=1,2,…,n);

(3)取各子分类器的主客观模糊测度的平均值作为综合模糊测度值,表示为

(4)以各子分类器的综合模糊测度值gi(i=1,2,…,n)为基础,计算多分类器组合模糊积分融合分类的模糊测度值gλ(Ai),即先由式(7)确定λ的值,再利用式(8)求得模糊测度值。

1.4 组合子分类器的选择

组合子分类器的选择标准不一,可以任意选取,也可以根据分类器的整体分类精度来选取。多分类器组合分类能够提高分类精度是因为各子分类器间分类信息的互补。对于多分类器组合系统,其各成员子分类器的分类精度、效率要高,且分类结果应该具有多样性[21]。

成员分类器不是越多越好。分类器过多,会增加运算的复杂度,而且很难保证所有的分类器都满足上面所讲的子分类器的选取条件。

2 实验与分析

2.1 研究区概况

研究区怀仁县隶属于山西省,地处112°45'~113°56'E,39°36'~39°57'N之间。区内平原占70%,山地占24%,丘陵山坡占6%;地形东西高、南部低,似一槽形;属北温带大陆性季风气候,四季分明。土地利用类型以水浇地、林地及旱地为主。

2.2 数据来源及其前期处理

采用全国第二次土地调查山西省怀仁县76幅彩红外数字正射影像图(DOM)中的J49G003084作为数据源。该图像于2007年9月航空拍摄,TIFF格式;影像色彩为彩红外,平面坐标系为1980西安坐标系,投影方式为高斯-克吕格投影;比例尺为1∶10 000,中央子午线114°,采用3°带分带。图像包含3个波段(R,G,B),分辨率为1 m。为了能够取得更好的分类效果,有必要在分类前进行一些图像处理:图像裁剪,如图1(左);大气校正-对数残差处理;独立成分分析;最小噪声分离;纹理滤波提取纹理特征,与分类图像叠加,如图1(右)。

图1 研究区航空彩红外数字正射影像(左)及其前期处理结果(右)Fig.1DOM(left)and pre-processing result(right)of the study area color infrared aerial image

2.3 分类体系的确定

以检验分类技术和方法对比为目的,参照全国第二次土地调查中土地利用的分类方式,针对实验区的特点,确定该区土地利用类别为7类,即水浇地、旱地、林地、其他草地、水域(颜色较深的水域)、建设用地及水域2(颜色较浅的水域或滩地)。

2.4 训练样本的采集

为了保证监督分类结果的精度,选取感兴趣区域(Region Of Interest,ROI)训练样本有两个标准:一是训练样本的数量要足够多,一般情况下,每类至少要有10~100个训练样本数据;二是训练样本应具有代表性,避免集中在某个局部位置上。

本文所用的遥感图像分辨率高,且含有混合像元,因此所选取的训练样本排除类型一致但光谱值异常的像元,同时,相同的地物类别,但像元中含有几种地物类型,即混合像元,也应该成为排除的对象。通过ROI样本训练区纯化方案[22]进行反复训练,得到比较满意的训练样本。

2.5 分类技术流程

图像数据经过前期预处理,选取ROI样本进行子分类器的训练,然后利用子分类器单独进行影像分类。采用的子分类器方法主要有两大类,非监督分类与监督分类。通过比较所有训练后的子分类器的整体分类精度和Kappa系数,参照1.4节组合子分类器选择的原则,在确保分类精度和分类结果多样性平衡的前提下,选取分类性能以及多样性相对较好的3种分类器进行多分类器融合分类。分类借助于ENVI 4.5遥感图像处理软件及IDL等工具,研究重点在于多分类器组合中各子分类器的选取、多分类器算法的选择以及组合规则的制定。经过多次试验求证,确定组合多分类器的各子分类器为马氏距离分类法、最大似然分类法和SVM分类法,以及采用简单投票法、最大概率法和模糊积分融合法,并通过制定相应的分类规则对实验区遥感影像进行分类处理。具体分类流程如图2所示。

图2 基于多分类器组合的遥感影像分类技术流程Fig.2Technical process of remote sensing classification based on multiple classifiers combination

多分类器组合的分类过程不仅是各子分类器组合的过程,更是各种多分类器组合算法组合的过程。由于本文多分类器组合分类重点是在分类器的组合上,所以各子分类器的分类结果由相同的样本通过ENVI软件得到。以下为基于IDL的多分类器组合实现遥感图像分类的过程。多分类器组合分类界面如图3所示。

图3 多分类器组合分类界面Fig.3Software interface of multiple classifiers combination classification

(1)读取各子分类器分类结果。在进行多分类器组合分类前,需要先解析分类结果头文件,再读取各子分类器分类结果文件。

(2)简单投票法进行分类。本文简单投票法具体规则是当3种子分类器对某个像元值都做出了一致的判别结果时,方可将该结果作为分类结果输出并存储起来。3种子分类器的判别结果可以当作一个像元值矩阵,因此对3种子分类器进行同一位置像元值的比较,就可以转换为比较3种子分类器的分类结果矩阵,即对矩阵进行同一位置的求交运算。通过简单投票法,共有3 779 205个像元值输出。

(3)最大概率法分类。首先利用矩阵求差查找通过简单投票法后未分类的像元。最大概率法分类首先要得到3种子分类器的混淆矩阵(对其进行“归一化”处理),然后通过比较3种子分类器对7种类别的分类精度(混淆矩阵对角线上的值)来选取专家(专家即是这3种子分类器中对某种类别分类精度最高,本文设定85%的子分类器)。如果某种子分类器的其中一种类型符合专家条件,那么就把它作为专家,并认为它所判别的类别是正确的,可以直接输出结果。反之,则不分类。

通过实验,本文共产生4个专家:水浇地的分类专家是最大似然分类(分类精度为0.86);旱地的分类专家是SVM(分类精度为0.85);林地的分类专家是最大似然分类(分类精度为0.89);水域2的分类专家是马氏分类(分类精度为0.89)。这里需要注意的是,如果某一个像元值出现有两个或两个以上的判别专家,那么根据专家所对应的子分类器的信任度,选取信任度最高的子分类器所对应的专家分类。这里,信任度从高到低的分类专家依次为:SVM、最大似然分类及马氏分类。通过最大概率法,共有527 383个像元值输出,同时将输出的分类结果保存起来。

(4)模糊积分法分类。利用矩阵求差得到未分类的像元。模糊积分法分类的关键是计算模糊测度值。需要说明的是,这里的模糊测度值是通过构造矩阵来计算的。由于本文是3种子分类器以及7种分类类别,因此构造的矩阵为3行7列,对位置相同的某一个像元,第一、二、三行分别设定为马氏分类、最大概率分类、SVM分类中将该像元判别为某种类别所对应的模糊矩阵的向量值。通过这个矩阵求出模糊测度值,进而计算模糊积分值,根据最大值原则,将剩余像元值进行分类。通过模糊积分法,共有535 975个像元值输出,同时将输出的结果保存起来。

(5)分类结果保存。简单投票法分出的像元数(为3 779 205)、最大概率法分出的像元数(为527 383)以及模糊积分法分出的像元数(为535 975)的总和为4 842 563,与实验影像的像元数(2 281×2 123=4 842 563)相吻合。说明实验影像中所有的像元都得到了分类。最后,将包含3种组合分类结果的数组矩阵保存为ENVI的分类格式,得到的结果就是通过多分类器融合后的分类结果图。

但由多分类器组合分类法得到的分类图像仍存在许多不足,比如分类图像中存在很多噪声,因此,在多分类组合分类完成后,要对分类图像进行分类后处理,以达到更好的分类效果:利用类别筛选法消除图像中的“孤岛”;利用类别集群处理增加分类图像的空间连续性,同时消除分类中的噪声;通过分析,将小图斑合并到周围的地物中。最后,将得到的结果转成矢量格式输出。

3 结果与讨论

3.1 分类结果

各子分类器分类结果和多分类器组合分类结果如图4所示。

图4 3种常用监督分类法分类结果和多分类器组合分类结果Fig.4The classification results of three common supervised classification and multiple classifiers combination classification

3.2 分类精度评价

结合第二次土地调查外业成果,通过ENVI软件的随机采样工具,对各分类分别选取200个测试样本,并将多分类器组合分类图像导入到ENVI中,对各分类器分类结果进行精度评价。生成一个包含分类总体精度、Kappa系数、混淆矩阵(表1)以及各种类别精度的报告文本文件。

表1 多分类器组合分类混淆矩阵Tab.1Confusion matrix of multiple classifiers combination classification(%)

采用多分类器组合分类以及各传统分类法得到的每一种类别的精度如表2所示。

表2 各分类法分类精度以及整体精度比较Tab.2Classification accuracy and overall accuracy comparison of different methods

从表2可以看出,应用非监督分类方法分类精度普遍较低,而监督分类除了平行六面体、SAM及二进制编码3种分类的分类效果较差外,其余5种分类方法对大部分地物的分类精度都能够达到60%以上,部分甚至能够达到80%以上。说明这5种分类器的分类效果相对其他几种分类器来说较好。其中马氏距离分类、最大似然分类和SVM分类的分类性能最好,这是选取这3种分类方法作为子分类器的理由之一。

将多分类器组合得出的结果与3种子分类器分类结果进行比较,并绘制出类别精度(图5)。

图5 4种分类器比较结果Fig.5Comparison of four different classifications

从表2、图5可以看出,通过多分类器组合分类得到的总体分类精度(93.53%)远大于各子分类器的总体分类精度(最大的是SVM的81%)。从各种分类类别来讲,通过图5可以看出,多分类器组合分类所得的各种类别的精度相比3种子分类器都得到了明显的提高。而且通过研究各子分类器之间分类信息的相关性以及互补性,多分类器组合分类方法有效地提高了分类精度,极大地减少了各种类别的误分、错分现象。

4 结论

(1)采用混合分类器组合方式,利用多种组合算法,综合各个子分类器的优点,同时对各子分类器的分类互补,有效地提高了分类精度。

(2)与传统分类方法比较,多分类器分类方法具有更好的扩展性,可以通过设计更好的组合算法来提高分类性能。

(3)对组合子分类器、多分类器组合算法的选择以及分类规则的制定,还需进一步优化,但从多分类器组合分类得到的结果可以看出,这种方法是一种提高分类精度行之有效的方法,也是遥感信息提取的一种有效途径。

[1]马文驷.多分类器融合模式识别方法研究[D].西安:西安电子科技大学,2002.

[2]韩宏.多分类器组合及其在手写数学识别中的应用[D].南京:南京理工大学,2000.

[3]Giorgio Giacinto,Fabio Roli.Automatic Design of Multiple Classifier Systems by Unsupervised Learning[J].Machine Learning and Data Mining in Pattern Recognition,1999,1715:131-143.

[4]Farhad Samadzadegan,Behnaz Bigdeli,Pouria Ramzi.A Multiple Classifier System for Classification of LiDAR Remote Sensing Data Using Multi-class SVM[J].Multiple Classifier Systems,2010,5997:254-263.

[5]李明诗,彭世揆,周林,等.基于ASTER数据的决策树自动构建及分类研究[J].国土资源遥感,2006(3):33-36.

[6]张秀英,冯学智,刘伟.基于多分类器结合的IKONOS影像城市植被类型识别[J].东南大学学报(自然科学版),2007,37(3):399-403.

[7]韩建峰,杨哲海.组合分类器及其在高光谱影像分类中的应用[J].测绘科学技术学报,2007,24(3):231-234.

[8]袁林山,杜培军,张华鹏,等.基于决策树的CBERS遥感影像分类及分析评价[J].国土资源遥感,2008(2):92-98.

[9]Xu L,Krzyzak A,Suen C Y.Methods of Combining Multiple Classifiers and the Applications to Handwriting Recognition[J].IEEE Transactions on Systems Man and Cybernetics,1992,22(3):418-435.

[10]BreimanL.Bagging Predictors[J].Machine Learning,1996,24(2):123-140.

[11]FreundY.Boosting a Weak Learning Algorithm by Majority[J].Information and Computation,1995,121(2):256-285.

[12]吕岳,施鹏飞,赵宇明.多分类器组合的投票表决规则[J].上海交通大学学报,2000,34(5):680-683.

[13]周夷,景奉广.多分类器组合的遥感图像分类的方法[J].城市勘测,2008(2):56-59.

[14]陈忠.高分辨率遥感图像分类技术研究[D].北京:中国科学院研究生院,2006.

[15]潘泉,于昕,程咏梅,等.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615.

[16]傅玥.基于模糊积分融合的网络入侵检测模型的研究[J].福建电脑,2008(8):106-107.

[17]孔志周,蔡自兴.分类器融合中模糊积分理论研究进展[J].小型微型计算机系统,2008,29(6):1093-1098.

[18]李戈.一种新的信息融合模式及应用[D].天津:天津大学,2007.

[19]姚敏,张森.模糊一致矩阵及其在决策分析中的应用[J].系统工程理论与实践,1998(5):78-81.

[20]Chiang J.Aggregating Membership Values by a Choquet-Fuzzy-Integral Based Operator[J].Fuzzy Sets Syst,2000,114(5):367-375.

[21]韩宏,杨静宇.多分类器组合及其应用[J].计算机科学,2000,27(1):58-61.

[22]吴健平.遥感数据监督分类中训练样本的纯化[J].国土资源遥感,1996(1):36-41.

Method for Classification of Remote Sensing Images Based on Multiple Classifiers Combination

PENG Zheng-lin,MAO Xian-cheng,LIU Wen-yi,HE Mei-xiang
(School of Geoscience and Environment Engineering,Central South University,Changsha 410083,China)

In consideration of the features of remote sensing image,this paper presents a new method for classification of remote sensing images based on multiple classifiers combination.In this method,three supervised classifications,Mahalanobis Distance,Maximum Likelihood and SVM,which are of more precision and better diversity in classification,are selected to serve as the sub-classifications,and the simple vote classification,maximum probability category method and fussy integral method are combined together according to certain rules.The authors adopted Huairen county in Shanxi as the study area for land use classification using color infrared aerial images.Experimental result showed that the overall classification accuracy was improved by 12%and Kappa coefficient was increased by 0.12 in comparison with SVM classification which has the highest accuracy in single sub-classifications.This result indicates that the classification of multiple classifiers combination is an effective classification method.

Multiple classifiers;Remote sensing classification;Land use;IDL

TP 75

A

1001-070X(2011)02-0019-07

彭正林(1985-),男,中南大学地学与环境工程学院硕士研究生,主要从事遥感与地理信息系统研究。

毛先成(1963-),男,中南大学地学与环境工程学院教授,博士生导师,从事隐伏矿床预测、地学信息技术研究。电话:0731-88877571;E-mail:xcmao@126.com。

(责任编辑:刁淑娟)

2010-08-01;

2010-09-08

国家“十一五”科技支撑计划课题(编号:2006BAB01A12)资助成果。

猜你喜欢

测度分类器类别
三个数字集生成的自相似测度的乘积谱
R1上莫朗测度关于几何平均误差的最优Vornoi分划
平面上两个数字集生成的一类Moran测度的谱性
我国要素价格扭曲程度的测度
壮字喃字同形字的三种类别及简要分析
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
西夏刻本中小装饰的类别及流变
多类别复合资源的空间匹配
基于层次化分类器的遥感图像飞机目标检测