APP下载

一种基于多分类器集成的地表覆盖信息提取方法

2021-08-04瞿珊珊

湖北理工学院学报 2021年4期
关键词:分类器类别聚类

瞿珊珊,康 顺

(湖北理工学院 电气与电子信息工程学院,湖北 黄石435003)

地表覆盖信息是进行地理气候变化、国情监测、可持续发展等研究的基础地理空间数据。随着对地观测技术的发展,利用遥感影像技术快速准确地提取地表覆盖信息已成为主流[1]。地表覆盖信息的提取方法主要有监督分类与非监督分类2种。其中,监督分类主要有基于传统统计分析的神经网络、支持向量机、决策树、最大似然等;非监督分类有K-means、模糊聚类、ISODATA等聚类算法[2]。在实际应用中,不同的分类器对不同的遥感数据分类精度不同,目前还没有一种分类器能够满足用户对所有数据分类的质量需求[3]。

多分类器集成思想被广泛应用在诸多领域。在多光谱遥感数据信息提取方面,Wang等[4]利用随机增强集成分类器实现了土地利用类型分类。Radhika等[5]使用集成分类进行了多光谱影像分类。Liu等[6]基于集成分类器研究了影像中一类数据的非监督分类。此外,多分类器集成在森林精细类型分类、不平衡数据分类、果蔬种类识别、MINIST手写数字识别、图像自动标注与分类以及朴素Bayes组合分类器等中的应用受到众多学者的关注[7-13]。

目前,对分类器集成遥感数据分类的研究大多集中在复杂分类器与复杂分类器、复杂分类器与简单分类器的集成,而对传统简单分类器之间的互补性利用不足。此外,普通多分类器集成投票法在投票相等时缺乏一种自适应性。因此,本文通过集成简单分类器,构建一种基于数据聚类的自适应投票选取方法,旨在快速提取一定精度的地表覆盖信息。

1 传统简单分类器

1.1 最小距离分类器

最小距离分类器是通过采样波段与波段的欧式距离,将其划分为距离最近的采样波段,每个波段可用一个n维向量X来表示,即:X=(x1,x2,…,xn)。

最小距离分类器具体分类过程如下。

1)利用训练样本数据计算出每一类别的均值向量及标准差(均方差)向量。每一类地物的特征均值为μi=(μi1,μi2,…,μin)。

(1)

3)根据计算的距离,把像元归入到距离最小的那一类中去。

最小距离分类器的原理简单、计算速度快,适用于快速浏览分类概况。

1.2 平行六面体分类器

平行六面体分类法又叫多级切割法,通过选取训练区详细了解分类类别的特征,并以较高的精度设定每个分类类别特征的上限值和下限值,构成特征子空间。对于一个未知类别的像素来说,其分类取决于所落入的类别特征子空间。因此,平行六面体分类法要求训练区样本的选择必须覆盖所有的类型。

若有m个波段,n个类别,Nij为第i类第j波段的均值,Sij为对应标准差,xj为x在j波段的像元值。对某一类别i(i=1,2,…,n),当像元x满足|xj-Nij|

平行六面体分类器简单、计算速度较快,当划分的平行六面体与实际地物类别数据分布形态不一致时,易造成类别重叠、混淆不清。

1.3 最大似然分类器

最大似然分类也称贝叶斯分类,根据像元数据对各类别的似然度,将其分到似然度最大的类别中去。其中,似然度是指所观测像元数据属于分类类别的后验概率。根据训练区可求出均值、方差以及协方差等特征参数,从而求出总体的先验概率密度函数,公式为:

(2)

式(2)中,μi和Σi分别为每一类地物的均值和方差。

最大似然分类器错误概率和判别分析风险小,是应用最广的监督分类方法之一。

2 多分类器投票集成

分类器集成的思想是从训练数据集中构造一系列分类器,并通过聚集预测值来预测类标签。假设这些分类器是独立的,则分类器集成就有效,也就可以确定分类器产生的最糟糕结果与在集成中的最坏分类是一样的。多数投票集成如图1所示。

图1 多数投票集成

对同一套遥感数据进行分类,不同分类器的分类精度不同,同一分类器对不同类别的分类也存在精度差异,这种现象被称之为选择优越性[14-15]。利用上述3种传统简单分类器的互补性,设计一种基于K-means的多分类器投票集成法,分类元组集合序列如图2所示。

图2 分类元组集合序列

基于K-means的多分类器投票集成算法描述如下。

算法1:基于K-means的多分类器投票集成。

输入:遥感影像RS。

输出:地表覆盖LC。

1)利用最小距离分类器、平行六面体分类器、最大似然分类器对RS分类,分别得到TIFF文件RSmdc,RSpc,RSml。

2)利用ArcGIS将RSmdc,RSpc,RSml转为ASCII文件,并以数组Arraymdc,Arraypc,Arrayml存储。

3)依次取出3个数组中相应的第i个值,构成元组Turple_i(Arraymdc_i,Arraypc_i,Arrayml_i)。

①当i= 1时,统计元组元素的发生数,若发生数均为1,则计算Turple_i中每一元素与Turple_i+1中每一元素的绝对值距离dis,取最小距离对应的Turple_i元素作为结果值;否则,将统计发生数最多的元素作为结果值。绝对值距离dis的计算公式为:

dis= min[|Arraymdc_i-Arraymdc_i+1|,|Arraymdc_i-Arraypc_i+1|,|Arraymdc_i-Arrayml_i+1|,

|Arraypc_i-Arraymdc_i+1|,|Arraypc_i-Arraypc_i+1|,

|Arraypc_i-Arrayml_i+1|,|Arrayml_i-Arraymdc_i+1|,

|Arrayml_i-Arraypc_i+1|,|Arrayml_i-Arrayml_i+1|]

(3)

②当1

③当i=len(Arraymdc_i)时,统计元组元素的发生数,若发生数均为1,则计算Turple_i中每一元素与Turple_i-1中每一元素的绝对值距离dis,取最小距离对应的Turple_i元素作为结果值;否则,将统计发生数最多的元素作为结果值。

④直到i>len(Arraymdc_i),算法结束。

3 算例与分析

3.1 地表覆盖信息提取

试验区数据获取途径为地理空间数据云(http://www.gscloud.cn),所用数据为2017年湖北黄石Landsat 8(Level 1T)遥感影像。

将试验区的地表覆盖信息划分为6个类别,即1代表水体、2代表耕地、3代表林地、4代表草地、5代表建筑用地、6代表裸地。首先,利用Python+GDAL(Geospatial Data Abstraction Library)实现最大似然、最小距离、平行六面体分类器提取地表信息(如图3(a)~(c)所示);其次,将数据格式TIFF文件转化为更适宜一般性程序读写的ASCII文件(如图4(a)~(c)所示);然后,在PyCharm IDE中实现算法1,得到地表覆盖信息的提取结果(如图4(d)所示);最后,将ASCII格式的文件转为TIFF文件(如图3(d)所示)。

(a) 最小距离 (b) 最大似然

(c) 平行六面体 (d) 集成投票

(a) 最小距离 (b) 最大似然

(c) 平行六面体 (d) 集成投票

3.2 精度验证

在ENVI 5.3中,人工选择感兴趣点(POI)作为验证样本,每个类别的样本数目为40个,共计240个验证样本。利用ENVI 5.3混淆矩阵计算工具评估分类结果的准确度。各分类器的分类精度评估结果见表1。

表1 各分类器的分类精度评估结果

4 结论

针对单分类器的选择优越性设计了一种基于K-means聚类的多分类器投票集成方法。分别采用最大似然分类法、最小距离分类法和平行六面体分类法对黄石市2017年的遥感影像数据进行分类处理,并通过投票集成方法整合3种分类,得到新的地表覆盖产品。通过分析可以得到以下结论。

1)通过投票集成法得到的新地表覆盖产品的质量远远高于其他3种分类方法,且可以准确地表达黄石市的地理信息。

2)集成投票法适用于快速地表覆盖遥感制图,分类精度高达95.87%,Kappa系数为0.88,明显高于其他3种分类器。

3)TIFF数据与ASCII文件转换为空间数据处理提供了一种更为便捷的计算方式,避免了专业数据由专业商业软件处理的局限性。

4)基于聚类思想的投票自适应选取是可行的,可解决投票相等时选择的不确定,对地表覆盖遥感制图具有一定的工程实践意义。

猜你喜欢

分类器类别聚类
论陶瓷刻划花艺术类别与特征
基于朴素Bayes组合的简易集成分类器①
一起去图书馆吧
基于特征选择的SVM选择性集成学习方法
基于差异性测度的遥感自适应分类器选择
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
雷达点元聚类算法性能的比较与分析
基于层次化分类器的遥感图像飞机目标检测