训练样本对遥感影像分类精度影响研究

2015-12-26高文杰王金亮刘广杰

云南地理环境研究 2015年2期

关键词：训练样本向量精度

高文杰，王金亮，刘广杰

(云南师范大学旅游与地理科学学院，云南昆明 650500)

训练样本对遥感影像分类精度影响研究

高文杰，王金亮*，刘广杰

(云南师范大学旅游与地理科学学院，云南昆明 650500)

以大理SPOT-5 HRG影像和Landsat TM影像作为数据源，在构建标准训练样本数据集的基础上，探索训练样本对遥感影像分类的影响。选取不同训练样本数量组合，分别对监督分类中的平行六面体、最小距离、马氏距离、最大似然法、神经网络和支持向量机6种分类方法进行多次实验，并采用Kappa系数和总体分类精度对实验分类结果的精度进行评价。结果表明：以多次分类结果的平均值作为最终的分类结果能减小随机误差；增加训练样本数量可以减小单次分类引起的随机误差；在不同的训练样本量下，支持向量机的分类精度最高。

训练样本；遥感分类；分类精度；大理

0 引言

监督分类是遥感数据提取信息的最常用的一种方法。在监督分类中，首先选择一定数量的不同类别地物的训练样本，通过对训练样本数据像元值的统计分析，得出每一类别的统计特征量；然后根据统计特征量，利用不同的分类算法得出相应的分类模型；最后，利用所得到的分类模型对整个遥感数据的所有像元进行分类[1]。因此，训练样本的选择对分类结果有很大的影响，不同的训练样本所得到的分类结果也会有很大的差异。为保证分类结果有较高精度，从理论上说，选择的样本像元应满足两个条件[2]：一是每个类别地物的所有训练样本中每个像元所代表的实际地物类别应与该类实际地物类别相一致，即所有训练样本中像元的地物类型应为单纯的同一种地物类型。二是选择的样本像元应具有代表性，即训练样本的统计特征量与该类型总体统计特征相接近。陶秋香等[3]研究了植被高光谱分类中训练样本的选择方法，薄树奎等[4]研究了面对对象方法的训练样本数量选择问题。李文庆等[5]参考Google Earth提供的高分辨率遥感图像，利用ETM 解译生成训练样本，然后采用最大似然监督分类算法进行ETM 图像分类。赵慧等[6]探讨了训练样本、辅助数据以及分类技术对土地利用/覆盖分类精度的影响。任广波等[7]以直推式支持向量机分类为例，发展了一种基于半监督学习的遥感影像训练样本时空拓展方法。薄树奎、李向等[8]基于兴趣类别提出一种基于白化变换的单类分类方法。本文参考SPOT-5 HRG影像数据，对Landsat TM影像数据进行遥感分类，旨在研究训练样本数量组合对遥感分类的影响，为遥感影像分类提供一定的实验依据。

1 研究区及其数据

1.1 研究区概况

云南省大理白族自治州位于中国西南的云贵高原与横断山脉的过渡地带，其西面与云岭山脉相连，东面与滇中高原相接，地势总体上呈东南低西北高的特点。大理白族自治州地处云南省中部偏西，东邻楚雄州，南靠普洱市、临沧市，西与保山市、怒江州相连，北接丽江市。地跨98°52′E～101°03′E，24°41′N～26°42′N。大理白族自治州地貌复杂多样，其面积为29 459 km2。其中，山区面积占总面积近90%，坝区面积仅占10%左右。点苍山位于大理地区中部，其西部为高山峡谷区。在点苍山以东至祥云以西的地区，总体上来看为中心陡坡地形[9]。

本文选取大理市祥云县清涧美水库附近(图1)作为研究区。

图1 研究区位置图Fig.1 Location of the study area

1.2 数据及预处理

以SPOT-5 HRG和Landsat TM遥感数据为数据源。SPOT-5 HRG影像获取时间为2008年10月20日，空间分辨率为10 m。Landsat TM影像获取时间为2008年12月16日，轨道号/行号：131/42，共7个波段，空间分辨率为30 m(TM6的空间分辨率为60 m)。

分类之前，对TM和HRG影像进行预处理。包括图像裁剪、辐射校正、几何校正及图像配准等。影像校正后保证误差在3个像元之内，投影类型转换为UTM WGS 84。

2 研究方法

2.1 标准样本数据集的提取

参考SPOT-5 HRG遥感影像，从TM遥感影像上提取标准样本集。具体步骤如下：

(1)经过观察和分析，将研究区主要地物类型定为：林地、水体、耕地、居民用地和其他。采用最大似然法分别对SPOT-5 HRG和TM遥感影像进行分类。相关研究表明，为保证分类精度，训练样本量要大于一定数量。一般要求每个类别的训练样本量至少为遥感数据波段数的10～30倍，才能基本保证分类精度[10]。因此，研究分别选用了各类别超过波段数30倍的训练样本量进行分类研究。

(2)将10 m分辨率SPOT-5 HRG影像的最大似然法分类结果合并为30 m分辨率的分类结果。

(3)基于TM影像的分类结果和SPOT-5 HRG影像分类的30 m分辨率合成结果，其交集则为标准样本数据。如对于某一块地物类型，TM影像的分类结果为林地，SPOT-5 HRG影像分类的30 m分辨率合成结果也为林地，则这块地物类型就为林地。

(4)对标准样本数据进行多次目视纠正，最终得到标准样本数据区图像。

统计各地物训练样本在各波段的均值和方差(表1)，训练样本J-M距离(表2)，训练样本转换分离度(表3)。分析认为训练样本的分离度很高，J-M距离大于1.8，转换分离度大于1.9，表示统计可分性强，完全满足实验的分类要求。

表1 训练样本统计特征表Tab.1 Statistical characteristics of the training sample

表2 训练样本J-M距离表Tab.2 J-M distance of the training sample

表3 训练样本转换分离表Tab.3 Separation conversion of the training sample

2.2 研究步骤

由于研究区内不同地物类型的面积存在很大差异，为了保证面积小的地物类型也能获得足够多的训练样本，以标准样本数据集为基础，采用分层随机抽样方法抽取了不同数量(1%、5%、10%、20%、30%、40%)的训练样本，同时利用监督分类中的平行六面体、最小距离、马氏距离、最大似然法、神经网络和支持向量机6种分类方法，对研究区的TM遥感影像进行分类，地物类型包括林地、水体、耕地、居民用地和其他5种。为研究随机误差对分类精度的影响，对每个样本量下的6种分类方法均作了3次实验。

3 不同训练样本量影像分类精度比较

3.1 精度评价指标

采用总体分类精度和Kappa系数来对上面的分类结果进行精度评价。(1)总体分类精度：正确分类像元数与研究区总像元数的比值。(2)Kappa 系数：通过把所有地表真实分类中的像元总数乘以混淆矩阵对角线的和，再减去某一类中地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果，再除以总像元数的平方差减去某一类中地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果所得到的。

Kappa系数法是一种离散型的多元的综合分析方法，不受像元数的影响，能够完整地利用混淆矩阵得到的结果，具有其他精度评价方法不具备的优势。其公式[11]为：

式中：r是混淆矩阵中的总列数；xii是混淆矩阵中第i行、第i列上像元数量(即正确分类的数目)；xi+和x+i分别是第i行和第i列总像元数量；N是总观察值，也就是混淆矩阵中用于精度评估的所有像元数量之和。

3.2 结果分析

图2～图7为在不同训练样本量下6种不同分类方法的总体分类精度和Kappa系数随训练样本量的增加而发生变化的曲线。

图2 平行六面体分类精度与训练样本数量的关系Fig.2 The relationship between parallelepiped classification accuracy and the number of training samples

图3 马氏距离分类精度与训练样本数量的关系Fig.3 The relationship between Mahalanobis distance classification accuracy and the number of training samples

图4 最小距离分类精度与训练样本数量的关系Fig.4 The relationship between minimum distance classification accuracy and the number of training samples

图5 最大似然法分类精度与训练样本数量的关系Fig.5 The relationship between maximum likelihood classification accuracy and the number of training samples

图6 神经网络分类精度与训练样本数量的关系Fig.6 The relationship between neural network classification accuracy and the number of training samples

图7 支持向量机分类精度与训练样本数量的关系Fig.7 The relationship between SVM classification accuracy and the number of training samples

由图2～图7可得出以下结论：

(1)对于相同的分类方法

当训练样本量呈现出增加的态势时，分类精度的波动范围随之逐渐减小。

(2)对于不同的分类方法

①如果在相同训练样本量的情况下，不同分类方法的Kappa系数和总体分类精度差异较大，由图2～图7可以看出，支持向量机的分类精度最高(Kappa系数在0.8以上，总体分类精度在84.5%以上)，由高到低依次为神经网络、最大似然、最小距离和马氏距离，而分类精度最低的是平行六面体(Kappa系数仅为0.59～0.68，总体分类精度仅为69%～78.5%)。主要是因为平行六面体分类的空间尺度的大小需要使用者根据实际经验和计算，选择合适的标准差阈值充当。分类时，根据像元相似性落在空间内的归属为同一种类地物，落在空间外的不进行地物类型聚类分析[12]。

②当训练样本量在增加时，支持向量机的分类精度的Kappa系数和总体分类精度均会表现出增加的趋势，而其他几种方法的分类精度则表现为先期随着训练样本量的增加而增加，但当训练样本量接近某一数量时，其Kappa系数和总体分类精度逐渐趋于稳定。因为支持向量机和基于一般统计的分类方法对训练样本的要求是区别的。对于传统的基于统计的分类方法来说，当训练样本达到接近某一数量并可以准确描述全部像元的分布规律时，增加训练样本量对提高分类精度的影响是不明显的。但对于支持向量机分类方法来说，支持向量的那部分像元对分类精度起着至关重要的作用[13]。随着训练样本量的不断增加，支持向量机的那部分像元也随其增加，因此，支持向量机分类方法的Kappa系数和总体分类精度均随训练样本量的增加而逐渐增加。

4 结论与讨论

4.1 结论

参考SPOT-5 HRG遥感影像，在构建标准训练样本数据集的基础上，提取不同的训练样本量，有目的的分别对监督分类中的平行六面体、最小距离、马氏距离、最大似然法、神经网络和支持向量机六种分类方法对TM遥感影像进行多次分类实验，利用Kappa系数和总体分类精度对6种分类方法的分类结果精度进行了评价和对比分析，认为：

(1)在实际工作中单用某次分类结果作为最终分类结果，必然会存在一定的误差，增加训练样本数量可以减小单次分类引起的误差。

(2)随着训练样本量的增加，当训练样本量足以描述像元的分布规律时，增加训练样本量对于传统分类方法来说，对其分类精度的影响是不明显的。但对于支持向量机分类方法来说，随着训练样本量的增加，支持向量机分类的Kappa系数和总体分类精度会出现随训练样本量的增加而逐渐增加的现象。

通过以上分析，在不同的训练样本量下，分类精度最高的是支持向量机，且支持向量机的分类精度会出现随训练样本量的增加而提高的现象。所以，在实际分类中，应该优先考虑支持向量机。

4.2 讨论

本研究选取大理某一区域进行分类实验研究，分类系统及训练样本的选取具有一定的主观性。SPOT HRG影像的获取时间为10月份，而Landsat TM影像的获取时间为12月份，影像获取的时间不同，对分类可能造成一定的影响。在以后的研究中，在影像的选取上尽可能选择同一时间，分类系统和训练样本的选取尽可能客观。

本研究仅对每种分类方法做了3次实验，在以后的研究中应对每种分类方法进行多次实验，使结果更具代表性和客观性。本研究只对监督分类中的6种分类方法进行了对比研究，在以后的研究中可以加入决策树等分类方法进行对比研究。

[1]梅安新，彭望琭，秦其明，等.遥感导论[M].北京：高等教育出版社，2001：198-199.

[2]吴健平，杨星卫.遥感数据监督分类中训练样本的纯化[J].国土资源遥感，1996，1(27)：36-40.

[3]陶秋香，张连蓬，李红梅.植被高光谱遥感分类中训练样本的选择方法[J].国土资源遥感，2005，2(64)：33-45.

[4]薄树奎，丁琳.训练样本数目选择对面向对象影像分类方法精度的影响[J].中国图象图形学报，2010，15(7)：1106-1111.

[5]李文庆，姜琦刚，邢宇，等.基于Google Earth的ETM+遥感图像自动分类方法[J].江西农业学报，2012，24(12)：158-163.

[6]赵慧，汪云甲.影响ETM影像土地利用/覆盖分类精度因素的研究[J].遥感技术与应用，2012，27(4)：600-608.

[7]任广波，张杰，马毅，等.基于半监督学习的遥感影像分类训练样本时空拓展方法[J].国土资源遥感，2013，25(2)：87-94.

[8]薄树奎，李向，李玲玲.遥感影像单类分类的白化变换法[J].测绘学报，2015，44(2)：190-197.

[9]黎春梅.云南大理白族自治州土地利用结构研究[D].武汉：华中师范大学，2011.

[10]Foody G M，Mathur A.The use of small training sets containing mixed pixels for accurate hard image classification：Training on mixed spectral responses for classification by a SVM[J].Remote Sensing of Environment，2006，103(2)：179-189.

[11]刘礼，于强.分层分类与监督分类相结合的遥感分类法研究[J].林业调查规划，2007，32(4)：37-39.

[12]朱秀芳，潘耀忠，张锦水，等.训练样本对TM尺度小麦种植面积测量精度影响研究-训练样本与分类方法间分类精度响应关系研究[J].遥感学报，2007，11(6)：826-837.

[13]张华.遥感数据可靠性分类方法研究[D].徐州：中国矿业大学，2012.

STUDY ON THE EFFECT OF TRAINING SAMPLE ON CLASSIFICATION ACCURACY OF REMOTE SENSING IMAGE

GAO Wen-jie，WANG Jin-liang，LIU Guang-jie

(CollegeofTourismandGeographicScience，YunnanNormalUniversity，Kunming650500，Yunnan，China)

SPOT-5 HRG image and Landsat TM image as a data source in Dali，on the basis of building standards on the training sample data set to explore the impact of training samples to remote sensing image classification.Selecting the different combinations of training samples，respectively，supervised the six classification of parallelepiped，minimum distance，Mahalanobis distance，maximum likelihood，neural networks and support vector machine(SVM).Using Kappa coefficient and the overall classification precision of the experimental accuracy of the classification results of the evaluation.The experimental results show that the outcome should be the average of multiple classification as the final classification results can reduce the random error；increased training samples can reduce the number of samples of random errors caused by single classification；SVM is the highest classification accuracy under the different training samples.

training sample；remote sensing classification；classification accuracy；Dali

2015-03-07；

2015-04-01．

*通信作者：王金亮(1963-)，男，云南省武定人，教授，博士，主要从事遥感与地理信息系统应用研究.

P237

1001-7852(2015)02-0031-06