面向地理国情普查的地表覆盖分类技术与试验
2014-10-31翟亮张晓贺桑会勇王晓军贾毅
翟亮,张晓贺,桑会勇,王晓军,贾毅
(中国测绘科学研究院 地理国情监测研究中心,北京 100830)
1 引 言
为全面掌握我国地理国情现状,满足经济社会发展和生态文明建设的需要,国务院决定于2013年至2015年开展第一次全国地理国情普查工作(国发[2013]9号)。地表覆盖遥感影像分类是全国第一次地理国情普查的重要工作内容之一,科学准确地测定地表覆盖的空间分布与动态变化,对于全面获取地理国情信息,掌握地表自然、生态和人类活动基本情况,以及研究地球系统的能量平衡、碳循环及其他生物地球化学循环、气候变化等具有十分重要的意义[1-2]。遥感影像分类技术是获取地表覆盖数据的主要方法之一。根据分类对象的不同,目前常用的遥感影像分类方法可以分为基于像元和面向对象两种。其中,基于像元的分类方法作为传统的分类方法被广泛应用于中低分辨率的遥感影像分类中,常见的方法有最小距离法、平行六面法、最大似然法和ISODATA、K-Means、模糊聚类方法、神经网络法、决策树、支持向量机(SVM)等。随着图像空间分辨率的提高,同类地物内部光谱差异逐渐增大,基于像元的分类技术已经不能满足当前遥感图像信息提取的要求,成为制约高分辨率遥感影像实际应用的瓶颈,而面向对象分类方法的出现为高分辨率遥感影像信息提取提供了新的思路和方法。
目前决策树算法已经被广泛应用于遥感影像分类中[3-6],GLC树分类器一种组合决策树分类器,该分类器对C4.5算法进行了改进,并集成了AdaBoost推进技术。在全球地表覆盖遥感分类——大洋洲地表覆盖分类工作中,GLC树被成功应用于Landsat卫星影像(2000年和2010年2期共796景)分类中,并取得了良好的应用效果,其分类精度平均达到85%以上。本文将其应用于 WorldView-2影像面向对象分类技术试验中,通过对不同地区的分类实验证明:利用GLC树进行高分辨率遥感影像分类不仅可以获得较高的精度,而且适用于多种地物类别的提取。
2 数据来源
WorldView-2卫星影像是第一次地理国情普查的主要遥感数据源。WorldView-2卫星于2009年10月由美国Digital Global公司发射,可提供0.46m的全色影像和8个波段(包括海岸带波段、蓝色、绿色、红色、黄色、红边波段及两个近红外波段)的2m多光谱影像,与其他影像相比,WorldView-2的空间分辨率更高,多光谱波段更丰富,为用户提供进行精确变化检测和制图的能力。不同的波段能从不同方面反映地物的特性,可用于地物的分类和解译。第一次地理国情普查项目中主要利用了蓝、绿、红、近红外4个波段的数据开展地表覆盖分类。
3 分类方法
WorldView-2卫星影像属于高分辨率遥感影像,传统的基于像元分类方法会导致椒盐效应,所以本文采用了面向对象的分类思想,首先由对WorldView-2影像进行影像分割生成同质图斑,选择并提取可用于分类的特征;然后选取样本,利用GLC分类器对生成的图斑进行分类。在样本采集之后,可以通过交叉验证的方式来检测样本的质量。具体流程如图1所示。
图1 自动分类技术流程
3.1 影像分割与特征选取
影像分割是面向对象遥感影像分类的基础,分割结果的好坏直接影响最终分类效果。常用的分割算法有基于边缘的影像分割、标记分水岭影像分割、分型网络演化影像分割等。其中,分形网络演化算法被目前流行的面向对象解译软件所采用,并取得较好的分割效果。该算法采用了异质性标准尺度,其计算公式如下:
影像异质性f是由4个变量计算而得:wcolor(光谱信息权重)、1-wcolor(形状信息权重)、hcolor(光谱异质性值)、hshape(形状异质性值)。wcolor取值为0~1之间,为用户定义。
在利用分形网络演化算法进行影像分割时,需要确定分割尺度参数,即生成的影像对象最大允许的异质性。通过修改尺度参数,可以改变结果中的影像对象尺寸,高的尺度参数产生的影像对象大,低的尺度参数产生的影像对象小。在满足必要的精细的条件下尽可能使用大尺度。
在面向对象遥感影像分类中,常用的特征可以分为光谱、形状及纹理特征等。具体见下表。
表1 常用遥感影像特征
3.2 样本采集
《地理国情普查内容与指标》中规定地理国情信息分为12个一级类,49个二级类,86个三级类。一级类有:耕地、园地、林地、草地、房屋建筑区(群)、道路、建筑物、人工堆掘地、裸露地表、水体、地理单元及界限、地形。在利用WorldView-2进行地表覆盖分类时要注意灵活使用《地理国情普查内容与指标》中规定的地表覆盖分类体系。例如,同一景影像中可能同时存在已经长出庄稼的耕地和未长庄稼的耕地,两者的光谱信息会有较大差异,因此在采集样本过程中可自定义类别,如将耕地再分为耕地和休耕地或者先将园地、林地归为一类与其他地类进行粗分类,然后再逐级细分,这样可以有效提高最终分类精度。
此外,在利用GLC分类器执行影像分类时,样本采集的过程中有以下几点建议:
①样本的质量直接决定了分类结果精度,尽量由影像判读经验丰富的技术人员选择样本;
②对于一景影像,样本总数要保证一定的数量,其中每个类别样本数不少于5个;
③某些地表覆盖类别的提取精度与采样时其样本个数成正比;
④不要在类别不易判断的地域采集样本,样本最好选在确定类别地域的中间;
⑤选取的样本不要过于集中在一个区域,最好是均匀分布。
在本文中,由于条件限制,训练样本和检验样本均采用“随机生成点,目视判断类别”的方式获取。
3.3 GLC树分类器
GLC树分类器是一种决策树分类器,采用了改进后的AdaTree算法,在C4.5算法的基础上修改其多叉树结构为二叉树,并加入了AdaBoost算法用于提高分类精度。通过GLC分类器完成对分割结果的自动分类需要经过生成训练集、生成规则集、执行分类三个步骤。GLC树分类器具有如下主要特点:
①提供了一种基于采样样本直接生成规则集的影像分类解决方案;
②分类规则可自动生成,并可根据阈值设置进行规则自动调整,不仅提高了工作效率,而且避免了人工建立复杂规则集,保障了规则的客观性和准确性;
③可以面向像元或面向对象,对影像或影像分割结果进行自动分类。
GLC树分类器生成的单条规则表现形式为:
其中,count表示判断条件的个数,cover表示该条规则覆盖的样本数目,correct表示预测正确的样本个数,pre表示该条规则的预测权重,class表示类别代号,att和cut分别表示判断属性和相应阈值。
图2 GLC树分类器自动分类流程
4 实验和分析
为了检验本文方法的有效性,分别采用了陕西临潼、杭州、东北三个地区的 WorldView-2影像作为实验数据进行了分类实验,为了验证本文采用的GLC树分类器的优越性,实验同时采用了SVM算法作为分类器利用同一样本进行了分类。
(1)陕西临潼
该地区为农村,影像为7月份数据,图幅大小4096×4096,分辨率全色0.5m,多波段2m,主要以植被为主。根据地理国情普查要求和影像实际情况,设定解译标志为:人造覆盖(包括房屋建筑区、道路、建筑物、人工堆掘地)、耕地、休耕地、水体、耕地、草地、裸地,分割尺度100。训练样本368个,检验样本201个。分类结果与原始影像局部对比如图3,精度评价结果如表4所示。
(2)杭州
图3 陕西临潼地区分类结果
该地区影像为WorldView-2 7月份数据,图幅大小2454×2750,分辨率全色0.5m,多波段2m,主要为城区。根据地理国情普查要求和影像实际情况,设定解译标志为:楼房、道路、绿地(包括园地、林地、草地)、水体、裸地,分割尺度150。训练样本406个,检验样本206个。分类结果与原始影像局部对比如图4,精度评价结果如表4所示。
(3)东北某地区
该地区影像为 WorldView-2 7月份数据,图幅大小3836×3561,分辨率全色0.5m,多波段2m,为城乡结合部。根据地理国情普查要求和影像实际情况,设定解译标志为:耕地、园\林地(包括园地和林地)、草地、房屋建筑、道路、裸地、水体,分割尺度200。训练样本325个,检验样本286个。分类结果与原始影像局部对比如图5,精度评价结果如表4所示。
图4 杭州地区分类结果
图5 东北某地区分类结果
表4 实验精度评价
上述3个实验区中,实验1影像中地物相对比较容易区分,地物类别比较简单,实验2影像中地物类别虽然比较简单,但是不易区分,尤其是高楼阴影的存在对道路和水体的提取都有一定的影像;实验3影像中地物类别复杂度和区分难度适中。
通过上述对3个不同地区的分类结果分析,可以发现:在影像分割结果的基础上,对于地物类别容易区分的地区,GLC树和SVM都可以取得较高的分类精度,但在地物类别较难区分的地区,尤其是城市,两种分类器的分类精度有所降低。但是从整体结果上讲,GLC树分类器提供了较高的分类精度,在相同影像分割、特征和样本的基础上,与SVM分类器相比,GLC具有更高的分类精度。同时,由于GLC树分类器中用到了AdaBoost提升算法来提高分类精度,每次提升都需要利用随机函数按照新的权重选取不同样本,所以每次执行GLC树分类结果都会有差异,但这种差异很小,不影响地理国情普查生产作业。目前,GLC树分类器已经集成到地理国情普查生产作业平台——地理国情要素提取与解译系统(FeatureStation_GeoEx)。
5 结束语
本文通对 WorldView-2影像数据和面向对象遥感影像地表覆盖分类方法的研究,提出了地理国情普查中WorldView-2影像地表覆盖自动分类技术流程,首先利用分形网络演化算法获得分割结果并进行特征选择与提取,然后选择训练样本采用GLC树分类器对分割结果进行自动分类。实验分别选取了3幅不同地区、地物类型不同的WorldView-2影像进行分类,现有分类结果证明,利用GLC树分类器进行高分辨率遥感影像地表覆盖分类可以获得较高的分类精度,其平均Kappa系数达到85.61%。今后,为了提高工作效率,将围绕利用GLC树分类器建立地表覆盖分类规则库进行研究。
[1]陈军,陈晋,宫鹏,等.全球地表覆盖高分辨率遥感制图[J].地理信息世界,2011,2:12-14.
[2]李晓兵,陈云浩,喻锋.基于遥感数据的全球及区域土地覆盖制图—现状、战略和趋势[J].地球科学进展,2004,19(1):71-80.
[3]JOY S M,REICH R M,REYNOLDS R T.A non-parametric supervised classification of vegetation types on the kaibab national forest using decision trees[J].International Journal of Remote Sensing,2003,24(9):1835-1852.
[4]FRANKLIN S E,STENHOUSE G B,HANSEN M J,et al.An integrated decision tree approach (IDTA)to mapping landcover using satellite remote sensing in support of grizzly bear habitat analysis in the alberta yellowhead ecosystem.[J].Canadian Journal of Remote Sensing,2001,27(6):579-592.
[5]SIMARD M,SAATCHI S S,DE GRANDI G.The use of decision tree and multiscale texture for classification of JERS-1 SAR data over tropical forest[J].IEEE Transactions on Geoscience and Remote Sensing,2000,38(5):2310-2321.
[6]温兴平,胡光道,杨晓峰.基于C5.0决策树分类算法的ETM+影像信息提取[J].地理与地理信息科学,2007,23(6):26-29.