APP下载

利用随机森林的高分一号遥感数据进行城市用地分类

2016-09-02郭玉宝池天河刘吉磊杨丽娜

测绘通报 2016年5期
关键词:城市用地决策树分类器

郭玉宝,池天河,彭 玲,刘吉磊,杨丽娜

(1.中国科学院遥感与数字地球研究所,北京 100101; 2. 中国科学院大学,北京 100049)



利用随机森林的高分一号遥感数据进行城市用地分类

郭玉宝1,2,池天河1,彭玲1,刘吉磊1,2,杨丽娜1

(1.中国科学院遥感与数字地球研究所,北京 100101; 2. 中国科学院大学,北京 100049)

为了探究国产高分一号卫星遥感影像数据面向城市用地分类的实际应用方法和效果,本文以北京市某区域为例,基于高分一号PMS数据,使用随机森林、支持向量机、最大似然法3种分类器进行了城市用地分类对比研究。结果表明,随机森林和支持向量机的总体分类精度明显优于最大似然法;最大似然法在运算时间上明显优于随机森林和支持向量机。综合分析发现,随机森林算法表现更优。它既能保证分类精度,又能保持一定的时间效率,更适合高分辨率、大数据量、多特征参数的高分一号遥感影像分类的实际生产应用。

随机森林;城市用地;高分一号;图像分类

城市用地是城市各种经济活动的场所,是市民居住生活的空间,也是城市生态环境质量评估、城市规划建设的重要指标。城市用地类型多种多样,结构复杂是影响遥感影像分类精度的主要原因。高分辨率遥感影像具有丰富的空间结构和纹理信息,合理利用这些信息可有效提高分类精度[1]。在遥感影像分类中,由于影像类型特点不同,研究区类型种类复杂,各种分类器也各具优缺点,很难找到一个同时合适多种需求的分类器[2-3]。随机森林(random forests,RF)作为集成分类中的一种,因其运算速度较快,分类精度较好,较稳定等特点被广泛应用于医学、经济、制造业等各个领域的数据挖掘、数据分类。在遥感中也广泛用于多光谱、多时相、多源数据结合分类应用[4]。

近年来,基于高分辨率遥感卫星数据的遥感信息分类技术在城市用地分类中得到广泛应用,常用的高分辨率数据有Landsat TM、QuickBird、IKONOS、World View、资源三号等[5]。随着国产卫星的发展和高分辨率卫星的相继发射,我国高分辨率数据自给率有了很大提升。“高分一号”(GF-1)卫星于2013年4月升空,星上搭载了两台2 m分辨率全色/8 m分辨率多光谱相机,4台16 m分辨率多光谱相机。GF-1卫星是太阳同步回归轨道卫星,轨道高度为645 km,倾角为98.050 6°。全色波段光谱范围为0.45~0.90 μm,多光谱波段光谱范围为0.45~0.52 μm,0.52~0.59 μm,0.63~0.69 μm,0.77~0.89 μm;幅宽为60 km,重访周期为4 d(侧摆时),覆盖周期为41 d(不侧摆时)。目前应用国产卫星数据进行城市遥感方面的研究是一个较新的研究点,且基于GF-1卫星遥感数据的应用研究比较少。GF-1卫星遥感数据面向城市用地分类的实际应用效果有待探究。

本文以GF-1卫星多光谱和全色影像为主要数据源,以北京市某区域为例,探讨利用集成学习中的随机森林算法进行城市用地分类的技术方法,并将随机森林与SVM、最大似然法两种传统分类方法进行效率、精度对比分析,为随机森林算法在城市用地分类方面的应用提供可行的参考依据。运用GF-1卫星影像作为研究数据源,以期推动GF-1数据在城市遥感分类领域的应用,为解决智慧城市中用地规划、建设和改造方面的问题作出贡献。

一、研究方法与原理

1. 随机森林

随机森林是由Leo Breiman和Adele Cutler于2001年提出的一种集成学习方法[6],是一种基于分治法原理的集成学习策略,是若干决策树集成的分类器,相较于决策树其更加稳健,泛化性能更好[7]。随机森林核心思想是对输入样本在记录数据(行)和特征变量(列)的使用上随机化。它通过随机选择向量生长成决策树,每棵树都会完全生长,而不需要修剪,并且在生成决策树时,每个节点都是从随机选出的几个变量中最优分裂产生,生成所有决策树之后,用投票的方法对所有决策树的分类结果进行综合,得出最终结果[7-8]。森林中每一棵树都依赖于一个随机向量,森林中的所有向量都是独立分布的。随机森林的预测精度与单个树的强度和树间的相关性有关[6]。

随机森林决策树学习过程为:①随机从训练样本N中有放回地抽样n个作为决策树的输入样本;②从M个样本特征中随机选取m个特征,作为每一个结点的输入样本特征,其中m远小于M;③以m个特征的最优分裂作为该结点的分裂规则;④每一棵决策树均最大限度地生长,不剪枝。

由于生成决策树的过程是独立的,随机森林算法便于并行计算,在处理大数据时表现优异。尤其在处理高维数据分类时,更能体现出随机森林的速度快、精度高、稳定性好的优势[9]。对于决策树分类,随机森林对于大规模数据集有较高的准确率,并可估算特征变量的重要性[10]。

应用随机森林模型分类器需要设定2个重要参数:①生成树个数(number_of_trees),该值决定了模型中集成的决策树个数。该值越大模型收敛性越好,但运行时间增加,且当树的个数过多时,模型会出现过饱和现象。②随机抽取最大特征数(max_features),该值表示生成每一棵决策树时从特征空间中随机抽取特征的最大数。该值越大模型中每棵决策树强度越大,但决策树间相关性也增大。因此,max_features需根据oob误差率来调优,以达到一定精度。

随机森林分类器的优点为[6]:①算法精度高;②可以处理大数据集,无需对大量的输入特征变量进行删减;③可以给出变量的重要性估计;④在模型建立过程中可以产生一个对一般误差的无偏估计,不会过度估计;⑤可以有效处理缺失数据的情况;⑥产生的森林模型易于保存和未来重复利用;⑦可以扩展到无类别数据中,进行非监督分类。

2. 其他方法

支持向量机(SVM)由Vapnik V等在1995年首先提出,是建立在统计学习理论和结构风险模型最小原理基础上的一种学习方法,是从线性可分情况下的最优超平面发展而来的。SVM能够在有限样本信息的条件下,在学习精度和学习效果之间找到最佳平衡[11]。支持向量机具有小样本学习、抗噪声性能好、学习效率高和适合推广等优点,被广泛用于遥感影像处理领域,一些主要的应用如高光谱遥感分类、遥感影像融合、土地利用类型分类等。SVM方法寻找最佳超平面的思路与RF边缘最大化的思想有一定的相似性。

最大似然法(max likelihood)是一种基于统计识别理论的方法[7]。它假定各类分布函数为正态分布,用统计方法根据贝叶斯判决准则,选择训练样本集,建立非线性判别规则,计算各分类样区的归属概率进行分类。该方法样本较多时收敛性较好,并且相对其他方法简单、运算速度快,是一种广泛应用的遥感分类方法。

二、材料与试验

本文从北京市“高分一号”高分辨率遥感影像中选取北京城区东北部分,覆盖面积约16 km2,影像接收时间为2013年5月29日,共5个波段。多波段影像具有4个波段,空间分辨率为8 m;全色影像1个波段,空间分辨率为2 m;研究区域内有建筑、道路、植被、水域和普通地面等。该地区地势比较平整,城市地物目标种类丰富。

软件平台使用EnMap-Box结合ENVI 5.1。EnMap-Box是德国一款基于ENVI/IDL二次开发的遥感处理工具箱软件,集成了许多种机器学习算法,可进行数据分类、回归处理及精度评价。

1. 数据预处理

本研究利用数字高程模型(DEM)和控制点数据对影像做了几何校正。然后,利用HPF(high pass filter)融合方法将全色波段和多光谱波段进行图像融合。该算法能简单、快速地将高频的空间信息与低频的光谱信息融合,保证图像能够兼顾地物的空间和光谱特征[12]。结合实地对比勘测的数据,参考常用分类系统,将该地区地物分为5类即建筑用地、道路、水体、植被、裸地。通过对影像进行解译,所选样本中不同地物光谱特征具有良好的区分性,满足分类要求。

常用的分类特征主要有NDVI、波段反射率等光谱特征,为提高分类精度,研究中还使用了纹理特征,主要包括均值、方差、熵、同质性等,这些纹理特征通过计算灰度共生矩阵获得。对所有的特征进行内部归一化处理,以排除纹理特征和光谱特征在数值和类型上的不同所产生的影响。

2. 随机森林建模

本试验中训练样本为42 437个,特征为37个。经过对结果的分析比较,随机森林分类器参数max_features取值为6,number_of_trees取值为100时,结果相对稳定。因此按照分析选择该参数组合(6,100)进行分类,分类结果如图1所示。

从图中可以看出,最大似然法分类器的分类结果总体上明显劣于SVM和RF。SVM和RF的分类结果总体差别不大,但是各类别之间差别较大,主要是裸地和道路,裸地和建筑用地的区分方面。

三、结果与分析

结合实地调查和影像解译数据,分别对3种分类器的分类结果建立混淆矩阵进行精度检验,计算出3个分类器的总体分类精度和Kappa系数见表1。从表1中可以看出,随机森林的分类精度和Kappa系数最高,随机森林整体分类效果最好。支持向量机的分类精度相对随机森林较低,但是仅差1.39%,整体分类结果也较优。最大似然法在3种分类结果中相对最差。从表1看出,3种方法对植被分类较好,用户精度方面,随机森林和支持向量机甚至达到100%。但裸地分类精度方面随机森林和支持向量机均比较差,分别只有66.78%和59.14%。虽然最大似然法对裸地的生产者精度较高达86.58%,但是用户精度较低且出现道路和裸地混分现象,这是导致最大似然法的整体分类精度相对较低的主要原因。3种方法均出现建筑用地、裸地和道路3类不同程度的混分情况。经过对比研究区的实际情况,发现研究区中裸地和道路相连、相接,同时裸地与建筑用地相间,容易出现混分现象。

表1 3种方法精度评价表 (%)

在分类运算速度方面,随机森林分类器分类树设置为100时,分类时间为3763 s,最大似然法用时497 s,支持向量机时间最长为8235 s,约2 h 17 min。最大似然法虽然总体分类精度令两者有14%~15%的差距,但分类速度是最快的。支持向量机运算速度最慢,耗时超过2 h。随机森林虽然总体精度是最高的但是分类耗时约为最大似然的7.57倍,比支持向量机快约1倍。因此整体角度上,随机森林分类器相较于支持向量机和最大似然法分类效果较好。

四、结束语

本文结果表明相比两种常用的传统方法,随机森林具有较好的提取精度、较快的分类速度,但是随机森林方法提取效果受决策树个数的影响。为保证算法既有较快的运算速度又能满足所需精度,应选择合适的生成树个数。如何根据应用区域和精度目标估算适合的决策树个数、最小分裂条件等模型参数,还需要进一步分析与研究。本文结果也证明了随机森林算法在GF-1卫星数据影像的城市用地分类上具有良好的适用性,这对于扩大高分系列卫星数据的应用具有一定实际意义。

[1]冯盺,杜世宏,张方利,等.基于多尺度融合的高分辨率影像城市用地分类[J].地理与地理信息科学,2013,29(3):43-47.

[2]NIKUNJ C O, KAGAN T. Classifier Ensembles: Select Realworld Applications[J]. Information Fusion,2008,9(1):1-37.

[3]吕京国.基于神经网络集成的遥感图像分类与建模研究[J].测绘通报,2014(3):17-20.

[4]刘海娟,张婷,侍昊,等.基于RF 模型的高分辨率遥感影像分类评价[J].南京林业大学学报(自然科学版),2015,39(1):99-103.

[5]王野.基于资源三号卫星影像的城市绿地信息提取方法探讨[J].测绘工程,2014,23(7):65-67.

[6]BREIMAN L. Random Forests [J]. Machine Learning,2001,45(1):5-32.

[7]王栋,岳彩荣,田传召,等.基于随机森林的大姚县TM遥感影像分类研究[J].林业调查规划, 2014,4(39):1-5.

[8]雷震.随机森林及其在遥感影像处理中应用研究[D].上海:上海交通大学,2012.

[9]刘毅,杜培军,郑辉,等.基于随机森林的国产小卫星遥感影像分类研究[J].测绘科学,2012,37(4):194-196.

[10]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197.

[11]张锦水,何春阳,潘耀忠,等.基于SVM的多源信息复合的高空间分辨率遥感数据分类研究[J].遥感学报,2006,10(1):49-57.

[12]郑著彬,李俊,任静丽.HPF图像融合技术在大理市遥感影像中的运用探讨[J].云南地理环境研究,2007,19(6):96-98.

Classification of GF-1 Remote Sensing Image Based on Random Forests for Urban Land-use

GUO Yubao,CHI Tianhe,PENG Ling,LIU Jilei,YANG Lina

10.13474/j.cnki.11-2246.2016.0159.

2015-04-13

国家自然科学基金青年科学基金(41201397)

郭玉宝(1989—),男,硕士,主要研究方向为遥感在智慧城市中的应用。E-mail:17022793@qq.com

P23

B

0494-0911(2016)05-0073-04

引文格式: 郭玉宝,池天河,彭玲,等. 利用随机森林的高分一号遥感数据进行城市用地分类[J].测绘通报,2016(5):73-76.

猜你喜欢

城市用地决策树分类器
SOFM网络下的深圳市城市用地功能识别分析
甘肃省主要城市空间扩张协调性分析
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
近10年甘肃省城市用地综合效益及其内部协调度研究