基于随机森林与J48 决策树的面向对象方法的土地覆被分类
2021-03-15李靖
李 靖
(兰州大学 资源环境学院,甘肃 兰州730000)
1 概述
遥感技术是土地覆被分类的重要手段之一[1],在土地覆被信息提取与专题信息提取上具有重要意义。由于基于像元的影像分析存在较多的缺点,在当今遥感大数据的时代,难以满足各部门制图等要求[2]。因此,随着高分影像的快速发展,数据呈现爆炸式增长,如国产的高分系列卫星,外国的Worldview 系列卫星等,卫星影像的分辨率越来越高,数据量越来越大,对影像分类方法的要求也越来越高。目前,主要使用面向对象的影像分析方法进行研究,该方法可以充分利用影像的光谱、纹理、形状、上下文特征,完成影像的信息提取,其效果明显优于基于像元的影像分类方法[3]。国内外学者在基于像元的遥感图像分类基础上进行了大量研究,引入许多新方法,如神经网络分类器(Neural Net Classifier)、模糊集(Fuzzy Set)、分层聚类(Hierar2chical Clustering)等,这些方法是基于像元层次,不能突破传统分类方法的局限性,也不能满足对高分辨率遥感图像分类的要求[4]。
基于对象影像分析方法是由Baatz 等(2000)提出[5],其本质是通过相关分割算法产生分割对象,并以此为最小分析单元进行分类或专题信息提取。与基于像元影像分析方法相比,对象具有更丰富的语义信息,并且可以模仿人的认知过程和思维方式进行分类,可以有效地解决“同物异谱、异物同谱”的问题,消除基于像元分类中存在的“椒盐噪声”现象,从而有效地提高分类精度[6-7]。由于面向对象的影像分类方法不断发展,国内外学者不断提出方法、并不断进行改进。黄慧萍等(2004)使用基于对象影像分析方法提取了城市绿地覆被信息,得到了较好结果[8]。王慧敏等(2011)使用海地区域地震后的Geo Eye-1 影像对受损的建筑物进行了提取[9]。赵军利等(2015)以ALOS 为基础数据,有效提取了乌兰布和沙漠的荒漠植被[10]。
目前,机器学习算法逐渐成熟,也开始成为遥感影像分类的一个重要发展方法。利用机器学习算法对遥感影像进行分类,可以有效的对遥感影像进行分类,完成相应的信息提取工作。
2 方法与数据准备
2.1 分类方法介绍
表1 土地覆被分类体系
2.1.1 随机森林分类算法
随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001 年Breiman 把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b),被誉为当前最好的算法之一(Iverson et al. 2008)。
2.1.2 J48 决策树分类算法
J48 即决策树C4.5 算法,其核心算法为ID3 算法。C4.5 算法是一种高效的决策树算法,采用信息增益率选取分类属性,递归构造决策树的各个分支,完成对连续属性的离散化处理。C4.5 算法的优点是:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。C4.5 算法是通过选择具有最高的信息增益率的特征作为树的节点,进行训练样本集中各地物类型的划分,它具有三个特点:(1)连续型和离散型的特征数据均可处理;(2)也可以处理缺失值数据;(3)可对生成的树剪枝以纠正过度拟合。
2.2 数据准备
2.2.1 研究区概况
本次数据采用Wordview-2 影像,数据获取日期为2014 年10 月2 日,地区为宁夏省中卫市,多光谱波段空间分辨率为2m,全色波段空间分辨率为0.5m。本次实验数据的研究区大小为1024*1024,从原始Worldview-2 多光谱整景影像上截取下来,作为本实验研究对象,空间分辨率为2m。研究区位于宁夏回族自治区中卫市西南区域,地理范围:105°2′42.03″~105°10′28.46″E,37°30′0.47″~37°35′54.24″N,平均海拔高度为1223m。
2.2.2 遥感影像预处理
根据此次影像分类需要的特征与影像特点,在ENVI5.3 中对研究区影像进行以下预处理工作,(1)利用全球DEM 数据计算研究区平均海拔;(2)辐射定标;(3)FLAASH 大气校正。
3 基于随机森林与J48 决策树的土地覆被分类
3.1 影像分割及其参数优选
3.1.1 影像分割及其参数优选介绍
文章研究在eCognition 9.0 中进行多尺度分割,由尺度、光谱、形状、光滑度与紧凑度5 个参数对分割结果进行控制。在软件中只需要预设尺度、形状、紧凑度三个参数。分割对象作为基于对象的影像分析中的基础单元,其分割质量的优劣将直接影响后续的分类结果。刘勇等[11](2012)提取出了PSE、NSR 及ED2 3 个指标,文章将使用该方法进行参数优选。
3.1.2 影像分割及其参数优选实现
由于分割尺度的多样性,文章先通过分割尝试与目视判断,对WorldView-2 多光谱影像研究区选择的分割尺度范围为30-150,步长为5;形状、紧凑度的范围均为0.1-0.9,步长为0.1。通过自动多尺度分割得到分割数据集,根据ED2 选取最优分割参数组合。
3.2 分类体系建立
本次实验根据研究区地理特征、自然状况,应用目视解译的方法选取研究区训练样本,本研究区的对象一共有1293 个,综合考虑后,决定选取的训练样本个数为255 个,具体的训练样本个数分布与分类体系如表1 所示。
3.3 影像分类
影像分类特征:
文章通过对研究区综合考虑,选取光谱、几何、纹理特征进行分类,其中自定义的光谱指数如表2 所示。
本次实验选取的分类特征如表2 所示,然后导出上述28 个属性,选取255 个训练样本,在Weka 中利用随机森林算法与J48 决策树完成分类。
表2 自定义光谱特征指数
4 数据结果分析
4.1 影像分割参数优选结果
本次多尺度分割采用不一致评价法对影像分割参数进行优选,通过欧几里得距离(ED2)与尺度因子的关系图可以发现,分割参数组合的最优值尺度因子应该在70-90 之间。查找ED2 结果表可以确定最小的ED2 对应的尺度因子、形状因子、紧凑度因子,优选结果如表3 所示。
表3 基于ED2 算法的研究区分割参数优选结果
4.2 影像分类结果与混淆矩阵
4.2.1 基于随机森林、J48 决策树的分类结果与混淆矩阵
本实验利用随机森林得到的分类结果影像如图1 所示,在eCognition 9.0 中选取检验样本后的分类精度混淆矩阵如表4 所示,其中检验样本对象个数共为391 个,精度评价使用的方法为Error Martix based on Samples。
从该方法结果图可以看出,随机森林分类方法好于J48 决策树的分类结果,但是依然存在一些错误分类,可以综合利用光谱、几何、纹理、上下文特征进行改进。
4.2.2 随机森林与J48 决策树分类精度对比
从表4 中可以看出,在检验样本相同的情况下,随机森林分类方法的总体精度与Kappa 系数明显优于J48 决策树分类算法,但是两个方法出现的分类错误主要出现在草地与耕地的划分上,因为两个类别极易混淆,尤其在耕地作物处于成长期时,多项特征指数及其接近。后续对分类结果进行改进,由于基于随机森林分类方法的精度明显高于基于J48 决策树分类方法,因此文章将对随机森林分类方法结果图进行优化,并以此为基础得到最终的土地覆被分类图。
图1 基于对象的随机森林法(图左)与J48 决策树(图右)分类结果图
4.3 影像分类结果优化
通过观察基于随机森林分类方法的结果影像中的错误分类,发现可以通过一些光谱、上下文特征等进行优化,使其分类更加准确。具体优化方法如下:(1)通过NDVI 指数将错分到village(农村居民地)中的grassland(草地)重新分类到grassland 中,NDVI 阈值经过比对各个对象,设置为0.41,大于0.41 的重新划分为grassland;(2)将NDVI小于0 的farmland 重分类为water;(3)通过观察一些孤立的village 基本属于farmland,所以利用RelBorder to 将该错误分类进行正确分类,阈值确定为0.1,即将village 中Rel Border to village 小于0.1 的划分到farmland;(4)利用merge region 算法执行合并对象操作,美化影像;(5)合并后的影像存在大量长条状的小块耕地,这些为错误分类,利用紧凑度Compactness 进行重分类,阈值为5,即Compactness 大于5 的farmland 重分类为grassland;(6)再次利用merge region 算法执行合并grassland 对象操作,美化影像。
表4 随机森林与J48 决策树分类精度对比
图2 中卫市西南部分地区土地覆被分类图
4.4 最终分类结果
在eCognition 中导出优化后的影像的矢量图层,在ArcGIS 中打开,完成土地覆被分类图制作,结果图如图2所示。
5 结论
文章将随机森林与J48 决策树分别继承与面向对象的影像分析方法中,均得到了不错的分类精度,分类效果较好。其中,随机森林分类方法优于J48 决策树方法,基于随机森林的土地覆被总精度达到90.03%,Kappa 系数达到0.85。基于随机森林分类结果图进行优化,并在ArcGIS 中制作了研究区的土地覆被分类图,显示效果较好。面向对象的分类方法可以充分利用影像的光谱、几何、纹理、上下文等特征信息,完成相应地物类型的识别与分类,避免了基于像元结果中“椒盐现象”的产生,从而提高了影像的分类精度。文章充分使用了遥感影像的光谱、几何、纹理特征,并使用机器学习算法随机森林与J48 决策树,完成了土地覆被信息提取,其分类精度较高,进一步体现了基于对象分类方法的优越性。文章虽然使用了随机森林与J48 决策树机器学习算法进行分类,并进行了相应的精度对比,但并未对两个算法适用的分类情况与各自优缺点进行探究,需要后续进行针对性的探讨与研究。