基于Cart决策树的高分二号烟草信息提取
2022-10-10刘昌华石林峰易小飞胡同波
张 雷,刘昌华,石林峰,易小飞,胡同波
(1.河南理工大学 测绘与国土信息工程学院,河南 焦作 454000;2.自然资源部第一大地测量队,陕西 西安 710054;3.河南省现代农业大数据产业技术研究院,河南 郑州 450046)
烟草是我国非常重要的经济作物,因为我国国土辽阔、地形复杂,政府部门对烟草的监管难度较大。目前烟草面积监测主要通过传统的手持GPS进行实地测量,这种方法耗时费力,而且受人为因素影响,误差很大。
近年来,遥感技术快速发展,因其覆盖范围广、信息获取速度快等优点,被广泛地应用于作物监测中[1-2]。针对传统作物,国内外学者已进行大量研究,但对于烟草的提取,却研究较少。文献[3]利用SPORT数据与航空影像分别基于多尺度和基于像元分割提取森林信息,结果表明前者精度高于后者。文献[4-5]利用IKONOS影像进行面向对象分类,取得了较好的分类结果。文献[6]以Quick Bird 影像为数据源,利用多尺度分割算法提取影像信息,结果精度达90.04%。文献[7]以QuickBird影像为数据源采用面向对象的方法对退耕还林地树冠信息进行提取,总体精度达到84.67%。文献[8]利用无人机多光谱影像,针对玉米倒伏,构建5种特征组合,采用最大似然分类,得到了高精度的玉米倒伏面积。文献[9]利用无人机遥感影像,通过自创的图像处理软件,在烟草面积提取中,有着95%的提取精度。文献[10]基于面向对象的分类方法,选用中巴资源卫星,通过不同的融合方式,对四川山区烟草面积进行提取,证明了面向对象方法在烟草提取中的有效性。
高分二号是我国地面像元分辨率最高的光学卫星,在作物识别、建筑物识别、矿山遥感监测、林业监测等方面有着广泛的应用。1984年Breman提出了Cart决策树,它是一种二叉树分类方法,通过利用空间辅助信息,对影像的多个特征变量进行选择性组合,从而实现对影像数据的分类和预测。本文基于高分二号卫星影像,通过选取不同的特征指标,利用决策树分类方法对洛宁县烟草作物进行提取,探究高分二号卫星在烟草提取中的优越性,为政府部门对烟草市场的宏观调控提供技术支持。
1 研究区及数据预处理
1.1 研究区概况
本文选取洛阳市洛宁县为研究区,如图1所示,洛宁县从1978年开始种植烟草,1981年被国务院划为烟叶最适宜种植区,全县面积2 306 km2,耕地面积约8.67万hm2,适宜种烟面积达3.73万hm2。年降水量600 mm左右,全年日照2 258.5 h,历年平均气温13.7 ℃,适宜烟叶的光合作用。
图1 研究区示意图
1.2 数据源及预处理
根据烟草及当地其他主要作物的物候,选用2020年7月7日的高分二号卫星影像为数据源,包含全色波段和多光谱波段,成像幅宽45 km。数据预处理主要包括辐射定标、大气校正、正射校正以及影像融合等[11]。将全色与多光谱影像进行融合,得到空间分辨率为0.8 m的多光谱影像,但为了方便计算,将影像分辨率重采样为1 m。
辅助数据包括:①洛宁县及各个村边界矢量数据,用于裁剪出研究区域;②洛宁县30 m精度DEM数据,用于影像的正射校正,并为分类提供地形特征;③无人机实地采样影像,集思宝采集烟草地块矢量数据,Google Earth历史影像数据,辅助训练样本的选取。
2 基于Cart决策树的烟草信息提取方法
基于Cart决策树的面向对象烟草信息提取主要包括:影像分割、特征提取、建立Cart决策树分类规则、分类。本文基于Arcgis和Ecognition软件实现。具体流程如图2所示。
图2 总体技术流程图
2.1 多尺度分割
多尺度分割是一种十分常用的分割算法,该算法基于边缘,只需输入参数,即可计算出多尺度分割的结果,计算步骤简单且结果获取速度快,是一种自下而上的区域增长技术[12]。其异质性的具体计算方式为:
f=wcolorhcolor+wshapehshape
(1)
hshape=wcompacthcompact+wsmooth+hsmooth
(2)
式中:f为异质性;wcolor为光谱信息权重;wshape为形状信息权重;hcolor为光谱异质性的值;hshape为形状异质性的值;wcompact和hcompact分别为紧密度和光滑度的权重;wsmooth和hsmooth分别为紧密度和光滑度的异质性值[13]。
2.2 光谱差异性分割
光谱差异性分割是在已有的分割基础上进一步分割的算法,是一种自上而下的分割。通过判断相邻均值层的亮度差异,当亮度差异满足特定的阈值时,将两个对象进行合并,计算相邻影像对象之间的光谱差异。
通过光谱差异性分割,不仅可以减少分割对象的数量,还能在一定程度上改善“过分割”现象[14]。
2.3 Cart决策树分类原理
影像通过多尺度分割和光谱差异性分割以后,并不能直接将每个对象的类别识别出来,还需进行分类这一环节,将每个对象赋予类别信息。利用Cart决策树算法对影像对象进行分类。决策树是一种基于知识发现与数据挖掘的预测分类模型[15]。对输入的训练集进行循环分析,然后生成二叉树形式的决策树,使子节点的GINI指数值最小的属性作为分裂的方案[16]。GINI公式为:
(3)
式中,GINI(D,A)是在特征A条件下集合D的GINI指数,当它的值越大时,样本的不确定性就越大,因此,这里需要选择取值最小的特征值A[17]。特征变量和节点阈值的选择在这个过程中起着关键作用。
2.3.1 样本选择
用于模型训练的数据集又称为训练样本,它是整个分类算法的基础。训练样本的好坏直接关系到分类结果的优劣,因此,在选择样本的时候不仅要选择具有代表性和典型性的样本,还要具备区域样点的完备性[18]。为更好地提取烟草的种植面积等信息,根据当地各类主要作物的物候,选择7月初的影像进行烟草提取。此时大部分作物还未长出,裸地较多。因此,根据研究区的地物情况,将研究区分为烟草、裸地、灌木、其他耕地、林地5类土地类型,在这个分类体系下,利用Google Earth影像、无人机影像和集思宝数据选择566个样本进行训练。其中,烟草、裸地、灌木、其他耕地、林地的样本数量分别为:183、86、96、116、85个。
2.3.2 特征选择
从光谱特征、形状特征、纹理特征、自定义特征这几个方面选取,共14个特征[19]。
光谱特征:原始影像的4个波段均值。
形状特征:紧致度(compactness)和形状指数(shape index)。
纹理特征:采用灰度共生矩阵的几个指标,包括均值(Mean)、嫡( Entropy)、同质性(Homogeneity)、相异性( Dissimilarity)、方差( StdDev)、对比度(Contrast)、相关性(Correlation)。
自定义特征:用于提取植被的归一化植被指数(NDVI)。
3 结果与分析
3.1 多尺度分割结合光谱差异性分割
在进行多尺度分割时,起初并不能确定最佳的分割尺度,因此需要进行试错,如图3所示,首先尝试将分割尺度设置为30,发现地块被分割的很细碎,当分割尺度为70时,不同的地物会被分到一起,最后尝试用尺度50得到相对较好的分割结果。再利用(estimation of scale parameter,ESP)[20]工具设置3个分割层,通过生成的ROC-LV曲线判断最优分割尺度,发现在49时为波峰,如图4所示。因此,最终选择49作为多尺度分割的最佳分割尺度。
(a)分割尺度30 (b)分割尺度50 (c)分割尺度70 (d)分割尺度49图3 多尺度分割试错图
图4 ESP尺度参数估计图
随后将分割尺度为49的分割结果再进行光谱差异性分割。采用试错法,不断调整形状因子和紧质度因子,通过目视判断分割效果,以减少分割对象的数量,并改善“过分割”现象,确定最终的分割图,如图5所示。在之前的多尺度分割中,已经取得了很好的分割效果,光谱差异性分割是对它的优化,发现当尺度为5时不同地物就已经被分到了一起,因此选择尺度2作为光谱差异性最终分割尺度。
(a)尺度2 (b)尺度5 (c)尺度7
3.2 影像分类
将Arcgis制作好的训练样本数据输入Ecognition软件中,选择之前确定好的14个特征指数,然后进行训练、应用和决策树的导出。生成的决策树规则如图6所示。
图6 Cart规则树
从决策树规则可以看出:通过G波段的均值可以很好地把林地区分出来;纹理特性的相异性可以很好地区分烟草和灌木;形状因子能把林地和其他地物很好区分出来;R波段的均值可以把裸地提取出来;纹理特征的均值能很好地提取烟草;最后纹理特征的相关性特征能很好地提取出裸地和其他地物。基于以上规则树,生成分类结果。
为验证Cart决策树算法在烟草提取时的精度和效果,在分割尺度参数、训练样本、特征指标不变的情况下,采用经典的支持向量机和随机森林算法对研究区进行分类。3种分类效果如图7所示。
(a)Cart决策树分类结果 (b)支持向量机分类结果 (c)随机森林分类结果
3.3 精度评价
观察图7,Cart决策树和随机森林的分类结果较好,在支持向量机中,各个地物的提取结果都不太理想。为了从定量方面进行研究分析,通过验证点进行精度评价,在原始影像中均匀布点,生成10*10的点状文件200个,如图8所示,并逐一确定每个点的真实地物类型,确定是否属于烟草,然后在ArcGIS中对每个点添加属性进行二分类,将新建的点文件加载到预测结果影像中,对预测点类别进行验证,并建立混淆矩阵对3种分类方法的预测结果进行精度评价。评价结果如表1所示。
图8 验证点示意图
表1 3种分类算法的混淆矩阵精度评价
4 结论
本文通过对Cart决策树分类的研究和探讨,利用面向对象的方法,通过多尺度分割结合光谱差异性分割,构建决策树模型,对研究区内的地物进行分类,提取烟草,并与支持向量机、随机森林算法分类结果进行对比,结果表明基于Cart决策树分类算法在洛宁县小界乡的烟草提取中取得了更好的效果。
通过与常用的分类算法(支持向量机和随机森林)进行对比,Cart决策树表现出很好的分类精度,总体分类精度分别提高2.64和1.33个百分点。Kappa系数比支持向量机和随机森林分别提高3.28和1.06个百分点。
Cart算法输入更多的提取特征虽然对最优决策树的构建不产生过多影响,但减少不必要的特征输入可以提高提取效率和自动化程度。本文共利用14个提取特征,最后得出纹理特征的均值和相异性能反应烟草的特征量。所筛选出来的特征对以后的烟草信息提取提供一定的参考价值。
本文的算法均属于监督分类方法,对样本的要求非常高,样本的质量对分类结果精度至关重要。因研究条件有限,若采集更多的训练样本,烟草的提取精度可以得到更大提升。
本文只通过高分二号卫星影像对研究区的烟草进行提取,后续将探究Cart决策树分类算法在较低分辨率影像中的分类效果,以达到更好的适用性,并尝试通过深度学习的方法进行烟草信息提取研究。