基于特征优选决策树模型的河套灌区土地利用分类
2021-09-16孙亚楠李仙岳史海滨崔佳琪马红雨王维刚
孙亚楠,李仙岳,史海滨,崔佳琪,马红雨,王维刚
基于特征优选决策树模型的河套灌区土地利用分类
孙亚楠,李仙岳※,史海滨,崔佳琪,马红雨,王维刚
(内蒙古农业大学水利与土木建筑工程学院,呼和浩特 010018)
为了提高土地利用遥感识别精度,探索不同识别期及不同特征变量对土地利用类型遥感识别精度的影响。该研究采用Landsat时间序列影像数据,考虑不同月份和不同特征变量(波段、光谱指数及纹理特征)组合方式建立土地利用决策树分类模型,并利用河套灌区永济灌域实测数据和Google earth影像对不同组合方式的土地利用模型进行数量结构和空间布局的验证,筛选出最优的土地利用遥感模型并确定最佳识别期。结果表明:在不同月份Green(绿波段)和Ent(熵Entropy)分别与波段和纹理特征变量中的因子所含有的信息重复率最高,需剔除,归一化植被指数(Normalized Differential Vegetation Index, NDVI)和增强型植被指数(Enhanced Vegetation Index,EVI)在今后的研究中可选其一应用;与单一特征变量相比,不同特征变量组合后能提高模型精度,平均总体精度和Kappa系数分别提高了6.72个百分点和0.09。采用8月影像数据构建的遥感模型精度最高,最优遥感模型的特征变量组合方式为波段+光谱指数+纹理特征,总体精度、Kappa系数、制图精度和用户精度分别为80.23%、0.74、80.95%和86.26%,且减少了未利用地和居民工况用地空间布局的错分。通过综合比较,该研究区土地利用最佳识别期为8月,其次为9月。利用8月最优遥感模型(最佳识别期和最优组合)识别的耕地、林地、草地、未利用地、水域和居民工矿用地的制图精度分别为96.83%、73.33%、70.00%、65.52%、100.00%和80.00%,用户精度分别为76.62%、100.00%、82.35%、82.61%、100.00%和80.00%。因此可选用8月最优模型应用于长时间序列的土地利用类型识别。
土地利用;遥感;光谱特征;纹理特征;最佳识别期;组合方式;决策树
0 引 言
区域土地利用信息快速、准确获取是该地区土地动态监测、规划、管理、开发与保护等工作的基础,也是各类区域模型正常运行的前提[1]。随着国家经济建设的稳步推进,迫切需要准确获得土地利用的详细信息,为制定相应政策和规划提供基础[2]。
传统的土地利用类型识别主要采用实地调查与统计学相结合的方式,但成本高、效率低,且结果也存在一定偏差。随着3S空间技术发展,国内外学者从区域、国家乃至全球尺度出发,围绕多源影像数据融合[3]、特征变量优选[4]和分类器选择[5]等关键技术对土地利用类型进行了遥感解译,但由于中国农业区的土地利用类型分布分散、农业景观破碎和作物种植结构复杂等特点[6],给土地利用类型的遥感解译带来了持续性挑战。现有利用遥感进行土地利用识别的相关研究,主要基于影像数据中光谱(原始光谱和光谱指数)和纹理特征进行分类。对于仅采用原始影像信息的分类方法,图斑较为破碎[7]。而在此基础上,通过数学变换形成的光谱指数特定地物能在一定程度上更准确地识别[8]。然而这种仅基于光谱特征的方法通常对单一地物类识别有较高的精度,但是在实际应用中,分类结果一定程度上存在同谱异物、同物谱异的现象[9]。纹理特征作为遥感影像中重要空间结构信息和基本特征,可以有效地抑制同谱异物、同物谱异现象的发生,从而能够改善分类精度,但纹理特征提高土地利用识别精度需在结合光谱特征信息的基础上进行[10]。所以,将原始光谱、光谱指数和纹理特征进行耦合,以提高土地分类的精度已被广泛采用[9]。尽管这种多特征耦合丰富了遥感数据信息量,但增加了数据冗余和维度灾难的风险。故如何在多特征变量研究中选择有效的特征因子,以及对特征变量进行有效的组合是提高多特征变量分类模型识别精度和识别效率的关键。
目前对土地利用类型识别的数据源主要分为时间序列数据[11]和单一时相数据[4]两类,其中基于时间序列的影像能够反映不同土地利用类型光谱等特征随季节变化的差异,增大了可分性,但模型的应用受到两方面的制约,一方面基于时间序列遥感影像数据的分类模型涉及较多时相影像数据[12],如果某个时期影像的不可用(比如云量较大)将会导致分类模型无法应用。另一方面,在时间序列影像的分类模型中,影像数据多为高分辨率遥感影像[13],而通常这些高分辨率影像不易获取,且在轨时间短,所构建的模型难以应用于长序列的土地利用信息提取的研究。而基于单时相的中低分辨率影像既具有相对丰富的信息,同时拥有大量的历史影像数据,又具有一定的空间信息,已在土地利用信息的提取和地类时空演变研究中得到了广泛应用[14]。而以单时相影像数据为基础数据的研究中,由于不同时期土壤类型和利用方式的光谱等特征具有一定的差异,导致不同时期可分性不同,从而使影像时期的选择成为影响单时相影像模型精度的决定性因素[15-16]。故通过筛选土地利用类型的最佳识别期和特征变量的组合方式是提高基础数据有效性和模型精度的关键。
本文基于Landsat时间序列影像数据,利用主成分分析的方法对影像数据的波段、光谱指数和纹理特征变量中各因子进行筛选,并构建不同时期、不同组合方式的决策树模型,对比分析各方案的分类精度,利用混淆矩阵和Google earth影像分别对分类结果进行数量结构和空间布局的验证,筛选出土地利用分类最优组合的遥感模型并确定最佳识别期,从而为河套灌区土地利用类型的快速识别提供新的思路。
1 数据与方法
1.1 研究区概况
内蒙古河套灌区永济灌域,107°13′~107°42′E,40°36′~41°13′N,南北长60 km,东西宽40 km,总土地面积18.36万hm2,现灌溉面积约11.22万hm2,经过30年快速发展,经济增幅达96倍,城镇化率31.19%,年均提高1.23个百分点[17]。耕地是研究区主要的土地利用类型,种植的主要作物为小麦、向日葵和玉米。其他土地利用类型中,林地主要以1~10 a生的杨树和柳树经济林为主,未利用地主要以盐荒地和部分沙地组成。随着黄河流域经济的发展,从1998年河套灌区实施节水改造开始,用水指标逐年减少,对土地利用方式的转换产生了一定的影响。
1.2 数据的采集与处理
1.2.1 土地利用样本采集
野外采样基于网格法在研究区进行均匀布设样点,采集时间为4-9月。由于研究区小麦播种及收割时间与其他作物差异较大,所以本文在中国土地利用现状分类一级系统[18]的基础上将耕地进一步细分为小麦和其他耕地两类,以最大程度地减少分类误差。实际采样点则根据实际情况进行适度调整,确保采样点数满足模型的构建和验证的要求。样点采集时利用GPS进行定位,并记录其相应的经纬度以及土地利用的类型,最终确定的土地利用的类型分别为小麦、耕地、林地、草地、未利用地、水域和居民工矿用地7大类,采样点个数分别为57、85、37、37、79、30和45个,共计370个(图1)。
1.2.2 遥感影像数据的下载与处理
遥感影像数据采用Landsat 7 ETM+数据(30m分辨率),下载网址为https://earthexplorer.usgs.gov/,时间序列影像获取时间分别为2019年4月13日、5月15日、6月16日、7月2日、8月3日、9月4日、9月20日和10月6日,行列号分别为129/31和129/32。利用ENVI 5.3软件对遥感影像数据进行辐射定标、大气校正、几何精校正、无缝镶嵌、裁剪等预处理,并通过ArcGIS10.4软件提取采样点对应的特征变量。
1.3 研究方法
本文基于Landsat时间序列影像数据,对影像的波段特征、光谱指数特征和纹理特征进行提取,组成7种方案(表1),包括3种单类别方案(方案1~3)和4种组合类别方案(方案4~7),利用主成分分析的方法筛选出各特征变量的特征因子,并基于上述7种方案构建不同时期的土地利用决策树提取模型,通过对比精度(分类精度和验证精度)从而筛选出土地利用最优遥感模型并确定最佳识别期。
表1 方案的设定
1.3.1 特征变量提取
本研究选取波段、光谱指数和纹理3种特征作为土地利用分类的特征变量,其中共包括6个波段因子、6个光谱指数因子以及8个纹理因子(表2)。为了提高纹理特征提取效率,对影像数据进行主成分分析,利用灰度共生矩阵(Gray-level Co-occurrence Matrix, GLCM)方法对第一主成分进行纹理特征信息的提取(图2),滑动窗口尺度分别设置为3×3、5×5、7×7和9×9,最终最佳窗口选定为3×3,步长选定为1。
表2 特征变量统计
1.3.2 特征因子的优选
由于特征变量中因子较多,为避免由于指标选取过多使问题复杂化或者指标选取过少而影响结果准确度等问题,利用主成分分析(Principal Component Analysis, PCA)通过线性变换从多个变量(或因子)中选出较少重要变量[25],既能够尽量多地反映原来较多指标的信息,也能达到使彼此相互独立的目的。本文利用PCA对波段、光谱指数和纹理特征变量的因子进行分析,并将相关系数绝对值大于0.90的因子剔除,从而减小模型的冗余性。
1.3.3 分类模型的构建与评价指标
本文先将实测样本以2:1比例分为训练样本和验证样本,利用训练样本分别构建小麦、其他耕地、林地、草地、未利用地、水域和居民工矿用地的感兴趣区,然后利用感兴趣区确定各土地利用的特征指标属性规则,从而构建决策树分类模型,并利用混淆矩阵和Google earth影像对分类结果进行数量结构和空间布局的验证。
1)模型的构建
决策树分类模型是先通过分析像元特征值,设定每个节点合适的分割值,从而进行分层逐次的比较归类的分类技术,比较常用的分类方法有C4.5算法、C5.0算法、CART算法(Classification And Regression Tree)和S-PLUS等算法,本文利用CART算法构建决策树分类模型,CART算法采用经济学领域中的基尼(Gini)系数[26]作为选择最佳测试变量和分割阈值的准则,并采用交叉验证的方法对生成树进行修剪,从而形成一棵兼顾复杂度和错误率的最优二叉树。
2)模型的验证
混淆矩阵法是目前评价分类精度的普遍方法,常用的指标包括总体精度(Overall Accuracy, OA)、Kappa系数、制图精度(Producer Accuracy, PA)和用户精度(User Accuracy, UA)[11](公式(1)~(3)),本文利用上述4种指标对分类结果进行数量结构的精度验证,利用Google earth影像分析分类结果的空间布局误差。
式中为验证样本的个数,X和X为分类结果中第类样本的总数和验证样本中第类样本的总数,X为误差矩阵中的第行列中的数,代表第类样本中被正确分类的个数,为分类的类别数。
2 结果与分析
2.1 特征变量中特征因子的选择
2.1.1 波段特征
分别对不同时期的波段进行主成分分析,得到各波段间的相关系数矩阵(图3),以2019-04-13的波段间的相关系数矩阵为例(图3a)进行筛选过程的说明,Blue与Green的相关系数为0.94,Green与Red的相关系数为0.95,为降低因子的冗余性,需将其中一个或者两个剔除,进一步分析Blue和Red的相关性,相关系数为0.88,所以将Green剔除。其他波段中,Red与NIR的相关系数为0.91,NIR与SWIR1的相关系数为0.93,而Red和SWIR1的相关系数为0.81,所以将NIR剔除。SWIR1与SWIR2间相关系数为0.97,而二者与其他的因子的相关系数均小于0.90,所以将SWIR1和SWIR2分别与未剔除的因子进行相关性分析,并计算其相关系数绝对值的平均值,分别为0.76和0.77,所以将SWIR2剔除,最终选定Blue、Red和SWIR1作为2019-04-13的波段特征因子。利用上述方法对其他各时期的因子进行特征因子的筛选,最终选定Blue、Red、NIR和SWIR1作为2019-05-15和2019-06-16的波段特征因子,Blue、NIR和SWIR2作为2019-07-2、2019-09-04和2019-10-06的波段特征因子,Blue、Red、NIR和SWIR2作为2019-08-03和2019-09-20的波段特征因子。结果表明Green在不同时期与其他因子所含有的信息重复率最高,而Blue作为各时期的特征因子,不仅与其他因子组合能够包含较多的信息,还能避免因子的维度灾难。
2.1.2 光谱指数特征
对光谱指数进行主成分分析,得到各光谱指数间的相关系数矩阵(图4),负相关关系主要出现在MNDWI与NDVI、EVI、BI和RVI之间,且MNDWI与NDVI、EVI相关性最为显著,特别是在2019-04-13-2019-07-02期间(图4a~4d)间,相关系数绝对值均大于0.60。不同月份中,NDVI与EVI的相关性均维持在较高的水平,相关系数大于0.90,平均相关系数为0.95,根据筛选原则需对其中一个因子进行剔除,NDVI是研究植被类型采用最广泛的指数之一,而EVI能够解决NDVI的高覆盖度下容易饱和的问题,所以对二者进行进一步的筛选,分析二者与其他光谱指数因子的相关性,其中NDVI与其他光谱指数的相关性在2019-04-13、2019-05-15和2019-06-16高于EVI与其他光谱指数的相关性,平均高4.01%,所以将NDVI剔除,而2019-07-02、2019-08-03、2019-09-04、2019-09-20和2019-10-06中EVI与其他光谱指数的相关性高于NDVI,平均高2.75%,所以将EVI剔除。NDVI和EVI在各时期包含的信息重复率均较高,为避免信息的冗余,在今后的研究中可选其一应用。
2.1.3 纹理特征
对纹理特征进行主成分分析,得到不同时期纹理特征变量因子间的相关系数矩阵(图5),各纹理特征变量的因子间相关性总体低于各波段、各光谱指数间的相关性,表明纹理特征变量中各因子间重叠信息较少。不同月份中仅Ent与Sm的相关性较高,相关系数在−0.95~−0.97之间,其中Ent在各时期与其他各因子的相关系数绝对值的平均值均高于Sm,平均高18.74%,所以将Ent剔除,最终选定Mean、Var、Hom、Con、Dis、Sm和Cor作为各时期纹理特征变量的特征因子。
2.2 基于不同特征变量的土地利用类型分类精度对比
基于上述7种方案构建不同时期的土地利用决策树分类模型,利用混淆矩阵和Google earth影像对分类后的结果进行数量结构和空间分布的验证。首先利用实测点的验证样本计算模型的混淆矩阵,其中总体精度和Kappa系数(表3)用来对不同时期、不同方案的分类精度进行总体性的评价,从而优选出各时期分类效果最好的方案,而制图精度和用户精度(表4)则对不同时期最优方案中耕地、林地、草地、未利用地、水域和居民工况用地的分类精度进行评价,进一步获取错分与漏分的情况。结果表明,不同时期不同方案的总体精度在57.06%~80.23%之间,平均值为72.63%,Kappa系数在0.43~0.74之间,平均值为0.64。基于单一的波段或光谱指数方案分类精度在各时期精度均满足要求,在土地利用识别中可单独应用,可见本文选取的光谱指数对研究区的土地利用类型应用效果较好。方案3(纹理特征)在各时期分类精度最低,总体精度平均值为62.64%,而纹理特征与波段或光谱指数特征综合应用时均能有效提高精度,所以在土地利用识别过程中纹理特性需与光谱特征变量综合应用。不同时期单类别方案(方案1~3)的总体精度分别在57.06%~75.14%之间,平均值为68.80%,平均Kappa系数在0.55~0.62之间,而组合类别方案相比单类别方案平均总体精度平均提高了6.72个百分点,平均Kappa系数平均提高了0.09,表明特征变量组合后能够明显提高模型的分类精度。利用总体精度和Kappa系数对不同时期的最优方案进行筛选,最终选定方案7作为2019-04-10、2019-05-15、2019-08-03和2019-09-04的优选方案。选定方案4作为2019-06-16、2019-07-02、2019-09-20和2019-10-06的优选方案。
表3 各方案分类模型精度对比
表4 优选方案的土地利用类型的制图精度和用户精度
利用制图精度和用户精度(表4)对不同时期最优方案的分类精度进行评价,不同时期最优方案的各土地利用类型的平均制图精度和平均用户精度分别在62.90%~97.06%和71.89%~96.56%之间,平均值分别为77.43%和84.06%,表明平均用户精度大于制图精度,即漏分误差大于错分误差。不同时期各土地利用的分类结果中,水域的分类精度最高,制图精度和用户精度平均值分别为97.06%和96.56%,其次是耕地、林地、居民工矿用地、未利用地和草地。各时期的分类结果中,2019-08-03和2019-09-04的各土地利用类型的制图精度和用户精度均能满足要求,且平均精度均较高,其中平均制图精度分别为80.95%和79.28%,平均用户精度分别为86.26%和86.77%。
图6为基于Google earth影像对分类结果空间分布的验证。在研究区中利用Google Earth影像(图6a、6d)选取两块典型区域对2019-08-03(图6b、6e)和2019-09-04(图6c、6f)结果的空间分布进行进一步的对比分析,两个时期水域的识别效果较好,轮廓与实际一致。2019-09-04(图6c)对市区范围内中道路硬化等较为完备的高层建筑识别效果较好,而将部分分布零散的建筑物识别为未利用地,且对于较多的低层住宅区识别效果较差,从而导致市区的居民工况用地面积小于实际情况,部分道路识别为未利用地(图6f)。可知,2019-08-03和2019-09-04的分类结果中,2019-08-03的分类效果较好,相比2019-09-04,减少了未利用地和居民工况用地空间布局的错分。采用8月份数据构建的遥感模型精度最高,最优组合方式为波段(Blue+Red+NIR+SWIR2)+光谱指数(NDVI+MNDWI+ EBSI+BI+RVI)+纹理特征(Mean+Var+Hom+Con+Dis+Sm +Cor),其中总体精度和Kappa系数分别为80.23%和0.74(表3),耕地、林地、草地、未利用地、水域和居民工矿用地的制图精度分别为96.83%、73.33%、70.00%、65.52%、100.00%和80.00%,用户精度分别为76.62%、100.00%、82.35%、82.61%、100.00%和80.00%(表4)。其次为9月。
3 讨 论
在土地利用识别方法的研究中,传统分类方法是以像元为基本单元,近年来,随着遥感技术的发展,国内外学者发展了一系列能综合运用影像的光谱、纹理等多种特征的分类方法,这些方法在一定程度上改善了基于像元分类方法的精度,如王李娟等[4]研究发现加入植被指数、纹理特征等信息可以有效提升土地利用分类精度。林楠等[1]增加了形状和纹理信息后的多源信息数据的分类精度明显高于基于纯光谱信息数据的分类精度,尤其是通过形状信息对易于混淆的建筑用地边界进行了有效的划分,分类精度提高了9.32%。本研究通过对不同时期不同方案精度的对比分析可以得出,基于单一的纹理特征的方案在各时期的分类精度均低于其他方案,各时期平均总体精度相比其他方案降低了11.66个百分点,平均Kappa系数相比其他方案降低了0.16,而纹理特征与波段或光谱指数特征综合应用时均能有效提高精度,如方案5(波段+纹理特征)在各时期的平均总体精度和平均Kappa系数相比方案1(波段特征)分别平均提高了3.05个百分点和0.05。所以纹理特征在土地利用识别中单独作为特征变量的识别精度较低,需与光谱特征变量结合使用;基于单一的波段或光谱指数的方案在各时期精度均能满足要求,即针对分类精度要求不高的研究中可应用该种方法;综合多特征变量的方案精度均高于单一方案,不同时期组合类方案模型的平均总体精度和平均Kappa系数相比仅采用单一特征变量的方案分别提高了6.72个百分点和0.09。结果表明综合多特征变量的方法仍是土地利用识别中最为可靠的方案。由于本研究主要针对灌域尺度地类识别,并没有探索尺度效应。在后续研究中,将以田间、景观、灌域、灌区等不同尺度进行数据采样和遥感识别,深入探讨各特征变量在土地利用信息识别过程中的尺度问题为灌区多尺度土地利用识别提供新的技术。不同时期不同土地利用的光谱特征和纹理特征具有显著性差异,选择差异性较大的时期能一定程度提高遥感模型精度[15-16]。本研究也显示分类时期对模型的精度有一定的影响,如基于8月影像构建的最优组合模型精度优于其他时期(表3~表4),其总体精度、Kappa系数、制图精度和用户精度相比其他时期的最优方案分别提高了1.13~6.22、0.01~0.08、0.57~11.64个百分点和−0.50~8.02个百分点。但是本研究错分率较高的为草地和未利用地,主要集中于生育期初期(4-6月)和末期(9-10月),这是由于该时期草地覆盖度低,其NDVI与未利用地非常相近,由于该时期的特殊性也无法利用时间序列的物候期识别来提高本研究中草地和未利用地的识别精度,且在基于时间序列土地利用分类的部分研究中,草地和未利用地的分类精度仍偏低,如Zhang等[27]基于时间序列土地利用分类显示草地的制图精度为70.79%。且所需基础影像数据量较大,并会导致影像可用性不规律,影响模型的稳健性和时空一致性[28],从而增大了模型的应用难度,所以选择合适的单时期影像进行土地利用分类具有重要意义。本研究确定8月为分类的最佳时期,该时期草地与未利用地的分类精度能够满足模型的精度要求。
不同时期土地利用识别的精度在一定程度上受季节性影响,如4-5月耕地、草地和未利用地由于植被均处于生长初期,错分率相对较大;而在9月末至10月,耕地中作物进入收割末期,耕地中主要为作物残茬,而草地和未利用地中植被处于生长末期覆盖率也较低,从而该时期此3种地类光谱特征也较为相近[29],错分率也会增加。6-7月耕地由于葵花的长势较低,易与植被覆盖度较小的草地相混淆,而7月份相比6月份,耕地开始有部分错分为林地,分析由于7月的耕地长势高于6月,且叶面积指数较低,与部分行道树相近,故7月的识别精度相比会更低。8月份耕地中作物叶面积指数明显高于其他地类[30],且该地区耕地占比大于50%[31],所以该时期总体识别精度较高。另外分类精度也受地类分布的影响,在本研究中林地多为道路两旁的行道树和少数农田中的经济林,分布较为零散,识别难度增大;草地、未利用地多分布于居民工矿用地周围,且比较零散,在30 m×30 m的分辨率遥感影像中较难区分,这也会导致其错分率进一步增加。
4 结 论
1)特征变量的特征因子筛选过程中,归一化植被指数和增强型植被指数在各时期包含的信息重复率均较高,为避免信息的冗余,在今后的研究中可选其一应用,绿波段、熵在各时期与其他因子信息重复率较高;纹理各因子间的相关性均明显低于波段因子和光谱指数因子。
2)采用单一纹理特征的方案精度较差,各时期总体精度与Kappa系数相比其他方案分别降低了11.66个百分点和0.16,而纹理特征与波段或光谱指数特征组合后均能有效提高精度;多特征变量组合模型精度均高于基于单一特征变量的模型精度,不同时期组合类方案模型的平均总体精度和平均Kappa系数相比仅采用单一特征变量的模型分别提高了6.72个百分点和0.09。
3)基于8月份波段+光谱指数+纹理特征的遥感模型精度最高,总体精度、Kappa系数、平均制图精度和平均用户精度分别为80.23%、0.74、80.95%和86.26%,且减少了未利用地和居民工况用地空间布局的错分。其中耕地、林地、草地、未利用地、水域和居民工矿用地的制图精度分别为96.83%、73.33%、70.00%、65.52%、100.00%和80.00%,用户精度分别为76.62%、100.00%、82.35%、82.61%、100.00%和80.00%。
[1] 林楠,姜琦刚,杨佳佳,等. 基于资源一号02C高分辨率数据的农业区土地利用分类[J]. 农业机械学报,2015,46(1):278-284.
Lin Nan, Jiang Qigang, Yang Jiajia, et al. Classifications of agricultural land use based on high-spatial resolution ZY1-02C remote sensing images[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 278-284. (in Chinese with English abstract)
[2] 吴迪. 节水改造后河套灌区沈乌灌域土壤盐分时空变化规律研究[D]. 呼和浩特:内蒙古农业大学,2020.
Wu Di. Study on the Spatial and Temporal Changes of Soil Salt in Shenwu Irrigation District of Hetao Irrigation District after Water Saving Transformation[D]. Huhhot: Inner Mongolia Agricultural University, 2020. (in Chinese with English abstract)
[3] 刘晓龙,徐瑞,付卓,等. 基于多源遥感数据的纳板河国家级自然保护区人类活动用地监测[J]. 农业工程学报,2018,34(19):266-275.
Liu Xiaolong, Xu Rui, Fu Zhuo, et al. Monitoring land use for human activities in Nabanhe National Nature Reserve based on multi-source remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(19): 266-275. (in Chinese with English abstract)
[4] 王李娟,孔钰如,杨小冬,等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报,2020,36(4):244-250.
Wang Lijuan, Kong Yuru, Yang Xiaodong, et al. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 244-250. (in Chinese with English abstract)
[5] 陈元鹏,罗明,彭军还,等. 基于网格搜索随机森林算法的工矿复垦区土地利用分类[J]. 农业工程学报,2017,33(14):250-257.
Chen Yuanpeng, Luo Ming, Peng Junhuan, et al. Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(14): 250-257. (in Chinese with English abstract)
[6] 田海峰,邬明权,牛铮,等. 基于Radarsat-2影像的复杂种植结构下旱地作物识别[J]. 农业工程学报,2015,31(23):154-159.
Tian Haifeng, Wu Mingquan, Niu Zheng, et al. Dryland crops recognition under complex planting structure based on Radarsat-2 images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(23): 154-159. (in Chinese with English abstract)
[7] 胡月瑶. 基于Landsat指数影像的城市区域自动分类方法研究[D]. 武汉:武汉大学,2018.
Hu Yueyao. An Automatic Land-Cover Mapping Method Over Urban Areas Using Spectral Indices Based on Landsat Imagery[D]. Wuhan:Wuhan University, 2018. (in Chinese with English abstract)
[8] 陈静秋,王莉,姜小三. 决策树方法在云贵高原典型区域ALOS影像土地利用分类中的应用[J]. 南京农业大学学报,2013,36(6):45-50.
Chen Jingqiu, Wang Li, Jiang Xiaosan. Decision tree method application on land use classification using ALOS image in typical area of Yunnan-Guizhou Plateau[J]. Journal of Nanjing Agricultural University, 2013, 36(6): 45-50. (in Chinese with English abstract)
[9] 马正龙. 长株潭城市群土地利用/覆盖变化遥感动态监测[D]. 长沙:中南大学,2011.
Ma Zhenglong. The Dynamic Monitoring of Land Use and Land Cover Change in Changsha-Zhuzhou-Xiangtan Urban Agglomerations Based on Remote Sensing[D]. Changsha: Central South University, 2011. (in Chinese with English abstract)
[10] Chen S B, Useya h, Mugiyo H. Decision-level fusion of Sentinel-1 SAR and Landsat 8 OLI texture featuresfor crop discrimination and classification: Case of Masvingo, Zimbabwe[J]. Heliyon, 2020, 6(11): e05358.
[11] 汪小钦,邱鹏勋,李娅丽,等. 基于时序Landsat遥感数据的新疆开孔河流域农作物类型识别[J]. 农业工程学报,2019,35(16):180-188.
Wang Xiaoqin, Qiu Pengxun, Li Yali, et al. Crops identification in Kaikong River Basin of Xinjiang based on time series Landsat remote sensing images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(16): 180-188. (in Chinese with English abstract)
[12] 张平,孙强强,孙丹峰,等. 基于遥感光谱的干旱区土地退化评价体系构建[J]. 农业工程学报,2019,35(9):228-237.
Zhang Ping, Sun Qiangqiang, Sun Danfeng, et al. Establishment of land degradation assessment system in arid region based on remote sensing spectrum[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(9): 228-237. (in Chinese with English abstract)
[13] 杨闫君,占玉林,田庆久,等. 基于 GF-1/WFV NDVI 时间序列数据的作物分类[J]. 农业工程学报,2015,31(24):155-161.
Yang Yanjun, Zhan Yulin, Tian Qingjiu, et al. Crop classification based on GF-1/WFV NDVI time series[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(24): 155-161. (in Chinese with English abstract)
[14] 梁明,聂拼,陆胤昊,等. 淮南市土地利用程度变化过程的时空演化特征[J]. 农业工程学报,2019,35(22):99-106.
Liang Ming, Nie Pin, Lu Yinhao, et al. Spatiotemporal evolution characteristics of land use intensity change process of Huainan[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(22): 99-106. (in Chinese with English abstract)
[15] Gong C, Wu W. Comparisons of regression tree models for sub-pixel imperviousness estimation in a Gulf Coast city of Mississippi, USA[J]. International Journal of Remote Sensing, 2014, 35(9/10): 3722-3740.
[16] 孙亚楠,李仙岳,史海滨,等. 基于多源数据融合的盐分遥感反演与季节差异性研究[J]. 农业机械学报,2020,51(6):169-180.
Sun Yanan, Li Xianyue, Shi Haibin, et al. Remote sensing inversion of soil salinity and seasonal difference analysis based on multi-source data fusion[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(6): 169-180. (in Chinese with English abstract)
[17] 郭姝姝. 基于遥感及CLUE-S模型的内蒙古河套灌区土壤盐渍化时空演变与调控研究[D]. 北京:中国水利水电科学研究院,2018.
Guo Shushu. Study on Spatiotemporal Evolution and Regulation of Soil Salinization in Hetao Irrigation District, Inner Mongolia, China Using Remote Sensing and CLUE-S Model[D]. Beijing: China Institute of Water Resources & Hydropower Research (IWHR), 2018. (in Chinese with English abstract)
[18] 龚文峰,袁力,范文义. 基于CA-Markov的哈尔滨市土地利用变化及预测[J]. 农业工程学报,2012,28(14):216-222.
Gong Wenfeng, Yuan Li, Fan Wenyi. Dynamic change and prediction of land use in Harbin city based on CA-Markov model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(14): 216-222. (in Chinese with English abstract)
[19] Rouse J, Haas R, Schell J, et al. Monitoring vegetation systems in the Great Plains with ERTS[J]. Third ERTS Symposium: NASA SP-351. 1973: 309-317.
[20] Huete A, Justice C, Liu H. Development of vegetation and soil indices for MODIS-EOS[J]. Remote Sensing of Environment, 1994, 49: 224-234.
[21] 徐涵秋. 利用改进的归一化差异水体指数(MNDWI)提取水体信息的研究[J]. 遥感学报,2005,9(5):589-595.
Xu Hanqiu. A study on information extraction of water body with the Modified Normalized Difference Water Index (MNDWI)[J]. Journal of Remote Sensing, 2005, 9(5): 589-595. (in Chinese with English abstract)
[22] 吴志杰,赵书河. 基于TM图像的“增强的指数型建筑用地指数”研究[J]. 国土资源遥感,2012,24(2):50-55.
Wu Zhijie, Zhao Shuhe. A study of enhanced index-based built-up index based on Landsat TM imagery[J]. Remote Sensing for Land & Resources, 2012, 24(2): 50-55. (in Chinese with English abstract)
[23] Major D J, Baret F, Guyot G. A ratio vegetation index adjusted for soil brightness[J]. International Journal of Remote Sensing, 1990, 11(5): 727-740.
[24] Khan N M, Rastoskuev V V, Sato Y, et al. Assessment of hydrosaline land degradation by using a simple approach of remote sensing indicators[J]. Agricultural Water Management, 2005, 77(1): 96-109.
[25] 强芳,张明军,王圣杰,等. 基于格点数据的1961-2012年祁连山面雨量特征分析[J]. 地理学报,2015,70(7):1125-1136.
Qiang Fang, Zhang Mingjun, Wang Shengjie, et al. Changes of areal precipitation based on gridded dataset in Qilian Mountains during 1961-2012[J]. Geographical Research, 2015, 70(7): 1125-1136. (in Chinese with English abstract)
[26] 刘建光,李红,孙丹峰,等. MODIS土地利用/覆被多时相多光谱决策树分类[J]. 农业工程学报,2010,26(10):312-318.
Liu Jianguang, Li Hong, Sun Danfeng, et al. Land use/cover decision tree classification fusing multi-temporal and multi- spectral of MODIS[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(10): 312-318. (in Chinese with English abstract)
[27] Zhang X, Sun R, Zhang B, et al. Land cover classification of the North China Plain using MODIS EVI time series[J]. ISPRS Journal of Photogrammetry & Remote Sensing, 2008, 63: 476-484.
[28] Gómez C, White J C, Wulder M A. Optical remotely sensed time series data for land cover classification: A review[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 116: 55-72.
[29] Yang X Y, Chen L G, Li Y K, et al. Rule-based land use/land cover classification in coastal areas using seasonal remote sensing imagery: A case study from Lianyungang City, China[J]. Environment Monitoring and Assessment, 2015, 187(7): 449.
[30] Andrade J, Cunha J, Silva J, et al. Evaluating single and multi-date Landsat classifications of land-cover in a seasonally dry tropical forest[J]. Remote Sensing Application: Society and Environment, 2021, 22: 100515.
[31] 葛洲. 永济灌域典型区土壤盐碱化时空分布控制因素研究[D]. 扬州:扬州大学,2020.
Ge Zhou. Study on Controlling Factors of Spatial-Temporal Distribution of Soil Salinization in Typical Area of Yongji Irrigation Area[D]. Yangzhou:Yangzhou University, 2020. (in Chinese with English abstract)
Classification of land use in Hetao Irrigation District of Inner Mongolia using feature optimal decision trees
Sun Yanan, Li Xianyue※, Shi Haibin, Cui Jiaqi, Ma Hongyu, Wang Weigang
(010018,)
Up-to-dateclassification of land use types has become a critical component in current strategies to manage natural resources and the regional environment. Alternatively, remote sensing has also been widely used over the past 20 years as an effective tool for spatial data acquisition, particularly for the sustainable management of natural resources and economical perspective to the land use and land cover changes. However, the land use classification using remote sensing is subjected to the characteristics of dispersion and fragmentation in the Hetao irrigation district of northwest China in recent years. This study aims to quantify the effects of duration and characteristic variables on the recognition accuracy of remote sensing for land use types. A decision-tree model was also established to classify the land use types using the integrated band reflectance, spectral index, and texture feature of different periods based on Landsat time-series image data. The model was finally verified by the measured data and Google Earth images from the quantitative structure and spatial layout. The specific procedure was as follows. Firstly, the characteristic variables were extracted from the Landsat time-series images of different periods, including the features of band, spectra, and texture. Principal Component Analysis (PCA) was selected to extract the feature factors. Only a few independent variables were selected from multiple variables or factors, aiming to fully reflect the information of more original indexes. Secondly, seven schemes were constructed using the characteristic factors, including three single-category schemes (Scheme 1 to 3), and four combined-category schemes (Scheme 4 to 7). Finally, a classification model of land use was constructed and then verified in different periods via the decision tree. The results showed that: 1) The highest repetition rate was found in the Green and Ent (entropy) with other factors in different months. The correlation between Normalized Differential Vegetation Index (NDVI) and Enhanced Vegetation Index (EVI) was much higher to be selected in future research. 2) The combined feature variables greatly improved the accuracy of classification, where the average overall accuracy and Kappa coefficient increased by 6.72% and 0.09, respectively, compared with the single feature variable. 3) There were some effects of different recognition periods on the accuracy of the model. The accuracy of the classification model in the band, spectral index, and texture feature using remote sensing images in August was better than that of other periods, where the misclassification was reduced on the spatial layout of unused and residential land. Specifically, the overall accuracy, Kappa coefficient, producer accuracy, and user accuracy were 80.23%, 0.74%, 80.95%, and 86.26%, respectively. Correspondingly, the best identification period was August in the study area, followed by September. 4) The optimal remote-sensing model was utilized to identify the agricultural land, forest, grassland, wasteland, water bodies, and build-up land under the optimal recognition period and combination, where the high accuracies were achieved: 96.83%, 73.33%, 70.00%, 65.52%, 100.00%, and 80.00%, respectively. In addition, the user accuracies were 76.62%, 100.00%, 82.35%, 82.61%, 100.00%, and 80.00%, respectively. In a word, the feature optimal decision-tree model under the optimal identification period significantly reduced the amount of data and the difficulty of model application, particularly suitable for the long-time and spatial changes of land use types. The finding can provide promising technical support to effectively improve the accuracy of land use classification in modern resource management.
land use; remote sensing; spectral features; texture features; optimal identification period; combination method; decision tree
孙亚楠,李仙岳,史海滨,等. 基于特征优选决策树模型的河套灌区土地利用分类[J]. 农业工程学报,2021,37(13):242-251.
10.11975/j.issn.1002-6819.2021.13.028 http://www.tcsae.org
Sun Yanan, Li Xianyue, Shi Haibin, et al. Classification of land use in Hetao Irrigation District of Inner Mongolia using feature optimal decision trees[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 242-251. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.028 http://www.tcsae.org
2021-04-08
2021-06-02
国家自然科学基金项目(51539005);内蒙古水利科技重大专项(NSK2017-M1);国家重点研发计划项目(2016YFC0400205)
孙亚楠,博士生,主要研究方向为干旱区农业遥感与应用。Email:995021096@qq.com
李仙岳,教授,博士生导师,主要研究方向为干旱节水灌溉及盐碱地改良。Email:lixianyue80@126.com
10.11975/j.issn.1002-6819.2021.13.028
S127
A
1002-6819(2021)-13-0242-10