APP下载

基于多源数据和Stacking-SHAP方法的山地丘陵区土地覆被分类

2022-03-10周亚男刘洪斌

农业工程学报 2022年23期
关键词:精度变量分类

周亚男,陈 绘,刘洪斌

基于多源数据和Stacking-SHAP方法的山地丘陵区土地覆被分类

周亚男1,2,陈 绘1,刘洪斌1,2※

(1. 西南大学资源环境学院,重庆 400716;2. 重庆市数字农业重点实验室,重庆 400716)

山地丘陵区地形复杂,地表辐射信号畸变严重,地物识别困难。为准确提取山区地物信息,结合多源异构数据,Stacking 集成学习和shapley addictive explanation(SHAP)方法展开土地覆被分类研究。从Sentinel-1/2影像、气候数据、土壤数据和数字高程图中提取遥感、气候、土壤和地形四类特征变量,设计多种变量组合方案,结合Stacking算法,探讨不同类型变量在山区地物识别中的效用,并对比Stacking最佳方案与支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和极端梯度回归(eXtreme Gradient Boosting,XGBoost)算法的分类精度,评价Stacking方法在山区地物信息提取中的性能。同时,引入SHAP方法,量化Stacking模型中各特征变量的重要性。结果表明:在仅以遥感变量为基础方案时,山区土地覆被分类精度最低;在分别加入气候、土壤和地形变量后,总体精度、Kappa系数和F1分数均有所提高,其中旱地、水田和园地分类精度的提升幅度较大。基于Stacking算法结合所有类型特征变量的方案达到了最佳的分类精度,其总体精度、Kappa系数和F1分数分别为96.61%、0.96和94.81%,分类精度优于相同特征下的SVM、 RF和XGBoost。SHAP方法可量化Stacking模型中特征变量的全局以及局部重要性,明确各变量对不同地物类型识别的相对贡献,为山区土地覆被分类的变量选择及优化提供有价值的信息。该研究可为机器学习协助复杂景观地区土地覆被制图研究提供技术支持和理论参考。

遥感;多源数据;土地覆被分类;Stacking算法;SHAP方法;山地丘陵区

0 引 言

土地覆被是地球陆地表层最突出的景观标志,其时空变化直接影响地表能量平衡、生态系统功能和生物地球化学循环[1]。在全球环境变化和模拟研究中,高质量的土地覆被产品往往也是地球系统模型的关键输入参数[2],具有重要价值。准确及时地获取土地覆被信息有助于为区域环境的高效决策和管理提供基础数据集,对社会可持续发展具有重大意义。

近年来,遥感技术因覆盖范围广、效率高、受地形限制小等优势在土地覆被分类中发挥着重要作用。学者多利用光学遥感产品,基于影像的光谱特征差异展开相关研究[1-4]。其中,Sentinel-2、Landsat-8等新型多光谱卫星产品被广泛使用[3-5]。它们获取成本低廉,时空分辨率高,光谱特征丰富,在平原农耕区、高寒湿地、中南半岛等不同地域的土地覆被分类制图中均有出色的表现[3-5]。同时,合成孔径雷达(Synthetic Aperture Radar,SAR)也被逐步应用,它不受云雨天气限制,可全天候昼夜成像,弥补了光学影像的不足。其后向散射系数对地物的介电特性敏感,对于植被冠层结构、土壤含水率及地表的粗糙度有不同的响应,可以提供不同于光学影像的独特信息[6]。光学与雷达遥感数据的联合使用已在不同尺度的地物识别中显示出了巨大的潜能[6 -9]。然而,在山地丘陵区,地势崎岖,地块破碎,地物光谱特征变异复杂,地表信号辐射畸变严重,仅依赖于遥感数据进行地物识别,分类精度难以保证。需要结合多样的环境辅助数据,以增大地物类别的可分性。Wang等[10]在热带山区提取地物信息时,在光学、雷达遥感变量的基础之上添加高程、坡度等地形参数,有效减少了自然植被和栽培作物之间的错分。Grabska等[11]结合Sentinel-1/2卫星影像和数字高程图(Digital Elevation Map,DEM)在波兰喀尔巴阡山脉进行林分物种制图,发现地形因子的引入显著提高了制图精度。现有的研究多在遥感影像基础之上辅以地形数据提取山区地物信息[10-13]。实际上,除了地形变量外,与自然环境相关的土壤、气候等因素被考虑时,分类结果可能会更可靠,因为它们同样影响和决定土地利用和土地覆被[14]。协同使用这些多源异构数据,可能会优势互补,进一步提高山区地物识别精度,但是相关的研究相对匮乏。

随着计算机技术的发展,先进的机器学习算法也已被广泛使用在图像分类领域。该类算法突破了传统分析方法的固有限制,能够从数据迭代中捕获变量之间高阶的非线性关系,避免了潜在信息的遗漏[13-15]。其中,随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)和极端梯度提升(eXtreme Gradient Boosting,XGBoost)因分类精度高、泛化性能出众以及抗过拟合能力强而受到青睐[4,9,16]。同时,Stacking集成学习也受到了广泛关注。它通过堆叠泛化的策略将多个机器学习分类器进行组合,综合各单一分类器的优势,具有更稳健的预测准确性。该方法已被成功应用在生物识别[17]、地价模拟[18]和土壤养分预测[19]等领域。但该算法在地物分类中的应用非常有限,对山区地物信息提取的适用性亟需进一步探索。

此外,在土地覆被分类领域使用Stacking集成学习的一个局限在于,由于算法固有的“黑盒”特性,无法量化模型中特征变量的重要性,以评估各变量在地物识别中的相对贡献。Lundberg等[20]所提出的SHapley Addictive exPlanation(SHAP)方法弥补了上述不足。该方法作为当前广受关注的机器学习模型事后解释工具[20-22],通过比较变量存在或不存在情况下模型输出的平均变化来阐明变量的重要性,其数学基础严密,满足局部准确性、缺失性和一致性原则[20-22]。结合SHAP方法不仅能清楚量化复杂的机器学习模型中特征变量的全局重要性,以明确影响覆被分类的关键因素,更好服务于制图决策;还可以评估特征变量对各种单一地物类型识别的局部贡献,为山区地物信息提取在变量选择及优化上提供更多参考信息。尽管如此,该方法目前尚未被纳入土地覆被分类框架中。

综上,本文以重庆市黔江区为例,结合多源异构数据(Sentinel-1/2卫星影像、DEM、土壤和气候数据)和Stacking集成算法在山地丘陵区进行土地覆被制图。设计多种分类方案,分析不同类型特征变量对分类结果的影响,并基于最佳方案,通过与RF、SVM和XGBoost单一分类器的分类结果对比,评估Stacking方法在山区地物信息提取的有效性。同时,引入SHAP方法量化Stacking模型中特征变量的重要性,明确各变量在地物识别中的全局及局部贡献。

1 材料和研究方法

1.1 研究区概况

重庆市黔江区地处四川盆地东南边陲(图1),地理坐标为108°28′E~108°56′E,29°04′N~29°52′N,总面积约为2 402 km2。境内海拔为320~1 900 m,地貌类型是山地和丘陵,主要以中山为主,地形复杂,地块小而破碎。该地区属于亚热带季风气候,四季分明。年均温为15.4 ℃,年均降雨量为1 000~1 400 mm,无霜期长274 d。

1.2 数据来源与预处理

1.2.1 分类体系划分和样本数据选取

参照《全国遥感监测土地利用/覆盖分类体系》,并根据研究区实际情况,将土地覆被类型在一级类上划分为耕地、林地、水域、建设用地、园地。考虑到Sentinel-2卫星影像较高的空间分辨率,进一步将耕地细分为旱地和水田。本研究于2017年9月期间利用手持GPS通过野外采样获取部分土地覆被类型样点。同时结合第三次国土调查的1:10 000土地利用现状图进行样本扩充。为了保证样点的精确性,通过对同期Google Earth高分辨率影像进行目视解译,剔除异常点,最终获取样本点7 485个。其中,大约70%的样本被随机划分为训练集,30% 的为测试集(表1)。

图1 研究区地理位置和Sentinel-2影像

表1 各土地覆被类型样本数量

1.2.2 遥感数据及预处理

由于研究区常年的云雨天气,质量良好的光谱数据较难获得。同时考虑到影像获取时间应该接近采样时间,因此下载了质量良好(云量<10%)的2017年7月10日的Sentinel-2A L1C级产品和2017年7月8日Sentinel-1 IW GRDH 产品。

利用欧空局(European Space Agency,ESA)提供的Sencor2插件对Sentinel-2A L1C产品进行大气校正,转换为大气底层发射数据(L2A)。剔除60 m分辨率的光谱波段,并利用双线性重采样法,将20 m分辨率的波段重采样为10 m。Sentinel-1 IW GRDH产品包括VV、VH两种极化方式,空间分辨率为10 m。利用SNAP软件对该产品进行预处理,包括轨道校正、热噪声去除、辐射定标、滤波和地形校正。最终,获得VV和VH方向的后向散射系数图像。

1.2.3 环境辅助数据及预处理

用于当前研究的环境辅助数据包括地形、土壤和气候数据。地形数据是空间分辨率为30 m的SRTM-DEM数据,从美国地质勘探局(United States Geological Survey,USGS)下载获得。土壤数据主要包括2017年黔江区全域的土壤养分(pH值、有机碳、全氮、速效钾和有效磷)分布图和中国土壤黏粒含量分布图。其中,土壤养分分布图的空间分辨率为10 m,从黔江区农业农村委员会获得;黏粒含量分布图空间分辨率为1 km,该数据由Shang等[23]提供。气候数据使用全球数据库World Clim 1.4版本(www.worldclim.org),空间分辨率为1 km。为了和Sentinel-1/2影像匹配,利用ArcGIS 10.6软件中的最近邻法将这些数据统一转换成10 m分辨率的栅格图层(UTM WGS84 Zone 49 N 投影系统)。

1.3 研究方法

研究流程具体如下:从多源数据中提取不同的特征变量,结合方差膨胀系数(Variance Inflation Factor,VIF)和Boruta方法进行变量优选,简化统计问题。基于优选的特征变量,构建不同的特征变量组合方案,并利用SMOTE(Synthetic Minority Oversampling Technique)算法平衡样本数据后,结合Stacking集成学习进行分类,筛选出最佳分类组合。基于最佳的方案,通过与RF、SVM、XGBoost分类结果对比,评估Stacking方法在山区地物信息提取的性能。同时,引入 SHAP 方法,量化Stacking模型中各个特征变量的重要性。

1.3.1 变量选取、优化及试验方案构建

研究发现[10-11],在传统遥感变量的基础上添加环境辅助因子,可提高复杂地形区土地覆被分类的精度。因此,本研究考虑了更多可用的环境辅助数据(DEM,气候和土壤数据),并结合光学、雷达影像,从中提取多个光谱波段、植被水体指数、地形因子、土壤与气候参数构建原始变量集合。为降低模型复杂度,使用Boruta算法和多重共线性分析对原始变量进行降维,剔除无关和冗余信息。Boruta算法通过与目标函数的关系重要性,保留重要的变量集合[24]。多重共线性分析方法可以剔除高度相关的变量。本研究首先利用python 3.6.10调用Boruta 算法进行变量筛选,之后在SPSS v 25.0软件中计算被保留的特征变量的方差膨胀系数,进一步剔除系数大于10的变量,构建优选变量子集(表2)。基于优选变量子集构建5种试验方案:方案1仅使用遥感变量,方案2、3、4在方案1的基础上分别增加气候、地形和土壤3种不同的环境辅助变量,方案5包含全部变量。通过比较不同方案分类精度,以探索不同类型环境辅助变量的效用(表3)。

1.3.2 SMOTE算法

数据集中不同类别的样本比例不均衡往往会影响模型性能,因此引入SMOTE(Synthetic Minority Oversampling Technique)方法平衡数据集。该方法通过在变量空间中对少数类别执行过采样,模拟出新的样本以平衡数据集[25-26],现已成功解决不同领域的数据不平衡问题[25-26]。在本次研究中,使用python 3.6.10 中的Borderline-SMOTE算法将不平衡的训练数据集转化为平衡数据集。以进行后续的模型训练。表4展示了原始数据集和转换后的平衡数据集。

表2 优选变量集描述

表3 方案设计

表4 SMOTE过采样前后不同覆被类型的样点的数量

1.3.3 建模方法

Stacking方法是基于堆叠泛化策略和K折交叉验证的一种集成算法,通过将多个机器学习算法的预测值加权组合来提高预测性能[19]。该方法融合了各个单一机器学习方法的优势,在分类和回归问题中显示出了更高的预测精度和更稳健的泛化能力。其学习框架有两层,第一层被称作基学习器,第二层被称作元学习器。其中,基学习器性能好坏往往决定着Stacking模型的最终效果。考虑到RF对噪声和异常值不敏感,对高维数据具有良好的可扩展性[13];SVM有着成熟的理论基础,泛化错误率低[27];XGBoost处理数据高效,抗过拟合能力强[28],且上述这3种算法已被广泛地应用于不同学科的回归和分类任务[13,16,27],因此被作为本研究中Stacking模型的基学习器,Logistic回归被选择作为元学习器。

Stacking集成学习的构架如下:1)将训练集划分为10份;2)利用十折交叉验证的方法分别训练RF、SVM和XGBoost这3个基分类器;3)堆叠十折交叉验证过程中上述3个基学习器的折叠外(out-of-fold)预测值;4)将堆叠的预测值作为元分类器的输入,并拟合元分类器以获得RF、SVM和XGBoos这3个基学习器的权重系数;5)利用测试集对构建的模型进行评估。

1.3.4 模型构建与评价

基于划分的训练集,利用格网搜索和交叉验证的方法确定模型超参数,结果如表5。独立测试集被用于评价模型的性能。精度评估指标包括总体精度(Overall Accuracy,OA)、Kappa系数、F1分数(F1-score)、用户精度(User’s Accuracy,UA)和生产者精度(Producer’s Accuracy,PA)[28-29]。总体精度,Kappa系数和F1分数用于评价模型的整体性能;用户精度和生产者精度用于评价单个覆被类别的分类精度。Kappa系数度量的是模型的分类结果与真实结果的一致程度,取值在−1~1之间,越接近1,两者越一致。

模型构建、参数寻优以及精度指标计算均使用 python 3.6.10 完成。

表5 参数寻优结果

1.3.5 SHAP方法

由Lundberg和Lee于2017年提出的SHAP方法,为所有复杂的机器学习模型提供了统一的解释框架[20]。该方法基于博弈论通过计算Shapley值量化每个输入的特征变量对于单个样本预测的边际贡献,相关公式如下:

该方法侧重于从单个样本预测出发,其不仅能够评估特征变量的全局重要性还能够量化其局部重要性,从而为模型解释提供更多的细节。本文利用python 3.6.10调用SHAP包量化Stacking模型中各特征变量的重要性。

2 结果与分析

2.1 土地覆被分类方案比较

基于优选的特征变量,结合SMOTE方法平衡训练数据集后以进行模型的构建。表6展示了数据集被平衡前后不同试验方案的分类结果。可以看出,在数据集被平衡前后,这些试验方案的土地覆被分类精度呈现出一致的趋势:仅使用遥感变量(方案1)进行地物识别的精度最低;在遥感变量的基础之上,分别添加气候(方案2)、地形(方案3)和土壤(方案4)变量后,总体精度、Kappa系数和F1分数均有所提高。其中,加入土壤变量后精度提升最大;基于全部特征变量的方案6取得了最佳的分类结果。这证实了不同类型环境辅助变量的加入都对遥感数据进行了有效的补充,提供了异于遥感变量的独特解释力,从而提高了山地丘陵区土地覆被制图精度。此外,对比数据集被平衡前后同一种方案下的各评估指标,可以发现SMOTE方法的使用能够显著提升模型性能。被平衡后模型的总体精度、Kappa系数和F1分数相较于被平衡前,其平均增幅分别为4.22%、0.05和8.77%。因此,下文基于SMOTE采样后的结果进行分析。

表6 SMOTE采样前后不同试验方案的分类精度比较

不同试验方案中各个地物类型的分类详情如图2所示。其中,所有的试验方案都实现了对林地、建设用地和水域的准确提取,其生产者精度和用户精度均在96%以上。由于这3种地物类型的光谱反射特性差异大,仅使用遥感变量就足以离散和区别;在此基础上,其他类型的特征变量的加入都无法明显提高这些地物相应的分类精度,反而会因信息的冗余,导致精度的降低。而在这些不同的试验方案中,旱地,水田和园地的分类精度存在明显差异:方案1中,这3类地物的分类准确性最低,其生产者精度和用户精度分别为78.83%和87.83%,72.22%和66.1%,93.94%和85.06%。与方案1相比,方案2、3、4在依次增加气候、地形和土壤变量后,旱地的生产者精度和用户精度分别提升了3.16和1.58(方案2)、6.8和2.44(方案3)、9.71和4.57(方案4)个百分点;水田分别提升了3.7和1.11、3.71和9.13、9.26和14.63个百分点,园地分别提高了4.04和6.45、2.69和4.91、4.72和9.15个百分点。可见,这些环境辅助变量的加入有效地提高了旱地、水田和园地这些农用地类的分类精度。研究区处于南方山地丘陵地带,具有高度异质性的格局,辐射信号畸变严重,境内不同类型农用地交错分布,像元混杂;同时,农用地栽培作物的“同物异谱,异物同谱”现象突出[16],仅依赖于遥感数据难以提供足够的信息。因此,在方案1中,这些农用地类间错分严重。加入地形,气候和土壤等相关因素后,错分情况显著减少。这主要是因为地形、气候和土壤等自然环境要素会影响人类活动,进而决定土地利用方式和土地覆被类型。具体而言,对于不同类型的农作物耕种,通常会综合考量地形地势条件、气候适宜度和土壤功能性属性(土壤质地和养分)等以进行农业区划,这在一定程度上决定了不同类型农用地的空间分布。

现有的山区土地利用分类更多侧重于使用光学、雷达遥感数据或者结合地形辅助数据[12-14],本研究考虑了更多环境辅助数据的可用性,证实了不同类型环境辅助变量在山区地物信息提取的效用,与以往研究[15-17](总体精度<92%, Kappa系数<0.90)相比进一步提高了山区土地覆被分类精度[12-14],这为复杂地区地物识别在数据选择上提供了借鉴。

图2 不同试验方案中各土地覆被类型的分类精度

2.2 土地覆被分类算法对比

为评估Stacking模型在山区地物信息提取中的适用性,将最佳的分类方案与RF、SVM和XGBoost这些单一的基学习器分类结果进行对比,结果如表7所示。其中,Stacking算法的分类精度最高,总体精度为96.61%,Kappa系数为0.96,F1分数为94.81%,其次依次为XGBoost、SVM和RF。与基学习器相比,Stacking集成算法的总体精度、Kappa系数和F1分数分别提高了1.24~2.57个百分点、0.02~0.03和1.3~3.36个百分点。这与Fu等[30]和Long等[31]的研究结果一致,他们在利用遥感图像分别对湿地和红树林物种进行分类时,同样发现Stacking集成算法可提供较单一基分类器更准确的精度。表7中的混淆矩阵还揭示了各种分类算法识别不同地物类型的详细情况。由矩阵对角线上被正确划分的各地物样点数量可知,不同分类算法在提取各单一地物类型信息的能力不同:RF识别建设用地的能力比较显著,SVM在旱地信息提取上具有优势,XGBoost识别水田和林地的能力更为突出,这3种不同的单一基分类器在山区地物信息提取中有着各自独特的优劣势。而Stacking算法则综合集成了RF、SVM和XGBoost这3种基学习器的优势,对它们的分类结果进行加权组合,在各种类型地物识别中均表现出最佳性能,因而准确性最高。

表7 基于最佳方案的不同算法的混淆矩阵

土地覆被分类图直观地展示了不同算法的分类结果(图3a)。从目视效果看,水域多分布于东部地区,建设用地集中在东北部,林地则广泛分布在整个区域内,这3种地物类型在各种算法中呈现出一致的空间分布格局,相应的图斑边界分明,分布连续,较为规整平滑。而区内旱地、水田和园地这些农用地混合分布于林地内,地块面积较小,地物图斑分布较为破碎,相应的分类结果在不同算法中也不一致。结合局部分类图(图3b)和不同算法分类结果中地物类型占比情况(表7)可以发现,3种基学习器对旱地信息提取不完整,同时会高估水田、园地的面积分布。Stacking算法则能够兼顾局部纹理细节,与3种基学习器相比,相应的旱地、水田和园地生产者精度分别平均提高了6.88,2.47和0.6个百分点,用户精度分别平均提高了1.1,6.58和3.15个百分点,该算法实现了山区土地覆被精细分类的最佳结果。

土地利用/覆被分类研究受益于建模方法。以往的研究大都基于单一分类器的性能对比,以选择最佳的建模方法。当前研究则利用Stacking集成算法结合多种机器学习方法进行分类,产生了比单一分类器更准确和稳健的结果。不过,Taghizadeh-Mehrjar等[32]强调道,只有当来自基学习器的预测值相关性较低时,Stacking模型才能获得较大的改进,因此未来的研究将会尝试纳入更多样化的算法以进一步提升Stacking性能。

2.3 特征变量重要性分析

基于最佳试验方案,利用SHAP方法量化了Stacking模型中各特征变量在地物识别中的重要性。如图4所示,按照全局重要性,排名靠前的特征变量的相对重要性分数依次为NDVI(100%)、MCARI(77%)、MNDWI(69%)。然而,这些特征变量并非在每种地物识别中都具有显著贡献。图4还展示了单个地物类型识别中变量重要性排序:对于旱地而言,排名靠前的特征变量的相对重要性分数依次为NDVI(100%)、B5(76%)、MCARI(70%);对于水田依次为NDVI(100%)、MCARI(81%)、B5(65%);对于林地为NDVI(100%)、B2(76%)、Slope(36%),对于建设用地是NDVI(100%)、MCARI(82%)、IRECI(65%),对于园地是B5(100%)、NDVI(97%)、K(74%),对于水域则为MNDWI(100%)、MCARI(43%)、B5(31%)。

图3 不同算法的土地覆被分类图

图4 基于SHAP方法的特征变量重要性排序

综合全局和局部重要性对特征变量进行分析可知,NDVI是研究区土地覆被分类最关键的变量,它在旱地、水田、建设用地、林地和园地多种地物识别中重要性排名均位于前列。所选影像时相为夏季,栽培作物和自然植被此时生长茂盛,同时研究区内森林覆盖率极高。NDVI作为反映植被生长状态和植被分布密度最佳的指数因子[3],提取了大范围内不同类型的作物和植被信息,因此在各种农用地类型和林地识别中重要性显著。同时,建设用地偏裸地特性,植被覆盖率低,NDVI能有效地将它与植被覆盖度高的其他地类区分。红边因子MCARI重要程度仅次于NDVI,主要贡献体现在不同类型农用地的信息提取。“红边”是位于电磁波谱红色和近红外之间的光谱域,受到植被体内叶绿素的吸收作用,在此范围内植被反射率会急剧上升,该特征可有效区别植被和非植被[33]。Shendryk 等[33]在利用Sentinel-2进行植被类型识别时,发现红边波段及其衍生的植被指数在描绘图像中线性和小尺寸元素方面具有优势,证实了红边因子在区分植被类间的效用。因此,红边因子有利于种植着不同栽培作物农用地(水田、旱地和园地)的类间区分。MNDWI在全局重要性中排名第三,在水域的识别中起着主导作用。该指数可以有效抑制甚至消除建设用地,植被和土壤的噪声,从而增强开放性的水体特征[34]。此外,虽然坡度(Slope)和土壤速效钾含量(K)在全局重要性中排名并不靠前,但二者分别对林地、园地的提取有着一定贡献。SHAP方法针对多分类问题,会计算每个特征对于不同地类的重要性,因此,与以往研究中仅局限于评估特征变量的全局重要性所不同,特征变量对于各单一地类识别的局部贡献也被量化,这可进一步明确各变量具体是通过影响哪类地物信息提取进而影响最终分类结果,这为覆被分类制图在今后的变量选择和优化上提供了更多有价值的信息。

3 结 论

本研究以重庆市黔江区为例,从Sentinel-1/2影像、土壤、气候数据和DEM中提取不同的特征变量,设计多种特征组合方案,探究不同类型特征变量在山地信息提取的效用。同时,基于最佳方案,将Stacking与RF、 SVM和 XGBoost分类结果进行对比,评估Stacking方法在山区地物信息提取中的性能。引入SHAP方法,明确量化了Stacking模型中各个特征变量的重要性。结果表明:

1)与仅使用遥感变量相比,加入气候、地形和土壤变量可以有效提高山区土地覆被分类的精度,其中,农用地地类的分类精度提升幅度较大,加入气候、地形和土壤变量后,旱地的生产者精度和用户精度分别提升了3.16和1.58、6.8和2.44、9.71和4.57个百分点;水田分别提升了3.7和1.11、3.71和9.13、9.26和14.63个百分点;园地分别提高了4.04和6.45、2.69和4.91、4.72和9.15个百分点;

2)Stacking算法与优选的所有类型变量结合可实现山区地物最佳的分类结果,其总体精度,Kappa系数和F1分数分别为96.61%、0.96和94.81%。与RF、 SVM和 XGBoost单一的基学习器相比,其总体精度、Kappa系数和F1分数分别提高了1.24~2.57个百分点、0.02~0.03和1.3~3.36个百分点。

3)SHAP方法可量化Stacking模型中各特征变量的全局及局部重要性,明确了各变量在不同类型地物识别中的相对贡献,为山区覆被分类制图在特征选择和优化上提供了有价值的信息。

[1] Verde N, Kokkoris I, Georgiadis C, et al. National scale land cover classification for ecosystem services mapping and assessment using multitemporal copernicus EO data and google earth engine[J]. Remote Sensing, 2020, 12(20): 3303.

[2] Liu H, Gong P, Wang J, et al. Production of global daily seamless data cubes and quantification of global land cover change from 1985 to 2020 - iMap World 1.0[J]. Remote Sensing of Environment, 2021, 258:112364.

[3] 何云,黄翀,李贺,等. 基于Sentinel-2A影像特征优选的随机森林土地覆盖分类[J]. 资源科学,2019,41(5):992-1001.

He Yun, Huang Chong, Li He, et al. Land-cover classification of random forest based on Sentinel-2A image feature optimization [J]. Resources Science, 2019, 41(5): 992-1001. (in Chinese with English abstract)

[4] 侯蒙京,殷建鹏,葛静,等. 基于随机森林的高寒湿地地区土地覆盖遥感分类方法[J]. 农业机械学报,2020,51(7):220-227.

Hou Mengjing, Yin Jianpeng, Ge Jing, et al. Land cover remote sensing classification method of alpine wetland region based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(7): 220-227. (in Chinese with English abstract)

[5] 王李娟,孔钰如,杨小冬,等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报,2020,36(4):244-250.

Wang Lijuan, Kong Yuru, Yang Xiaodong, et al. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 244-250. (in Chinese with English abstract)

[6] 宁晓刚,常文涛,王浩,等. 联合 GEE 与多源遥感数据的黑龙江流域沼泽湿地信息提取[J]. 遥感学报,2022,26(2):386-396.

Ning Xiaogang, Chang Wentao, Wang Hao, et al. Extraction of marsh wetland in Heilongjiang Basin based on GEE and multi-source remote sensing data[J]. National Remote Sensing Bulletin, 2022, 26(2): 386-396. (in Chinese with English abstract)

[7] Kpienbaareh D, Sun X, Wang J, et al. Crop type and land cover mapping in northern Malawi using the integration of Sentinel-1, Sentinel-2, and Planetscope satellite data[J]. Remote Sensing, 2021, 13(4): 700.

[8] 姚金玺,王浪,李建忠,等. 青海诺木洪地区多源遥感及多特征组合地物分类[J]. 农业工程学报,2022,38(3):247-256.

Yao Jinxi, Wang Lang, Li Jianzhong, et al. Multi-source remote sensing and multi-feature combination ground object classification in Nuomuhong areas,Qinghai Province of China[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 247-256. (in Chinese with English abstract)

[9] 翟鹏飞,李世华,胡月明. 协同光学与雷达遥感数据的面向对象土地覆盖变化检测[J]. 农业工程学报,2021,37(23):216-224.

Zhai Pengfei, Li Shihua, Hu Yueming. Object-oriented land cover change detection combining optical and radar remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(23): 216-224. (in Chinese with English abstract)

[10] Wang Y, Feng C, Duc H, et al. C. Feng, H. Vu Duc Integrating multi sensor remote sensing data for land use/cover mapping in a tropical mountainous area in Northern Thailand[J]. Geographical Research, 2012, 50(3): 320-331.

[11] Grabska E, Frantz D, Ostapowicz K. Evaluation of machine learning algorithms for forest stand species mapping using Sentinel-2 imagery and environmental data in the Polish Carpathians[J]. Remote Sensing of Environment, 2020, 251: 112103.

[12] 郭逸飞,吴田军,骆剑承,等. 基于不确定性迭代优化的山地植被遥感制图[J]. 地球信息科学学报,2022,24(7):1406-1419.

Guo Yifei, Wu Tianjun, Luo Jiancheng, et al. Remote sensing mapping of mountain vegetation via uncertainty-based iterative optimization[J]. Journal of Geo-information Science, 2022, 24(7):1406-1419. (in Chinese with English abstract)

[13] 李恒凯,王利娟,肖松松. 基于多源数据的南方丘陵山地土地利用随机森林分类[J]. 农业工程学报,2021,37(7):244-251.

Li Hengkai, Wang Lijuan, Xiao Songsong. Random forest classification of land use in hilly and mountain areas of southern China using multi-source remote sensing data [J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(7): 244-251. (in Chinese with English abstract)

[14] Zeferino L B, Souza L, Amaral C, et al. Does environmental data increase the accuracy of land use and land cover classification?[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 91: 102128.

[15] Zhang L, Wang Y, Niu M, et al. Machine learning for characterizing risk of type 2 diabetes mellitus in a rural Chinese population: The Henan Rural Cohort Study[J]. Scientific Reports, 2020, 10(1): 1-10.

[16] Georganos S, Grippa T, Vanhuysse S, et al. Very high resolution object-based land use–land cover urban classification using extreme gradient boosting[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(4): 607-611.

[17] Biswas D, Everson L, Liu M, et al. CorNET: Deep learning framework for PPG-based heart rate estimation and biometric identification in ambulant environment[J]. IEEE Transactions on Biomedical Circuits and Systems, 2019, 13(2): 282-291.

[18] 张鹏,胡守庚,杨剩富,等. 基于多源数据和集成学习的城市住宅地价分布模拟:以武汉市为例[J]. 地理科学进展,2021,40(10):1664-1677.

Zhang Peng, Hu Shougeng, Yang Shengfu, et al. Modeling urban residential land price distribution using multi-source data and ensemble learning: A case of Wuhan City[J]. Progress in Geography, 2021, 40(10): 1664-1677. (in Chinese with English abstract)

[19] Taghizadeh-Mehrjardi R, Hamzehpour N, Hassanzadeh M, et al. Enhancing the accuracy of machine learning models using the super learner technique in digital soil mapping[J]. Geoderma, 2021, 399: 115108.

[20] Lundberg S, Lee S. A unified approach to interpreting model predictions[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA:ACM digital library, 2017.

[21] Stojić A, Stanić N, Vuković G, et al. Explainable extreme gradient boosting tree-based prediction of toluene, ethylbenzene and xylene wet deposition[J]. Science of the Total Environment, 2019, 653: 140-147.

[22] 周挺,杨军,詹祥澎,等. 一种数据驱动的暂态电压稳定评估方法及其可解释性研究[J]. 电网技术,2021,45(11):4416-4425.

Zhou Ting, Yang Jun, Zhan Xiangpeng, et al. Data-driven Method and Interpretability Analysis for Transient Voltage Stability Assessment[J]. Power System Technology, 2021, 45(11): 4416-4425. (in Chinese with English abstract)

[23] Shang W, Dai Y, Liu B, et al. A soil particle-size distribution dataset for regional land and climate modelling in China[J]. Geoderma, 2012, 171: 85-91.

[24] Zeraatpisheh M, Garosi Y, Owliaie H, et al. Improving the spatial prediction of soil organic carbon using environmental covariates selection: A comparison of a group of environmental covariates[J]. Catena, 2022, 208:105723.

[25] Elreedy D, Atiya A. A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) for handling class imbalance[J]. Information Sciences, 2019, 505: 32-64.

[26] Taghizadeh-Mehrjardi R, Schmidt K, Eftekhari K, et al. Synthetic resampling strategies and machine learning for digital soil mapping in Iran[J]. European Journal of Soil Science, 2020, 71(3): 352-368.

[27] 张天亮,张东兴,崔涛,等. 基于叶片光谱特性的玉米品种抗倒伏性预测[J]. 农业工程学报,2022,38(1):178-185.

Zhang Tianliang, Zhang Dongxing, Cui Tao, et al. Predicting lodging resistance of maize varieties using leaf hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 178-185. (in Chinese with English abstract)

[28] 刘通,任鸿瑞. GEE平台下利用物候特征进行面向对象的水稻种植分布提取[J]. 农业工程学报,2022,38(12):189-196.

Liu Tong, Ren Hongrui. Object-oriented extraction of paddy rice planting areas using phenological features from the GEE platform[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(12): 189-196. (in Chinese with English abstract)

[29] Solórzano J V, Mas J F, Gao Y, et al. Land use land cover classification with U-Net: advantages of combining Sentinel-1 and Sentinel-2 imagery[J]. Remote Sensing, 2021, 13(18): 3600.

[30] Fu B L, He X, Yao H, et al. Comparison of RFE-DL and stacking ensemble learning algorithms for classifying mangrove species on UAV multispectral images[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 112: 102890.

[31] Long X R, Li X Y, Lin H, et al. Mapping the vegetation distribution and dynamics of a wetland using adaptive-stacking and Google Earth Engine based on multi-source remote sensing data[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 102: 102453.

[32] Taghizadeh-Mehrjardi R, Schmidt K, Amirian-Chakan A, et al. Improving the spatial prediction of soil organic carbon content in two contrasting climatic regions by stacking machine learning models and rescanning covariate space[J]. Remote Sensing, 2020, 12(7): 1095.

[33] Shendryk Y, Rist Y, Ticehurst C, et al. Deep learning for multi-modal classification of cloud, shadow and land cover scenes in PlanetScope and Sentinel-2 imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 157: 124-136.

[34] Phan T N, Kuch V, Lehnert L W. Land cover classification using google earth engine and random forest classifier—the role of image composition[J]. Remote Sensing, 2020, 12(15): 2411.

Land cover classification in hilly and mountainous areas using multi-source data and Stacking-SHAP technique

Zhou Yanan1,2, Chen Hui1, Liu Hongbin1,2※

(1.,,400716,; 2.,400716,)

An accurate classification of land cover can greatly contribute to the basic dataset for regional ecological protection and environmental management. Remote sensing (RS) images are commonly used as the main data source for the extraction of land cover at present. However, there is a complex landscape, broken distribution of ground objects, frequent cloud cover, as well as serious radiometric distortion in the hilly and mountainous areas. Thus, it is difficult to accurately gain the distribution information of ground objects only by satellite images. Fortunately, the collaborative application of multi-source heterogeneous data can be expected to bridge the deficiency of a single data source, in order to accumulate more valuable information for the separability of ground objects. Great prospects can be realized to extract the land cover in areas with the complex surface landscape. In addition, the stacking algorithm with advanced machine learning can present superior and robust predictive performance in recent classification tasks. Therefore, the purpose of the current study is to explore the effectiveness of the multi-source heterogeneous data and stacking algorithm on land cover classification in hilly and mountainous areas. The study area was taken as the Qian Jiang District in Chongqing Province of China. Specifically, the various feature variables were extracted from the multi-source heterogeneous data, including the Sentinel-1/2 images, Digital Elevation Model (DEM), soil and climate data. Boruta method and Variance Inflation Factor (VIF) were applied to eliminate the redundant feature for the simple statistics. Then, five schemes with different inputs were created using the subset of the optimized variables, including the purely RS variables, RS variables plus climate factors, RS variables plus terrain parameters, RS variables plus soil parameters, and all variables. A stacking algorithm was also used to construct the classification model for the impacts of different types of variables on the classification accuracy of land cover. Meanwhile, the best classification using the stacking algorithm was compared with the Support Vector Machine (SVM), Random Forest (RF), and extreme gradient boosting (XGBoost). Additionally, a novel shapley addictive explanation (SHAP) was introduced to quantify the importance of variables in the model. The results showed that the overall accuracy, Kappa coefficient, and F1-score were significantly improved after the introduction of the climate, soil, and terrain variables. By contrast, the lowest classification accuracy of land cover was found in the model only using remote sensing variables. Among them, the soil variables contributed the most improvement, followed by the terrain, and climate variables. The classification accuracy of agricultural land types (dry farmland, paddy field, and orchard) was greater than that of the rest. The best classification accuracy was achieved in the experimental scheme with all feature variables, indicating an overall accuracy of 96.61%, Kappa of 0.96, and F1-score of 94.81%. The classification accuracy of the improved was higher than that of the SVM, RF, and XGBoost under the same variables. The SHAP technique can be expected to quantify and evaluate the global importance of each variable, indicating that the traditional vegetation and water spectral indicators were the most important feature variables. Besides, the local contribution of each variable for each land cover type can provide more value to optimize the parameters for the extraction of object information in hilly and mountainous areas. This finding can offer technical support and theoretical reference for land cover mapping in complex landscape areas.

remote sensing; multi-source data; land cover classification; Stacking algorithm; SHAP technique; hilly and mountainous areas

10.11975/j.issn.1002-6819.2022.23.023

P237

A

1002-6819(2022)-23-0213-10

周亚男,陈绘,刘洪斌. 基于多源数据和Stacking-SHAP方法的山地丘陵区土地覆被分类[J]. 农业工程学报,2022,38(23):213-222.doi:10.11975/j.issn.1002-6819.2022.23.023 http://www.tcsae.org

Zhou Yanan, Chen Hui, Liu Hongbin. Land cover classification in hilly and mountainous areas using multi-source data and Stacking-SHAP technique[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 213-222. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.023 http://www.tcsae.org

2022-07-28

2022-10-21

中央高校基本科研业务费专项(XDJK2016D041)

周亚男,研究方向主要为土地信息系统。Email:zyn1999@email.swu.edu.cn

刘洪斌,博士、研究员,博士生导师。研究方向主要为GIS、遥感和土壤-景观关系。Email:swuagis@163.com

猜你喜欢

精度变量分类
热连轧机组粗轧机精度控制
分类算一算
抓住不变量解题
也谈分离变量
超高精度计时器——原子钟
分析误差提精度
分类讨论求坐标
基于DSPIC33F微处理器的采集精度的提高
数据分析中的分类讨论
教你一招:数的分类