融入辅助数据集的面向对象土地利用分类研究*

2024-02-24李坤玉王雪梅李锐李顿

中山大学学报(自然科学版)(中英文) 2024年1期

李坤玉，王雪梅，李锐，李顿

新疆师范大学地理科学与旅游学院 / 新疆干旱区湖泊环境与资源实验室，新疆乌鲁木齐 830054

土地利用信息在国土空间规划、自然资源保护以及气候变化研究等领域起着至关重要的作用，为可持续发展工作的开展提供信息保障（朱永森等，2017）。利用遥感技术不仅可以大规模地调查土地利用现状，又能够监测和获取土地利用变化等信息（舒弥等，2022）。随着遥感技术的快速发展，遥感影像数据被广泛地用于土地利用分类的研究。欧空局于2015 年发布的Sentinel-2 数据具有高时空分辨率以及丰富的光谱信息，被广泛用于土地利用分类研究中。但由于影像存在同物异谱和同谱异物现象，仅利用卫星影像的光谱信息进行土地利用分类很难达到较高的精度（陈媛媛等，2022）。随着大量的辅助数据开放可用，许多研究试图通过结合卫星数据和辅助数据来提高土地利用分类的准确性（Tomáš et al.，2018）。将辅助特征与遥感数据相结合以提高区域和全球尺度的分类精度已经成为40 年来人们关注的话题（Phiri et al.，2017）。李恒凯等（2021）在探讨加入地形特征和雷达特征对南方丘陵山地土地利用分类信息提取的作用时得出，加入雷达特征和地形特征均有助于提高分类精度，其中加入地形特征更有助于耕地和园地的提取；张来红等（2023）对Sentinel-2 和Landsat 数据从光谱指数特征、纹理特征、地形特征3个方面构建多维特征集进行土地利用分类，得出融入光谱指数特征、地形特征能够有效提高土地利用分类模型的精度。Hurskainen et al.（2019）在研究免费开放的地理信息数据对面向对象土地利用分类精度的影响时得出，地形特征、土壤特征可显著提高土地利用分类精度。

虽然辅助特征可以提高土地利用分类的准确性，但是可用的免费开放的地理空间数据有限，需要从多个来源请求获得。谷歌地球引擎（GEE，Google Earth Engine）提供了一个强大的地理空间计算分析遥感云平台，并可以直接调用卫星影像和各种类型的地理空间数据集。使用GEE 可进行影像分割，其主要支持3种遥感影像分割算法，包括K-means、G-means 和SNⅠC 算法。其中，SNⅠC 算法占用内存小，运行速度最快，而且可以通过设置参数来控制分割效果，该算法已成为国内外影像分割的热点算法（Tassi et al.，2020）。刘通等（2022）、毛丽君等（2021）等使用SNⅠC 分割算法均得到了较好的分割效果，然后结合RF 算法进行分类后均得到了较高分类精度，有效地提高了土地利用分类结果的准确性。以往许多利用辅助特征提高高分辨率卫星图像分类精度的研究是基于像素的分类上，而较少关注基于对象的分类（Frank‐lin，2018）。同时，国内在研究辅助数据对分类精度的影响中，研究土壤特征对提高分类精度有效性的实验较少。因此，本研究基于GEE 平台调用Sentinel-2高分辨率影像，利用SNⅠC 分割算法对影像进行图像分割，结合雷达特征、光谱指数特征、土壤特征以及地形特征，使用RF 算法进行面向对象的土地利用分类，得出最优辅助数据集，然后进行特征重要性评价，得出贡献率最高的辅助特征，最后使用CART算法验证结论，使得研究结果更具可靠性，为后续更好地进行土地利用分类工作提供技术参考。

1 研究区与数据

1.1 研究区概况

博湖县位于新疆维吾尔自治区中部，经纬度41°33′～42°14′N，86°19′～87°26′E，隶属于新疆巴音郭楞蒙古自治州，天山南麓，区域海拔为1 037～2 529 m，南北两端地势较高，呈蝶状谷地，因其境内有中国最大的内陆淡水湖博斯腾湖而得名。该研究区气候温和湿润，光照充足，年均气温9.3 ℃，年降水量为79.6 mm，年均相对湿度为62%，有“湿岛效应”，适合农业以及畜牧业的发展。博斯腾湖分布在该县东北部，湖泊面积较大，占博湖县总面积的43.2%，为当地产业发展提供丰富的水资源；耕地资源丰富，种植作物主要有小麦、玉米、棉花、辣椒等；分布在博斯腾湖西岸的芦苇区是全国4大苇区之一；区域南部未利用地集中，有少量片状耕地。博湖县土地利用类型多样，具有典型代表性（图1）。

图1 研究区位置示意图及其假彩色影像Fig.1 Sketch map for the study area and false color imagery

1.2 数据源及预处理

高分辨率影像对于区域较小的土地利用分类研究是最佳数据源。本文采用多光谱高分辨率影像Sentinel-2 数据作为主要遥感信息进行分类。通过GEE 平台加载2022 年7 月20～23 日云层覆盖率小于7%的Sentinel-2 L2A 图像，选择4个空间分辨率为10 m 和6 个空间分辨率为20 m 的10 个波段作为原始影像数据，并对其进行拼接、裁剪以及云掩膜等处理生成博湖县无云影像。本文结合了卫星数据和辅助数据集来提高土地利用分类的精度和准确性，使用的分类特征包括光谱、雷达、光谱指数、土壤和地形特征（如表1）。

表1 土地利用分类特征Table 1 The features in the land use classfication

光谱特征是在Sentinel-2 影像中选取10 个波段及其主成分的中值作为分类特征，包括蓝、绿、红3 个可见光波段（B2-B4）、近红外波段（B8）、3个红边波段（B5-B7）、Narrow NⅠR 波段（B8A）以及2个短波红外波段（B11、B12）。有研究表明，波段的主成分（PC，principal component）可以提高土地利用的分类精度（Pareeth et al.，2019）。雷达特征是从Sentinel-1 影像获取的ⅤⅤ、ⅤH 两个极化波段。光谱指数特征是在GEE 平台使用Sentinel-2 影像波段计算得出8个指数的中值，包括归一化植被指数（NDⅤⅠ，normalized difference vegetation in‐dex）、归一化水体指数（NDWⅠ，normalized differ‐ence water index）、建筑用地指数（ⅠBⅠ，indexbased built-up index）、比值植被指数（RⅤⅠ，ratio vegetation index）、土壤调节植被指数（SAⅤⅠ，soiladjusted vegetation index）、差值植被指数（DⅤⅠ，difference vegetation index）、裸土指数（BSⅠ，bare soil index）和红边位置指数（REP，red edge position index），光谱指数计算公式如表2 所示。土壤特征是在GEE 平台调用OpenLandMap 提供的250 m 分辨率的表层土壤有机碳含量、土壤含水量、粘土含量、土壤容重、土壤pH 值5 个特征，并对其进行重采样。地形特征是利用GEE 平台调用30 m 分辨率的DEM 数据计算得出，包括高程、坡度和坡向数据，该数据集需重采样为10 m。

表2 光谱指数及其计算公式Table 2 Spectral indices and calculation formula

2 研究方法

2.1 分类体系建立及样本点选取

参照国家土地利用分类标准《GB/T21010-2017》，结合Google Earth 影像，充分了解研究区景观地貌特征，综合考虑研究区地物分布的整体性以及遥感影像的可分性，将研究区土地利用类型分为8 种类型：种植耕地、已收获耕地、林地、草地、芦苇湿地、建设用地、水域以及未利用地。通过实地调查以及参考高空间分辨率的Google Earth 影像和Sentinel-2 影像，结合欧空局提供的10 m 分辨率的土地利用分类数据进行目视解译，采集具有代表性的730个样本点，其中包括种植耕地132 个、已收获耕地83 个、林地75 个、草地49个、芦苇湿地103个、建设用地100个、水域69个以及未利用地119个，分别从每个地类中随机选取70%的样本点作为训练样本，选取30%的样本点作为验证样本。这8 种土地利用类型的分类体系、影像细节特征以及每种地类训练样本和验证样本数量如表3所示。

表3 土地利用分类体系和影像特征Table 3 Land-use classification systems and imagery features

2.2 SNⅠC分割算法

简单非迭代聚类（SNⅠC，simple non-iterative clustering）是基于简单线性迭代聚类（SLⅠC，sim‐ple linear iterative clustering）算法改进的最新的超像素分割算法（Achanta et al.，2017），改变了SLⅠC算法占用内存大、运算速度慢的特点，可以更快速地生成超像素（岳巍等，2022）。SNⅠC 算法是用户通过设置5个参数控制分割结果，包括影像、紧凑度、连通性、邻域尺寸和种子大小。参数设置基于重复迭代，并结合视觉进行评价。影像是指参与分割的影像。紧凑度是指分割后对象的规整程度，数值越大，每个对象的形状越规整，越接近于正方形。连通性是指像元的邻接性，参数一般设置为4或8，表示4连通或8连通。邻域尺寸表示邻域范围，通常设置为256。种子大小是指聚类中心的间隔，数值越大，种子点之间的间隔越大，分割得到的对象越大。其中紧凑度和种子大小对结果的影响比较大，需要根据地物的实际情况进行设置。

2.3 土地利用分类模型

为了比较融入不同辅助数据集对土地利用分类精度以及结果准确性的影响，本文构建了6种融入不同辅助数据集的土地利用分类模型，如表4所示。在6 种分类模型中，M1 模型是基于对象的光谱特征分类模型；M2 模型除了光谱特征以外，还结合了雷达特征；M3 模型则综合了光谱特征和光谱指数特征进行土地利用分类；M4 模型是在光谱特征的基础上结合了土壤特征进行影像分类；M5模型则是基于对象的光谱特征与地形特征的分类；M6 模型融入了光谱特征、雷达特征、光谱指数特征、土壤特征和地形特征这5种辅助数据集进行研究区土地利用分类。

表4 土地利用分类模型Table 4 Models used in this study for LULC classification

2.4 土地利用分类方法

随机森林（RF，random forest）是Breiman（2001）提出的一种机器学习方法，是一种基于决策树的分类器。随机森林分类器的构建主要涉及两个方面：随机选择样本和随机选择特征。使用Boot‐strap 重抽样方法从原始样本中有放回地抽取大约2/3 的样本用于对当前决策树模型进行训练，抽取剩余的样本作为对随机森林模型进行分类性能评估的袋外数据（OOB，out-of-bag），计算该模型的预测错误率，该错误率被称为袋外误差。基于RF分类器进行分类的基本思想是先使用Bootstrap 重抽样方法从原始训练集中抽取m个样本，每个样本的容量与原始训练集一致，然后给m个样本建立m个决策树模型，得出m种分类结果，最后通过投票得到最终的分类或预测结果。有大量研究表明，RF 算法在土地利用分类中具有较高的分类精度（匡开新等，2023），同时削弱了过拟合现象，有效地提高了分类器的泛化能力。本研究使用RF算法进行土地利用分类研究。

分类回归树（CART，classification and regres‐sion tree）是一种以二叉树为逻辑结构，用于完成线性回归任务的决策树，使用预定义的阈值工作。该决策树使用基尼系数划分属性，一个数据集的纯度可用基尼系数来衡量，基尼系数越小，数据集的纯度越高（刘睿等，2021）。本文使用CART算法来验证结论的通用性和可靠性。

2.5 精度评价

为了评价分类的结果，往往需要使用验证样本进行检验。生产者精度（PA，producer’s accuracy）、用户精度（UA，user’s accuracy）、总体精度（OA，overall accuracy）和Kappa 系数是最常用的检验指标。在面向对象分类中，PA 指分类器将整个影像的所有对象正确分为某类的对象数与该类真实参考总数的比率，UA 指正确分到某类的对象总数与分类器将整个影像的对象分为该类的对象总数比率，OA 指被正确分类的对象总和与总对象数的比率，Kappa系数是用于一致性检验的指标，用来衡量分类的效果，其计算是基于混淆矩阵的（吴静波，2018），Kappa取值在-1～1之间，一般＞0，

其中N为用于精度评价的对象数；Xij为混淆矩阵中第i行第j列的对象数；Xi+为第i行的总对象数，X+j为第j列的总对象数。

2.6 特征重要性评价

使用随机森林进行特征重要性评估的基本思想是计算每个特征在随机森林中的每棵树中作出的贡献，求其平均值，最后比较特征之间的贡献大小，贡献值通常用袋外数据错误率来衡量（吴静波等，2018）。在随机森林算法中某个特征X重要性的计算方法如下：首先对于随机森林中的每一颗决策树，使用相应的OOB 数据来计算它的袋外数据误差，记为OOBerr1；其次随机地对袋外数据OOB 所有样本的特征X加入噪声干扰，再计算它的袋外数据误差，记为OOBerr2；最后假设随机森林中有Ntree棵树，计算特征X的重要性

若给某个特征随机加入噪声之后，袋外数据的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大，表明它的重要程度比较高。

3 结果与分析

3.1 分割参数确定

面向对象土地利用分类效果的好坏与影像分割结果有密切关系。SNⅠC 分割算法需要设置5 个参数控制图像分割效果，连通性与邻域尺度分别设置为8、256。使用控制变量法，对分割结果影响较大的紧凑度和种子大小选取6 组参数进行影像分割实验，并对分割结果进行目视判读，确定合适取值。图2（a-f）表示使用SNⅠC 分割算法对影像进行分割的局部结果，其中图2（a-d）的紧凑度取值为0，种子大小取值分别为10、13、17和20，图2（e-f）的种子大小取值为17，紧凑度取值分别为1 和2。对比图2（a-b）可以发现种植耕地、林地、建设用地、水域存在过分割现象；图2（c）建设用地分割效果较好，种植耕地、林地、水域过分割现象有所减缓，整体分割效果较好；图2（d）中建设用地存在欠分割现象。将图2（c）与图2（e-f）对比可以发现，图2（e-f）边界贴合度不高。从图2（c）可以看出，种植耕地、水域仍有少量过分割现象的存在，过度分割会产生大量的对象，通常分割对象越多，地物分割越精细，分类精度越高，与此同时需要更多的计算时间，本文中使用GEE 云平台，它可以为数据处理工作提供强大的数据分析平台，因此不必考虑计算时间成本。虽然图像分割结果中存在少量过分割现象，但是对研究目标和结论影响不大。综上所述，分割效果最好的是图2（c），最终选取的图像分割参数为：种子大小为17，紧凑度为0。

图2 局部区域不同分割参数的图像分割结果Fig.2 Ⅰmage segmentation results with different segmentation parameters in the local area

3.2 融入不同辅助数据集分类结果比较

基于最优分割参数的选择结果，融入各类辅助数据集，进行2022 年7 月新疆博湖县土地利用分类，得到不同模型的土地利用分类结果（图3）。在6 个分类模型中，精度最低的是基于模型M1 的分类结果，总体分类精度OA=84.82%，Kappa=0.82，精度最高的是基于模型M6 的分类结果，分类精度OA=92.34%，Kappa=0.91。

图3 基于6个分类模型的分类结果展示Fig.3 Display of classification results based on 6 classification models

由图3 可知，模型M1～M3 的分类效果没有模型M4～M6 的分类准确性高，与表5 的分类精度结果一致。整体上，M1～M3有明显的错分现象，M1中将研究区南部少量未利用地错分为已收获耕地和建设用地，博斯腾湖西岸部分芦苇湿地错分为种植耕地；M2 和M3 在研究区的南部未利用地均有错分为建设用地的现象。M4～M6 整体分类效果较好，破碎现象较少，与博湖县土地用地整体情况相符。说明仅使用Sentinel-2 影像的光谱特征进行土地利用分类时，分类的OA 和Kappa 系数最低，分别为84.82%和0.82；当加入雷达、光谱指数、土壤和地形特征后，OA 均有所提高，加入地形特征后分类精度提高最为明显，OA 提高了6.22%，Kappa系数提高了0.08，说明加入这4种辅助数据集中的任意一个特征数据集均有助于提高分类的整体准确性，其中地形特征对提高分类的整体精度起着最重要的作用。融入所有辅助数据集的模型M6 分类精度最高，OA 和Kappa 系数分别为92.34%和0.91，各类地物均能够得到较好的区分，较其余5个分类模型来说分类效果最佳。

表5 不同分类模型的分类精度结果Table 5 Accuracy results for different classification models

选择所含地物类型较为丰富的3 个典型区域，对比分析不同地物类型在不同分类模型中的分类结果（图4）以及结合Sentinel-2 影像可以发现，对博湖县进行土地利用分类的误差主要来源于种植耕地、林地、草地与芦苇湿地的误分以及建设用地和未利用地的误分，这主要是由于其光谱特征相似，会出现异物同谱或同谱异物的现象，在这种情况下可以借助光谱以外的辅助特征，有助于丰富分类所需的有用信息，从而提高土地利用分类的准确性。

图4 不同分类模型的典型区域分析Fig.4 Typical area analysis of different classification models

基于6 种分类模型的8 种地类的PA 和UA 如表5 所示。模型M2 加入雷达特征后，林地、草地、芦苇湿地的分类精度均显著提高，这是因为微波比光波能更深地穿透植物，对植被散射体的形状、结构较为敏感，可以更好地区分植被类型。同时也可以看出建设用地和未利用地的分类精度均有所提高，说明雷达特征也有利于区分建设用地和未利用地。模型M3 加入了4 个植被指数、1 个红边指数、1 个水体指数、1 个建筑指数和1 个裸土指数，与模型M1 相比，所有植被类型的土地利用分类精度均得到提高，其中芦苇湿地精度提高最多，PA 提高了12.37%，UA 提高了13.04%，说明植被特征以及红边指数特征对于区分不同植被类型起着重要作用。模型M4 加入了土壤特征，由于耕地的土壤特征相似，所以不同耕地类型不易区分，因此种植耕地与已收获耕地的分类精度相对于其他地物来说较低；其他地物的土壤属性区分较为明显，所以较于M1 分类精度均有所提高。模型M5 加入地形特征后，各地类的分类精度有明显提升，种植耕地和草地，以及建设用地和未利用地的区分更为容易，这与博湖县地形南北高、中间低有关，草地和未利用地主要分布在南部海拔较高的地区，种植耕地和建设用地主要分布在中西部平原区。对表5 中模型M6 与M1 分类结果进行比较可以看出，除水域以外，每种地物的土地利用分类精度均有较大程度的提高。对比图4中局部区域的分类结果图，也可以看出模型M6 的分类效果相较于其他模型也达到最佳，消除了种植耕地与芦苇湿地、种植耕地与林地、建设用地和未利用地的误分，分类细节也与遥感影像更为契合。水域分类效果均较好，在6个模型中其分类精度均在90%以上。

3.3 特征重要性评价

基于RF 算法融入所有辅助数据集的土地利用分类精度最高，使用基于RF 算法的袋外误差来衡量每种特征的重要性值，图5 为本文38 个特征的重要性排序。

图5 特征重要性评价Fig.5 Feature importance evaluation

由图5可以看出，对分类结果影响最大的是高程特征，西北地区复杂的地形特征对于土地利用类型的识别至关重要。ⅤH 极化特征的重要性居于第2位，该区植被类型较多，能更深穿透植物的微波可以更好地识别不同的植被类型。紧接着即为土壤特征包括表层土壤有机碳含量以及表层土壤含水量，西北干旱区不同地类的土壤特征存在较大差异，因此依据不同土壤特征区分地物类型是有效的。其次就为波段B10 的主成分中值和波段B5 的主成分中值，Sentinel-2 影像波段重要性最大的是B8 波段，因为近红外波段对叶绿素的反射效果好，在标准假彩色影像中植被呈现红色，植被越密集，红色越深，植被类型不同其密集度也不同，可更好地识别该区域不同的植被类型。光谱指数特征重要性最大的是RⅤⅠ指数，因为该指数可以更好地反应植被生长的健康状况。坡向特征对土地利用分类的贡献率最低，说明该区域坡向变化不大。ⅠBⅠ指数的贡献率位于倒数第2 位，因为该区域的建筑用地较少，而植被、水域和裸地面积较大，相对于植被光谱指数、水体指数和裸地指数来说，建筑用地指数对于该区域的土地利用分类结果贡献率较小。由此可看出，特征重要性的大小主要与研究区域的地物分布特征有关。

3.4 分类方法验证

从以上分析可以得出，采用面向对象的RF 算法进行土地利用分类时，将光谱数据与辅助数据结合可以有效地提高土地利用分类精度，结合雷达、光谱指数、土壤、地形特征分类精度依次提高，当融入所有辅助数据集时分类精度达到峰值。使用CART算法验证结论的通用性和可靠性。在对比实验中，基于CART的分类模型所使用的特征与基于RF的分类模型相同。基于RF和CART算法分类的OA 和Kappa 系数如图6 所示，图6（a）为基于RF 和CART 算法分类的OA，图6（b）为基于RF 和CART 算法分类的Kappa 系数。基于CART 算法的分类结果表明，随着辅助特征数量的增加，OA 和Kappa系数均有所提高，融入雷达、光谱指数、土壤、地形以及所有辅助特征的分类精度依次提高，与基于RF 算法的分类结果规律一致，通过对比基于两种算法的分类精度可以看出，基于RF 算法的分类精度更高。

图6 不同分类模型基于RF、CART算法分类的分类精度比较Fig.6 Comparison of classification accuracy of different classification models based on RF and CART algorithms

4 讨论

面向对象的最优辅助数据集的选取可提高分类精度的同时避免了基于像素分类时出现的“盐胡椒”现象，使分类结果不仅具有较高的分类精度，视觉上也更美观，强化了分类结果中每个地物的整体性，为下一步开展基于土地利用分类结果的应用型研究提供更好的分类效果。研究基于遥感云平台对Sentinel-2影像使用SNⅠC分割算法进行影像分割，并结合RF 分类器进行土地利用分类，OA＞84%，Kappa＞0.82，说明分类精度均较高。Djerriri et al.（2020）证明了基于SNⅠC 聚类结合RF 分类器对Sentinel-2 图像进行分类的面向对象分类方法具有较大优势，可以得到较好分类效果，说明选用的分类方法可靠性较高。分类时使用光谱信息并融入雷达、光谱指数、土壤和地形特征均可以提高分类精度，其中地形特征对提高分类精度效果最显著。Qu et al.（2021）结合辅助数据集进行土地利用分类，得出在面向对象分类中地形特征对提高分类精度的影响最大，本文也得出该结论。除了地形特征，土壤特征对提高土地利用分类效果也有较大贡献，国内融入土壤特征提高土地利用分类精度的研究较少，而国外较多且认为土壤特征有利于提高分类精度（Ouma et al.，2022），因此研究中加入了土壤特征，探究其对提高土地利用分类精度的影响，与已有研究结论一致。研究中使用的辅助数据集表现出在景观异质性地区提高土地利用分类精度的重要潜力，下一步工作考虑研究探索更多的辅助数据集对分类结果的影响，如纹理特征、物候特征、水源距离等，并在不同的地形条件下研究辅助特征最优组合的异同。

5 结论

本文借助GEE 平台使用SNⅠC 分割算法，融入辅助数据集构建了基于RF 算法的面向对象土地利用分类的6个分类模型，对博湖县的土地利用进行分类研究，得出以下结论：

1）使用GEE 平台的SNⅠC 分割算法，通过控制变量法、参数迭代设置以及目视判读法得出最优分割参数，对分割结果影响较大的两个参数分别设置为种子大小为17、紧凑度为0，该分割参数对该研究区影像分割效果最好，有利于进行下一步的分类研究。

2）辅助特征包括雷达、光谱指数、土壤、地形均可以提高土地利用分类精度，将Sentinel-2 影像的波段特征数据与这些辅助数据相结合进行土地利用分类，有效地提高了土地利用分类结果的准确性，当融入所有辅助特征时分类精度达到最高，OA=92.34%，Kappa=0.91，比仅使用光谱特征进行分类的结果OA 提高了7.52%，Kappa 系数提高了0.09。当只使用一种辅助数据集时，地形特征对提高土地利用分类精度的效果最好，土壤特征也起着重要作用。对所有辅助特征进行重要性评价时，高程特征对提高分类精度的贡献最大。

3）使用RF 算法进行实验，并使用CART 算法验证实验结论，均可得出融入雷达、光谱指数、土壤、地形特征都可以提高土地利用分类精度，并且分类精度依次提高，融入所有辅助数据集时分类精度达到最高。通过对比基于两种算法的分类精度可以看出，基于RF 算法的分类精度更高，为基于土地利用分类结果进行应用型研究提供高精度的分类参考方法。