基于随机森林算法和知识规则的国际湿地城市精细湿地分类
——以常德市为例
2023-07-13邓雅文蒋卫国王晓雅彭凯锋
邓雅文,蒋卫国,王晓雅,彭凯锋
1.北京师范大学 地理科学学部 遥感科学国家重点实验室,北京 100875;
2.北京师范大学 地理科学学部 环境遥感与数字城市北京市重点实验室,北京 100875
1 引言
湿地是世界上最大的碳库之一,具有水源涵养、气候调节和物种多样性保护等重要生态价值,对环境保护和人类福祉至关重要(Mao等,2020)。近年来随着社会经济快速发展与城市化进程加速,城市湿地资源的保护与管理受到更多关注,且城市湿地也逐渐成为城市生态文明的重要景观系统之一(李春晖 等,2009)。2015年6月《湿地公约》第12次缔约方大会通过了关于开展湿地城市认定的决议,旨在加强湿地保护与管理,提升城市发展质量,促进人类与自然和谐共生(马梓文和张明祥,2015)。“国际湿地城市”认证对推进中国生态文明建设、贯彻落实《湿地保护修复方案》具有重要意义(王会 等,2017),且“国际湿地城市”亦是全球各个国家或地区青睐的世界级绿色城市名片(陈彦 等,2022)。常德市于2018年10月成功入选全球首批国际湿地城市,是全球典型湿地城市,也是中国境内面积最大的国际湿地城市,市内8 ha以上的湿地面积达19万ha(陈建和苏俊,2020),占全市国土面积的10.44%,且拥有西洞庭湖国际重要湿地。获取常德市中高分辨率和湿地精细类别空间分布信息、了解常德市湿地空间分布格局特征可以为常德国际湿地城市的湿地资源调查、修复保护及合理利用等相关决策的制定提供科学支撑。
传统的湿地野外实地调查方法和目视解译方法往往效率低下、精度受人为主观影响较大,不宜应用于湿地信息自动智能提取和大尺度范围湿地实时监测(刘红玉 等,2004)。遥感技术的迅速发展和海量地球观测数据的涌现为从区域到全球尺度的湿地资源信息提取和空间制图提供了有力支持(Mahdavi等,2018;Guo等,2017)。其中光学遥感影像波段信息丰富、但易受云雨等天气影响导致观测无效,而阴雨天气较多的南方地区更易出现数据缺失情况;而基于微波的合成孔径雷达(SAR)遥感数据具有能穿透云层对地表进行全天时全天候的监测能力优势,且对植被和土壤含水量的响应较为敏感(王安琪 等,2012),这在一定程度上弥补了光学遥感影像的不足,成为进行湿地制图的有效手段。光学和雷达数据具有各自的信息优势,两者结合使用可以互相弥补获取更全面的湿地相关水文和植被信息,有助于提高湿地分类精度。已有研究表明综合使用光学和雷达数据可以有效提高湿地分类精度(Amani 等,2017;Chatziantoniou 等,2017;宁晓刚 等,2022)。近年来,欧洲航天局先后发射了Sentinel-1 合成孔径雷达(SAR)卫星(6 d重访周期)和Sentinel-2多光谱卫星(4—5 d 重访周期),密集时序观测有效减少了云干扰,再加上较高的空间分辨率(10 m)使得Sentinel 数据在湿地制图中显示出巨大潜力。Slagter 等(2020)结合时序密集Sentinel-1 和Sentinel-2 数据对南非圣卢西亚湿地进行分类,结果显示结合两种数据的分类精度最高。
此外,监督机器学习算法因其鲁棒性强、性能稳定等优势成为湿地分类的常用方法(Chatziantoniou等,2017;Berhane 等,2018);其中随机森林算法是监督机器学习算法之一,被广泛应用于湿地分类,在特征选择和分类提取等方面具有明显优势(张磊 等,2019);赵欣怡等(2022)利用随机森林方法基于Sentinel-1 雷达数据准确获取海岸带盐沼湿地植被种类信息和空间动态,分类精度较高;张磊等(2019)基于随机森林算法和特征优选对黄河三角洲湿地信息进行提取,结果表明随机森林算法可以有效进行特征选择与湿地信息提取,总体精度达90.93%。
作为一个强大的云计算平台,GEE(Google Earth Engine)也被广泛应用于湿地制图和动态监测(Amani等,2019;Hird等,2017)。GEE可以允许用户免费获取多种卫星数据并使用许多内置遥感影像处理工具(Gorelick 等,2017;Amani 等,2020)。宁晓刚等(2022)联合使用GEE 和多源遥感数据基于随机森林机器学习方法准确、快速、高效地提取了2018 年黑龙江流域大尺度沼泽湿地信息,总体精度达91.54%,表明GEE 在大尺度的湿地信息提取中具有较大应用潜力。
已有研究为湿地分类奠定了良好的基础,但是还存在一些不足。首先,许多研究多仅采用较为单一的监督机器学习算法进行湿地分类,其湿地类别不够精细(赵欣怡 等,2022;张磊 等,2019),无法满足国际湿地城市对精细类别湿地信息提取的需求。此外,目前已有的面向国际湿地城市的湿地精细分类的研究相对较少(韩月 等,2021),其湿地分类类别相对较为粗糙,尤其对于水体缺乏更详细的类别划分(宁晓刚 等,2022)。水体类别信息缺失也会造成城市湿地管理和价值评估等方面的支撑信息不足,因此需要耦合其他方法实现精细湿地分类。其中,水体对象的几何形状特征给湿地分类提供了一个重要依据(刘蕾 等,2015),尤其是针对水体而言,不同类型水体,如河流、湖泊、运河/水渠等的形状复杂度、紧凑度等几何形状属性往往存在较大差异。因此,充分利用湿地对象的形状特征构建出针对水体类型划分的知识规则模型为实现湿地精细分类提供了有效途径。
综上,尽管光学、SAR等多源遥感数据和随机森林算法已经被应用于湿地信息提取,但是鲜有面向国际湿地城市的城市湿地精细分类方法框架提出。为此,本研究基于GEE云平台结合Sentinel-1/2时序遥感影像和地形数据,首先进行特征优选,其次使用随机森林算法进行土地覆盖粗分类,再借助知识规则模型对土地覆盖粗分类结果中的水域湿地对象进一步详细分类,进而构建出一种集成随机森林算法和知识规则模型的面向国际湿地城市的湿地精细分类方法,并将其应用于常德市进行2020 年湿地精细分类,最终得到8 种精细湿地类型和5 种非湿地土地利用类型。该方法框架有望迁移至其他城市湿地应用制图,为了解城市湿地类型和分布现状提供数据和技术方法参考。
2 研究区概况与数据源
2.1 研究区概况
本文以常德市作为研究区,其地理空间位置如图1 所示。常德市位于湖南省西北部,气候温湿,四季分明;其地势西北高,东南低,西部有壶瓶山,东南部为西洞庭湖平原,中部过渡地段为丘陵(朱翔,2014)。行政区划上,常德市下辖武陵区、鼎城区,津市市、汉寿县、桃源县、石门县、澧县县、临澧县、安乡县9个县级行政区。
图1 研究区概况图Fig.1 Geographical location of the study area
常德境内河湖水系众多,湿地资源丰富。全市拥有以沅江、澧水为干流的440多条河流、1424座水库,湿地面积广阔(熊杰,2019)。作为国际重要湿地,境内的汉寿西洞庭湖国家级自然保护区属内陆湖泊芦苇沼泽型湿地,是全球重要的候鸟迁徙越冬地、停歇地和繁殖地(刘松林 等,2018)。近年来,常德市相关政府部门积极落实中央生态文明建设要求,提出建设生态常德、美丽常德的战略定位,修复保护后的常德市湿地保护率达70.15%(熊杰,2019)。
2.2 数据收集及预处理
2.2.1 遥感影像
综合考虑影像分辨率、波段、可获得性等因素,研究基于Sentinel-2 多光谱数据和Sentinel-1 雷达数据实现10 m 空间分辨率的湿地精细分类。Sentinel-2 卫星搭载了中高分辨率多光谱传感器,可提供从可见光、近红外到短波红外内的13 个波段光谱信息,空间分辨率包括10 m、20 m和60 m。除去较高的空间分辨率优势,Sentinel-2 卫星影像中的3个红边波段(670—760 m)对湿地分类效果作用显著(Kaplan 和Avdan,2019)。研究使用的Sentinel-2数据来自GEE平台提供的“COPERNICUS/S2_SR”数据集,该产品为已进行过辐射定标和几何校正的Level-2A 地表反射率产品。Sentine-1 卫星影像的时间分辨率约为6 d,提供C 波段双极化(VV 和VH)合成孔径雷达(SAR)数据,升轨和降轨模式下的空间分辨率均为10 m,研究使用Sentinel-l 数据干涉宽幅模式(IW)的地距多视产品(GRD)的VH 和VV 数据,并在GEE 中完成轨道参数定标、热噪声去除辐射定标和地形校正等操作。由于SAR 影像全天候监测等特征,Sentine-1数据被广泛用于湿地制图(Adeli等,2020)。
研究使用的哨兵遥感影像的时间跨度为2020 年4 月—2021 年4 月,其中Sentinel-1 影像数量逐像元有效观测频次在55—171,Sentinel-2影像的逐像元有效观测频次在27—410。此外,研究也使用了DEM 及其计算得到的坡度和坡向数据作为湿地遥感提取的辅助数据。
2.2.2 样本数据选取
为辅助生产湿地样本数据,提高湿地分类样本选取工作效率,研究参考已有研究中(彭凯锋 等,2021)生成较大区域样本的方法实现研究区样本生成与解译。研究首先收集了ESA WorldCover、CLCD、GLC_FCS、JRC-GSW、中国湖泊数据集、高德水库POI 点位数据等多源专题数据(表1)作为参考;在此基础上,首先基于JRC-GSW 水体淹没频率数据随机生成水体样本点,水体样本的选取范围为水体淹没频率大于80%的区域;其次,基于湿地潜在分布区(水体淹没频率为5%—40%)生成非水体湿地样本点,并结合Collect Earth 和Google Earth 高分辨率影像开展样本选取和目视解译工作。其中发现草滩地和芦苇湿地较容易混淆,因此借助Sentinel-2 数据计算得到的NDVI 时序变化曲线辅助对非水体湿地样本点进行区分与解译,将其划分为泥滩地、草滩地和芦苇湿地,以提高样本信息准确度。
表1 研究中使用的多源专题数据Table 1 Multi-source theme datasets used in this study
最后,其余土地利用类型样本点基于当前已有的2020年ESA WorldCover、GLC_FCS和CLCD土地利用数据生成,主要通过选取这3种来源土地利用数据对应类别的空间范围交集作为生成不同类型非湿地样本点的空间限制范围,再随机生成分布均匀的非湿地样本点。研究最终得到样本点13215 个,并按照4∶1 的比例随机划分为训练样本点10560 个,验证样本点2655 个。研究选取的样本点空间分布情况如图2所示。
图2 常德市样本分布图Fig.2 Spatial distribution of samples in Changde city
3 湿地分类方案
常德市内的湿地主要有河流湿地、湖泊湿地、湖滨沼泽湿地以及水库坝塘,主要分布在沅水流域、西洞庭湖和水库(王朝晖 等,2010)。本研究主要参考黄群等(2013)和由佳等(2016)研究中的湿地分类体系,将常德市内的湿地分为河流、湖泊、水库、运河/水渠、养殖池/坑塘、泥滩地、草滩地、芦苇湿地这8种类型,其中草滩地主要包括以苔草、虉草等草本植被为主的自然湿地,芦苇湿地包括以芦苇、荻湿地植被为主的自然湿地(何锐 等,2016)。此外将其他非湿地土地利用类型划分为林地、草地、建设用地、耕地和裸地。研究使用的湿地分类方案如表2所示。
表2 常德市湿地分类方案Table 2 Wetland classification scheme of Changde city
4 研究方法
4.1 总体思路
本文的总体技术流程如图3所示,主要可以分为以下4 个部分:(1)首先研究基于GEE 云计算平台快速获取常德市2020 年的Sentienl-1/2 等多源遥感影像并进行云和云阴影掩膜操作,同时结合多源专题数据生产训练和验证样本点;(2)其次利用多源遥感数据构建多种湿地分类特征变量集并使用最小冗余最大相关算法和梯度提升树算法对光谱、光谱指数、雷达散射、地形、频率和纹理特征进行特征集优选得到湿地分类特征优选集;(3)基于湿地分类特征优选集采用随机森林分类算法进行土地覆盖粗分类,得到水体、泥滩地、草滩地、芦苇湿地类型和其他非湿地土地覆盖类型;(4)在粗分类得到的水体类别基础上结合辅助数据和基于几何形状特征的多阈值知识规则得到5种不同类型水体从而实现湿地精细分类。同时研究利用验证样本点进行精度评价并简要分析常德市湿地的空间分布格局。
图3 总体技术流程Fig.3 Overall technical process
4.2 湿地分类特征集优选
研究选取了Sentinel-2 光谱反射率、光谱指数特征、Sentinel-1 雷达后向散射系数特征、地形特征、纹理特征和频率特征作为常德市湿地分类的特征集合,具体计算公式和相关信息描述如表3所示。考虑到湿地季节性变化特征,尤其是洪水期和枯水期洪水淹没变化影响,研究分别计算Sentinel 影像在旱期(2020 年11 月—2021 年1 月)和汛期(2020年7—9月)(Yang等,2020)内的光谱特征、光谱指数特征、雷达特征和频率特征中值以反映时间特征,同时选择DEM、坡度和坡向反映地形特征,选择NDVI 灰度共生矩阵指标表征纹理特征,最终得到63个特征变量。
表3 研究使用的湿地分类特征集列表Table 3 List of features for wetland classification in this study
通过选择合适的湿地分类特征子集可以提升模型精度,减少过拟合现象和模型复杂度,提升机器学习算法运算速度并增强其可解释性,故对研究初步选取的多个特征变量进行特征集优选。研究使用的特征优选方法主要包括两个部分:搜寻不相关特征变量集SULOV(Searching for Uncorrelated List of Variables)算法和递归梯度提升树(XGBoost)来对特征进行降维,使得特征数量在维持最少的同时保持最丰富的信息。
SULOV算法的原理是最小冗余最大相关MRMR(Minimum-Redundancy-Maximum-Relevance)算法,是目前最好的特征选择方法之一(Zhao 等,2019;Ding 和Peng,2015),其步骤如下:(1)首先寻找所有相互之间相关性超过一定阈值(本研究中为0.85)的特征对;(2)其次,分别计算这些特征与目标变量(分类类别)之间的互信息得分MIS(Mutual Information Score),该指标是一种非参数计分方法,适用于所有类型的变量;(3)最后得到具有最高信息分数和与彼此相关性最小的特征变量集合。然后使用递归梯度提升树迭代寻找其中的最佳特征集合,重复5 次并组合每次结果中的最佳10个特征作为特征优选集。
4.3 基于随机森林算法的土地覆盖粗分类
对湿地分类特征优选得到最优特征集合后,将其输入随机森林分类器进行常德市土地覆盖粗分类。随机森林算法由Breiman(2001)提出,是基于分类回归树CART(Classification and Regression Tree)发展的一种集成学习模型,它由大量相互独立构建的决策树组合而成。随机森林分类算法具有极好的准确率,能够有效的运行在大数据集上,可以处理具有高维特征的样本输入。
本研究使用的随机森林分类算法基于GEE 云计算平台实现,经过多次实验,将决策树的数量设置为100,并采用10 折交叉验证取10 次分类结果的众数作为最终分类结果以减少偶然误差和不确定性,其他参数使用GEE平台默认参数。
4.4 基于知识规则的湿地精细分类
在利用随机森林分类算法得到的土地覆盖粗分类结果基础上进行湿地精细分类,将水域湿地分为河流、湖泊、水库、养殖池/坑塘和运河/水渠这五类。首先在ArcGIS中对土地覆盖粗分类结果进行重分类得到水体二值栅格,再将水体栅格转换为多边形矢量格式,再利用开源GIS软件包WhiteboxTools v2.0(https://github.com/giswqs/WhiteboxTools-ArcGIS[2022-06-17])中GIS Analyst 工具集内的斑块形状属性计算工具得到其形状复杂度指数指标、线性度和紧凑度。
研究使用形状复杂度计算指数工具计算得到每个多边形矢量的形状复杂度指数SCI(Shape Complexity Index),该指数是对多边形形状整体复杂性或不规则性的一种度量,其计算公式如下:
式中,A是多边形的面积,Ah是该多边形的凸包的面积。对于凸多边形,即不包含凹面或空洞的多边形,其SCI 值为0。随着多边形的形状变得更加复杂,SCI 值越接近1。该指数可以有效区分线形矢量和斑块矢量。
线性度指数是通过对矢量对象的外包多边形节点的经度和纬度坐标进行回归分析计算得到的决定系数(R2),它可以衡量多边形在多大程度上能被一条直线描述。
紧凑度(Polsby-Popper 测试)是一种广为引用的测量方法,用于测量一个地区的形状复杂度。其计算公式如下:
式中,A表示多边形面积,P表示多边形周长。紧凑度得分在0—1。一个完美的圆的地理紧凑度得分为1,形状越复杂,则该得分越低。
研究结合专题数据和人工目视解译分别随机选取了河流、湖泊、运河/水渠和养殖池/坑塘类型对象对其几何形状参数进行统计分析以确定水体类型划分阈值,这4种水体类型的形状相关指数分布情况如图4所示,可以看出不同类型水体之间存在着明显的差异,经过多次实验得到水域湿地类型划分的适用阈值与规则条件(图4),具体的规则流程如图5 所示。首先利用高德水库POI 点位数据和2020 年中国湖泊数据集将水库和部分湖泊斑块提取出来,对于剩余斑块,计算每个斑块的形状复杂度、线性度和紧凑度指数,再利用线性度指数将运河/水渠类型水体提取出来,其次根据形状复杂度指数和紧致度指数提取河流矢量,最后利用形状复杂度指数区湖泊和养殖池/坑塘。最终对显著不符合现实情况的误分类现象进行人工检查与矢量编辑修正以保证其准确性。
图4 不同水体类型的形状复杂度指数、线性度和紧凑度指数特征Fig.4 Shape complexity index,linearity index and compactness for different water types
图5 基于形状特征水体类型分类规则流程Fig.5 Process for differentiating water types based on geometric features
4.5 精度评价方法
研究使用混淆矩阵(Confusion Matrix)对土地覆盖粗分类和湿地精细分类结果进行精度评估,主要选取总体精度OA(Overall Accuracy)、Kappa系数、生产者精度PA(Producer’s Accuracy)和用户精度UA(User’s Accuracy)这4 个评价指标对分类精度进行评价分析。其中总体精度和Kappa系数作为评价总体分类精度的指标,生产者精度和用户精度作为衡量各类的漏分和错分误差的指标。
5 结果与讨论
5.1 湿地分类特征集优选结果
基于SULOV 算法首先剔除了具有高度相关性(相关系数大于0.85)的特征变量并保留其中与目标变量最相关的特征,这一过程自动筛选出29 个特征变量,其变量间相关和互信息得分可视化如图6所示。其中左图中圆形节点的大小代表其与目标变量之间互信息得分值,而两两变量之间连接线的粗细代表其相关性高低。将筛选出的29 个变量输入递归梯度提升树模型中运行5次,每次得到最重要的10 个变量,将5 次结果的特征变量相组合最终优选得到16 个特征,其中光谱特征包括旱期和汛期的B2 和B4,即蓝光和红光波段反射率;光谱指数特征包括NDWI(旱期)、NDBI(旱期)、SAVI(旱期和汛期)、ARI(旱期)和BSI(旱期);雷达特征包括旱期的VH极化后向散射系数;纹理特征包括NDVI 的相异性和角二阶矩;频率特征包括旱期的植被频率和水淹频率。优选出来的特征中在特征优选前后的总体精度分别为96.73%和95.83%,说明特征优选可以极大地减少特征数量与冗余,在提高湿地分类效率的同时保持分类准确性。
图6 特征变量之间相关性与特征重要性排序Fig. 6 Correlation between feature variables and feature importance ranking
5.2 2020年常德市土地覆盖粗分类结果及精度评价
2020 年常德市土地覆盖粗分类结果如图7 所示,从空间上可以看出常德市湿地大部分分布在西洞庭湖周围地区、沅江、澧水附近以及大型水库和湖泊周围。对其中3 个典型区域放大展示(图7),可以看出珊珀湖南部的养殖池分布密集,西洞庭湖湿地的洲滩中分布着大量草滩地和芦苇湿地,湿地资源丰富。
图7 2020年常德市土地覆盖粗分类结果及典型区展示Fig. 7 Classification results of land cover and illustration of typical areas in Changde city in 2020
2020 年常德市土地覆盖粗分类的精度评价结果如表4 所示,其地物总精度达到了94.58%,Kappa 系数为0.94。其中草地、裸地的分类精度较差,与草滩地和芦苇湿地出现了一定程度的混分,这是主要是植被光谱相似性导致。
表4 2020年常德市土地覆盖粗分类结果精度评价Table 4 Accuracy of land cover classification results in Changde city in 2020
5.3 2020年常德市湿地精细分类结果及精度评价
研究在2020 年常德市9 种基本地物分类的基础上,基于知识规则对湿地类别进行精细分类,其最终分类结果如图8所示,湿地类型一共有:河流、湖泊、水库、运河/水渠、养殖池/坑塘、泥滩地、草滩地和芦苇湿地8 种,从图8 中可以看出大部分湿地沿沅江、澧水和西洞庭湖分布,大部分湿地位于常德市的东部和南部地区,对部分典型湖库和河流放大展示如图8Ⅰ—Ⅷ所示,可以较为直观地看出其中水体类型的划分效果较好。
图8 2020年常德市湿地精细分类结果及典型区展示Fig.8 Refined classification results of wetlands and display of typical areas in Changde city in 2020
2020 年常德市湿地精细分类结果的精度评价如表5 所示,总体精度为91.53%,Kappa 系数为0.89,说明分类结果较好。其中河流、湖泊和运河/水渠的用户精度相对较低,其中河流和运河/水渠、湖泊和养殖池/坑塘的混淆现象较多。
表5 2020年常德市湿地精细分类结果精度评价Table 5 Accuracy of refined wetlands classification results in Changde city in 2020
对2020 年常德市的湿地分类结果进行统计分析如图9所示,其中湿地面积为1754.99 km2,其中人工湿地面积占比为37.63%,自然湿地面积占比为62.37%,其中养殖池/坑塘在湿地中面积最大,为481.97 km2,其次为河流和湖泊湿地。
图9 2020年常德市湿地面积统计结果Fig.9 Statistics of wetlands in Changde city in 2020
5.4 2020年常德市湿地空间分异格局分析
以县级行政区划为单元对2020 年常德市湿地进行分区统计,其分布结果如图10 所示,整体上常德市的湿地主要分布在东部和南部县域,其中汉寿县内的湿地面积占比最高,达到25.22%,其次为安乡县、津市市和武陵区,其湿地面积占比分别为21.63%、19.11%和19.11%;鼎城区和澧县的湿地面积占比约为10%左右,其余西部的石门县、桃源县和临澧县湿地面积占比均低于5%,此空间分异格局也与常德市内东部为西洞庭湖平原、中部为过渡丘陵及西部为壶瓶山脉的地形地貌格局分异相重合。
图10 常德市各县级(包括区)行政区划内的湿地面积占比与各类型分布Fig.10 Proportion of wetland area and distribution of various types within the county-level(including districts)administrative areas of Changde city
根据《湿地公约》第12 次缔约方大会的文件《决议XⅡ.10拉姆萨尔公约的湿地城市认证》和后续发布的《湿地城市认证提名表》,开展湿地城市认证的目前需要满足8条基本准则和其下属的12项具体要求(王会 等,2017),其中本研究结果能够为指标中湿地资源本底方面的准则1“在城市管辖范围内或临近城市的区域有一个或多个国际重要湿地或其他重要湿地,能为该城市提供一系列生态系统服务”提供直接信息支持,且中国在湿地城市认证时明确了行政区域内应当有国家重要湿地(含国际重要湿地)、国家级湿地自然保护区或国家湿地公园等。同时中国的《国际湿地城市认证提名办法》中关于区域湿地资源禀赋的要求则包括滨海城市湿地率≥10%,或者内陆平原城市湿地率≥7%,或者内陆山区城市湿地率≥4%、湿地保护率50%以上的规定(雷茵茹 等,2018),研究得到的常德市湿地率为9.64%,显然满足条件,研究结果可支撑国际湿地城市的湿地资源禀赋摸底分析。此外,研究结果也可对采取措施保护湿地及包括生物多样性、水文完整性等在内的生态系统服务(准则2)和实施湿地恢复或管理措施(准则3)等相关政策制定提供信息支持。
6 结论
本研究基于GEE 云平台和2020 年Sentinel-1/2时序遥感影像构建湿地分类特征优选集,耦合基于像元的随机森林算法和基于对象的知识规则模型实现国际湿地城市精细湿地信息提取,同时对常德市湿地进行空间分布格局分析。研究主要得到以下结论:
(1)采用最小冗余最大相关算法和递归梯度提升树算法探索了有利于湿地信息提取的优选特征集,将分类特征数从63 降至16 个,具体为旱期和汛期的B2、B4、SAVI,旱期的NDWI、NDBI、ARI、BSI、VH、NDVI 相异性和角二阶矩、植被和水淹频率特征,优选前后湿地分类总体精度减少0.9%,说明特征优选可以减少特征信息冗余的同时较好保持分类精度。
(2)基于随机森林算法方法得到的2020 年常德市土地覆盖粗分类结果总体精度为94.58%,Kappa 系数为0.94;基于对象的知识规则模型的湿地精细分类结果的总体分类精度为91.53%,Kappa系数为0.89,粗分类和细分类精度均较好,验证了耦合机器学习和知识规则决策模型进行湿地精细分类的可行性。
(3)常德市湿地主要分布在东部西洞庭湖平原区域,呈现出东多西少的空间格局,研究结果可为国际湿地城市认证指标中湿地资源本底方面的指标计算提供参考依据。
(4)研究构建了面向国际湿地城市的精细湿地景观分类体系,区分出多种水体类型,赋予湿地自然和人工主导属性;研究提出的精细湿地分类方法框架具有较好普适性和泛用性,可迁移到国内外其余相似国际湿地城市,为服务和支撑国际湿地城市建设及优选、城市湿地修复保护及可持续发展评估提供科学参考。
本研究主要优势在于新的面向国际湿地城市的湿地精细分类方案和方法体系的引入,同时本文也验证了耦合随机森林算法和知识规则进行湿地精细分类的可行性与可靠性。与其他已有湿地分类结果相比(黄群 等,2013;何锐 等,2016),本研究得到的湿地类别有8类,尤其针对水体进行了细致类别划分,且本研究的方法体系可以迁移至其余国际湿地城市或备选城市,时效性较强,空间分辨率较高,具有较好的应用潜力。
尽管本文中湿地分类取得了相对较好的精度,但后续研究还需要在以下方面进行完善:(1)研究采用基于像元的随机森林算法进行湿地分类,其逐像元的分类结果中会存在部分“椒盐现象”,后续研究将尝试结合面向对象的湿地分类方法进行对比分析研究;(2)采用基于对象的知识规则模型进行水体类型分类时以水体栅格转换为矢量为基础进行,此过程中会出现部分河流与湖泊连通从而形成一个整体多边形斑块的状况,此时需要进行人工矢量编辑来进行修正,该类情况一般出现在大型湖泊周围;(3)研究探究了多种特征变量对湿地综合分类的影响和相对重要性,但是未充分考虑多种特征对每一类地物分类的相对重要性,且对时序特征和物候信息在湿地精细分类中的作用未进行充分考虑,后续工作将重点研究更精细的时间序列特征对湿地分类的影响,以更好实现实时自动、智能优化的湿地精细分类。