基于Google Earth Engine的广西红树林分布提取研究
2021-11-06袁胜
袁 胜
(广西壮族自治区森林资源与生态环境监测中心, 广西 南宁 530028)
红树林是指生长于陆地与海洋交界带的滩涂浅滩,以红树植物为主体的湿地木本植物群落[1]。红树林具有防风消浪、促淤保滩、固岸护堤、涵养净化水域、保持生物多样性的重要生态功能,是沿岸防护林体系的第一道海岸防线[2]。由于红树林生长环境的特殊性,常规的森林野外实地调查方法难以大规模监测和准确提取红树林群落信息分布[3-4]。遥感技术观测范围广、数据更新周期短、信息获取方便快捷,成为红树林提取与动态监测的重要手段[5-6]。
红树林遥感识别提取方法主要有目视解译、非监督分类、面向对象、监督分类等[7-9]。目视解译主要是结合研究者的专业知识及经验,根据遥感影像对红树林进行识别。该法精度一般且费时费力。非监督分类是指人们事先对分类过程不施加任何的先验知识,仅凭遥感影像地物的光谱特征的分布规律进行自然聚类。非监督分类只能把样本区分为若干类别,而不能给出样本的描述。面向对象法在信息提取时综合考虑了光谱特征、形状、纹理及结构等信息,成为红树林遥感自动分类的常用方法之一[9]。监督分类依据已知训练样本,建立统计识别函数,从而对各待分类影像进行分类。机器学习方法能显著减少分类时间,并且算法的准确率也得到了显著的提高。其中,随机森林分类能直接处理高维数据,对噪音和异常值有一定的容忍度,且预测误差小、不易产生过拟合问题,在已有红树林遥感分类研究中具有较好效果[10-12]。在分类特征上,常利用归一化植被指数(NDVI)、归一化水体指数(NDWI)、归一化差值湿度指数(NDMI)等光谱特征变量及纹理参数来区分红树林与非红树林[7]。此外,还有部分研究结合海岸线、潮位高度、高程等辅助数据,以提高红树林识别精度[13-14]。在影像数据方面,随着遥感技术的发展,运用到红树林研究中的遥感平台及传感器越来越多。其中,Google Earth Engine(GEE)[15]等遥感云计算平台的发展,改变了传统遥感数据处理和分析的模式,为遥感大数据挖掘提供了机遇。Sentinel-2作为分辨率较高的多光谱影像,光谱信息丰富,是红树林提取的重要数据源之一[14]。利用GEE处理、获取Sentinel-2将极大地提高影像的利用效率。
本研究以广西壮族自治区沿海红树林分布区为研究区,基于GEE云平台提取Sentinel-2遥感影像,结合红树林实地调查数据,分别采用面向对象方法和基于像元的随机森林方法识别提取红树林空间分布信息,并构建混淆矩阵进行精度验证及对比分析,旨在为大范围红树林遥感监测提供参考。
1 研究区与数据源
1.1 研究区概况
研究区位于广西壮族自治区南部沿海地区,包括北海市、钦州市、防城港市等分布红树林的部分县市(见图1)。研究区地处低纬度,属亚热带季风气候区和热带季风气候区,年平均气温17.5~23.5 ℃,年平均降水量841.2~3 387.5 mm,年日照时数1 213.0~2 135.2 h。研究区南临北部湾,海岸线曲折,溺谷多且面积广阔,滩涂面积约10万hm2,其中红树林总面积达9 330 hm2。红树林树种主要有桐花树(Aegicerascorniculatum)、白骨壤(Avicenniamarina)、秋茄(Kandeliacandel)、无瓣海桑(Sonneratiaapetala)、木榄(Bruguieragymnorhiza)、老鼠簕(Acanthusilicifolius)、海漆(Excoecariaagallocha)。
图1 研究区域概况Fig.1 The overview of the study area
1.2 数据源
根据广西林地变更及森林资源调查成果,提取红树林现有林和宜林地图斑;结合遥感影像,补充修正现有红树林资源图斑,并通过2019年外业补充调查核实,得到研究区红树林实际空间分布数据。基于红树林实地调查数据,将研究区主要地物划分为红树林和非红树林。在ArcGIS软件中利用渔网工具进行样本布点,最终共布设样点4 709个,其中地类为红树林的样点218个,非红树林样点4 491个。所布设样点数据用于面向对象方法及随机森林方法分类及精度验证。
2 研究方法
2.1 遥感影像获取
遥感云计算平台Google Earth Engine(GEE)依托其遍布全球数以百万计的服务器,可以方便地访问高性能计算资源、计算庞大的地理空间数据集、并行处理和分析数以万亿计的图像[16]。采用的多光谱Sentinel-2影像数据通过GEE进行最小云合成并下载。影像时间为2019年7-9月。
2.2 影像信息提取
植被指数由不同遥感光谱波段经线性或非线性组合构成,对植被具有一定指示意义[17]。在红树林提取研究中,常用归一化差值水体指数(NDWI)、归一化差值湿度指数(NDMI)等植被指数进行空间分布信息的提取[7]。因此,利用遥感影像计算分类所需的光谱特征变量,包括单波段反射率[18]、红边叶绿素指数(RECI)[18]、红边归一化植被指数(RENDVI)[18]、归一化差值池塘指数(NDPI)[19]、归一化差值湿度指数(NDMI)[13]、归一化差值水体指数(NDWI)[13]、改进归一化差值水体指数(MNDWI)[12]、归一化差值植被指数(NDVI)[18]及潮间红树林指数(NIMI)[14]。
2.3 红树林提取及精度评价
面向对象的红树林提取采用eCognition Developer 9.0软件对影像进行多尺度分割后,结合对象的光谱特征,通过确定阈值并创建相应规则对红树林进行分类提取,并将最终分类结果以矢量数据形式输出。随机森林分类算法在R语言中实现,它通过随机建立多棵决策树,分类时使用多棵决策树对样本进行判断和投票,将投票次数最多的类别指定为最终输出[12]。研究选取70%的样本数据作为训练样本,剩余30%的样本数据作为验证样本。在分类精度评价中,常采用分类总体精度与Kappa系数来评价图像整体分类质量[3]。为避免非感兴趣区的分类精度影响最终的评价,最终基于混淆矩阵选取用户精度[20](User Accuracy, UA)、生产者精度[20](Producer Accuracy, PA)、F度量[3]作为红树林分类提取的精度评价指标。
(1)
(2)
(3)
式(1)(2)(3)中:pii为混淆矩阵第i行i列的样本总数;pi+为混淆矩阵第i行的总和;p+i为混淆矩阵第i列的总和。
3 结果与分析
3.1 分类特征变量
采用面向对象方法进行红树林提取时,影像分割过程所需考虑的参数包括尺度、色调、形状、紧密度及平滑度。结合目视分析评价分割效果,确定采用的分割参数如下:影像各层占比均为1;分割尺度为2;形状0.6;色调0.4;紧密度 0.5;平滑度0.5。在影像分割的基础上,结合对象的光谱特征进行阈值分类。最终选取的光谱特征变量包括NDPI、NDWI、NDMI、NDVI以及NIR。首先利用NDMI、NDPI及NDVI识别建设用地、水体及陆地植被等非红树林区,再利用NIR及NDWI将红树林与农田滩涂等进行区分,最终得到红树林空间分布。特征变量阈值确定需结合影像目视判断,具有主观性,可能对红树林提取造成影响。
基于随机森林方法进行红树林提取时,主要利用地物光谱波段特征及植被指数进行分类,将所有特征变量进行重要性排序(见图2)。重要性越高代表对随机森林建模的贡献越大。选择重要性较高的变量形成变量组合建立随机森林模型对红树林进行分类提取。最终选用的特征变量包括NDMI、NDPI、MNDWI、RENDVI、RECI及GREEN。从随机森林方法各特征变量重要性来看,红边、绿、近红外及短波红外波段组合而成的植被指数对于红树林的特征识别更为有效。
图2 随机森林特征变量重要性排序Fig.2 Importance sorting of feature variables based on random forest
3.2 红树林遥感提取结果及精度评价
分别采用面向对象方法和随机森林方法对红树林进行识别提取,提取结果如图3所示。从图3来看,随机森林方法提取结果噪点较多,这可能是由于随机森林方法是在像元尺度进行的分类提取;而面向对象方法是在分割所得对象的基础上进行的提取,所得红树林空间分布相比于随机森林方法噪点更少。但面向对象方法在提取红树林时存在较大程度的误判,将部分非红树林区域识别为红树林。相比之下,随机森林方法所得红树林空间分布相对更为合理。
图3 面向对象及随机森林法的红树林提取结果
采用混淆矩阵进行分类精度验证,最终结果如表1所示。两种方法红树林的生产者精度均低于用户精度。面向对象分类方法将红树林漏判为非红树林的数量约占据红树林总样本的1/3,其红树林用户精度为82.5%。随机森林分类红树林的用户精度为91.8%,相比于面向对象法提高了11.3%。此外,面向对象分类红树林生产者精度为65.1%,F度量为0.727;随机森林分类方法对应的评价指标值分别为81.2%、0.862。随机森林方法的各项评价指标均高于面向对象方法,说明随机森林分类方法有较高的分类精度,采用随机森林方法进行红树林提取的效果优于面向对象方法。
表1 分类结果混淆矩阵及精度验证Tab.1 Confusion matrix and precision verification of the classification results分类方法分类类别实际类别红树林非红树林用户精度/%生产者精度/%F面向对象红树林1423082.565.10.727非红树林764 461随机森林红树林56591.881.20.862非红树林131 339
4 结论与讨论
4.1 结论
以广西壮族自治区内红树林分布区为研究区,基于GEE云平台提取Sentinel-2遥感影像,结合红树林实地调查数据,提取波段反射率及植被指数,分别采用面向对象、随机森林方法进行红树林信息识别提取,并构建混淆矩阵进行精度验证及对比。研究结果表明:
(1) 绿、近红外、短波红外及红边波段组合而成的植被指数,其重要性相对较高,能有效识别红树林的特征。利用这些波段信息进行红树林识别能显著提高分类精度。
(2) 采用面向对象方法和随机森林方法进行红树林提取时,两种方法的生产者精度均低于用户精度。面向对象方法和随机森林方法生产者精度分别为65.1%和81.2%,用户精度分别为82.5%和91.8%。
(3) 基于Sentinel-2影像数据,结合NDMI、MNDWI、NDPI等分类特征,构建随机森林模型,可以有效地提取红树林空间分布信息。采用面向对象方法和随机森林方法进行红树林分类提取时,随机森林方法的各项精度检验指标均高于面向对象方法。其中用户精度为91.8%,相比面向对象方法提高了11.3%。
4.2 讨论
随机森林分类在红树林提取上表现较好,这与其他学者研究所得结果相符[11,14],但本研究所得的生产者精度相较而言较低,这可能是研究区范围较大、地物复杂程度高所致。面向对象方法与随机森林方法在红树林提取中均存在较多漏判现象,这可能是因为所使用Sentinel-2影像中部分红树林因潮位变化被水体淹没,导致其光谱特征更接近于水体,从而产生漏判。结合光谱特征及植被指数构建随机森林模型能有效提取红树林的空间分布信息,但红树林的分布和生长受到潮汐、洋流等多种因素的影响,而遥感又存在 “同物异谱”、“异物同谱”及混合像元等多种现象,这使提升红树林分类精度的难度增加。研究表明,结合纹理特征、高程数据或使用更高分辨率影像能有效识别红树林[21-22]。因此,结合更多有效的辅助数据进而提高红树林提取精度值得进一步研究。