APP下载

基于GEE云平台和数据融合的地表覆盖产品制作方法

2023-08-22林中云赵胜楠郭灵辉李亚龙任礼鹏

农业机械学报 2023年8期
关键词:训练样本数据源精度

王 宇 林中云 赵胜楠 郭灵辉 李亚龙 任礼鹏

(河南理工大学测绘与国土信息工程学院, 焦作 454000)

0 引言

地表覆盖(Land cover,LC)是地理国情监测[1]、生态系统评估[2]、国土空间规划[3-4]等研究的重要基础数据。随着LC产品的增多以及影像获取能力的提高,人们对高质量LC产品的需求越来越大。训练样本的获取是遥感分类的重要环节,目视判读精度高,但费时费力且依赖判读人员的专业素养。目前公开的LC产品数量和质量不断提高,为训练样本提供了重要数据源。以GEE、PIE、微软行星云为代表的遥感云平台的出现,极大简化了卫星影像的获取和预处理,云平台的海量数据和强大算力为LC制作及更新提供了有力支撑[5-7]。

已有遥感分类研究主要集中在分类器和特征空间方面的改进[8-11]。也有研究通过现有LC产品的集成达到同样目的,集成方式多采用多数投票原则、决策树规则[12]、积分原则[13]、半经验生成方法[14]等,少量的研究集成过程会借助卫星影像。以往遥感分类多基于多光谱影像,属于被动遥感,而雷达影像具有全天候观测、反映地物后向散射能力以及主动发射电磁波等特点,在遥感领域被广泛应用[15-17]。已有研究表明,融合光学、雷达影像对分类精度提升显著[18-21]。

基于以上考量,本文综合运用LC产品集成、云计算平台以及主被动遥感的优势,提出一种基于遥感云平台和数据融合的10 m级LC制作方法。以淮河流域为例,基于GEE平台将现有的2套2020年的分辨率10 m产品(ESA和ESRI)进行集成处理得到训练样本,以2020年的Sentinel-1雷达影像和Sentinel-2多光谱影像为数据源,将光谱波段、光谱指数、极化波段和地形特征作为分类特征空间,制作新的LC产品。精度验证时分别采用目视判读和基于现有产品作为参考数据的方式进行评估。为论证该方法的有效性,进行多组对比实验,分别验证不同影像数据源、不同训练样本量、不同验证样本数据源对分类精度的影响。

1 数据源与数据预处理

1.1 研究区概况

淮河流域涉及鄂、豫、皖、苏、鲁5省,位于黄河流域和长江流域之间,流域总面积约2.7×105km2,是中国人口最密集的地区之一[22]。淮河流域是中国重要的粮食生产基地,其地形以平原为主,山地和丘陵地区分散在流域西部、西南部和东北部[23](图1)。

图1 淮河流域概况Fig.1 Overview of Huaihe River Basin

随着经济快速发展和城镇化的需要,流域内资源被高强度开发,生态系统承受着巨大压力,耕地质量下降和退化等生态问题变得更加严峻,严重阻碍流域的可持续发展[24]。从人口、经济、生态3个角度考量,均有必要监测该地区的土地利用变化。

1.2 卫星数据源及预处理

Sentinel-1包含Sentinel-1A和Sentinel-1B 2颗卫星,搭载C波段合成孔径雷达,分别于2014年4月3日和2016年4月25日发射,重访周期为6 d,可提供单极化和双极化数据[25]。本文采用GEE平台2020年的Sentinel-1A在宽幅模式(IW)下的VV和VH数据。该数据已经过多视处理、地形校正,只需在GEE平台利用Lee滤波算法消除斑点噪声。

Sentinel-2卫星包含Sentinel-2A和Sentinel-2B 2颗卫星,分别于2015年6月和2017年3月发射,重访周期为5~10 d。该卫星拥有可见光、近红外和短波红外在内的13个多光谱波段,其中4个波段的空间分辨率为10 m,6个波段的空间分辨率为20 m,3个波段的空间分辨率为60 m[26]。本文选取Sentinel-2的蓝、绿、红、近红外和2个短波红外共6个波段。GEE在处理不同空间分辨率波段时默认进行最邻近重采样[27]。GEE所提供的Sentinel-2数据已经过大气校正等预处理,只需进行去云操作。

2 研究方法

2.1 训练样本制作

根据影像质量及淮河流域地类状况,设置水体、林地、建筑用地、草地、耕地和裸地6个类别。本文选取4种广泛使用的公开地表覆盖产品,用于训练样本制作和精度评估(表1)。

表1 不同产品的主要参数Tab.1 Main parameters of different products

为便于展示,ESA WorldCover、ESRI Landcover和Dynamic World地表覆盖产品分别简称为ESA、ESRI和DW。首先通过GEE平台在研究区内布置随机点,对于类别一致性较低或研究区内覆盖度少的地类(如裸地和草地)适当增加随机布设的数量,以减弱各类地物样本不平衡分布对实验造成的影响。然后调用ESA、ESRI地表覆盖数据集,依据两者产品的地物类型编码和类型含义,将类别转换成设置的6类。分别提取ESA和ESRI的类别值后,挑选出两者类别一致的共1 116个样本点作为训练样本。

2.2 特征构建

用于遥感分类的特征包括但不限于光谱、极化、指数、纹理、地形和时序特征等,本文选择VV和VH 2种极化方式下的后向散射特征作为Sentinel-1的分类特征。为提高分类精度,除了选择Sentinel-2常用的光谱特征,还选取了对植被、建筑、水体等地物敏感的光谱指数,包括归一化植被指数(NDVI)、增强植被指数(EVI)、归一化水指数(NDWI),同时加入对建筑物敏感的IBI指数[30],它由3个波段专题指数(土壤调节植被指数(SAVI)、归一化建筑指数(NDBI)以及改进归一化水体指数(MNDWI))计算得到,很大程度上提高了建筑用地提取精度。同时在GEE平台调用DEM数据,提取高程、坡度信息作为地形特征,加入到特征集合。

2.3 随机森林分类器

随机森林(Random forest,RF)是一种融合了随机子空间方法与Bagging集成学习思想的机器学习算法[31-32]。在训练设定数量的决策树时随机选取分类特征与训练样本,每棵决策树均互相独立,训练样本中未被抽取的样本作为测试样本验证模型的训练精度;模型训练完成后进行遥感分类,模型基于投票原则将多棵决策树的多个预测结果转换为票数最高的类别。这种方式使得模型获得了较高的精度和泛化性能。决策树数量作为RF的重要参数,并不是数量越多分类效果越好,数量过多容易出现过拟合现象,即模型在测试样本上精度很高,但在验证样本精度反而较差,模型泛化能力降低。因此在设置随机森林模型参数时需要综合考虑基于测试样本的分类精度和模型复杂程度。相比其他机器学习算法,RF模型训练时间少,鲁棒性较高,广泛应用于地表覆盖产品制作[33-34]。

3 结果与分析

3.1 分类产品与公开产品的精度对比

首先通过GEE平台融合ESA、ESRI产品得到1 116个类别一致的训练样本,然后对GEE平台存储的2020年所有Sentinel-1雷达影像进行热噪声消除处理,对Sentinel-2光学影像进行云掩膜,通过中值合成方法获得一期主、被动遥感数据,基于该数据构建特征空间;调用GEE平台内置的随机森林算法对输入的训练样本和分类特征进行训练;最后将训练好的RF模型应用于研究区整体,得到2020年淮河流域地表覆盖数据(图2)。

图2 2020年淮河流域地表覆盖产品Fig.2 Land cover product of Huaihe River Basin in 2020

为衡量雷达数据对产品的提升效果,以及4套公开产品在淮河流域的精度,本文对2020年的ESA、ESRI、DW和GlobeLand30 4套产品,以及仅用Sentinel-2进行分类得到的产品(S2)采用同一套验证数据集对比分类精度。精度验证时随机抽取3 159个点,结合Sentinel影像和高清地图进行目视判读。精度评价结果如表2所示。

表2 不同产品的精度评价对比Tab.2 Comparison of precision evaluation for different products

由表2可知,本文所提方法的分类产品总体精度最高,精度达80.35%,DW与ESA的分类精度相当,总体精度分别比本文产品低2.89、3.33个百分点;ESRI与S2相当,精度分别比本文产品低3.52、3.90个百分点。GlobeLand30作为30 m分辨率产品,分类效果与更高空间分辨率的产品还有一定差距,分类精度最低。此外,在光学影像的基础上添加SAR影像使得地物分类精度提高3.52个百分点,表明主被动卫星影像融合对产品分类精度的提升有着积极作用。整体而言,耕地、森林、水体和建筑用地的分类精度相对较高,裸地和草地较低。这主要是与这两类地物的分布特征,以及影像特性有关。

为探究不同LC产品的细节表现,选取研究区东部(区域a)、南部(区域b)、西部(区域c)、北部(区域d)的局部区域进行对比,同时添加谷歌影像作为参考(图3)。从图3中可以看出,本文产品地类边界清晰、精确,体现出更多的空间细节:区域a和区域d的建筑区域的道路交错现象、区域c水域边缘的零星细碎植被均被较好地反映出来,区域b中水田与河流被明显区分出来且轮廓清晰。ESA细节表现良好,但其存在较多的混分、错分现象导致其总体精度偏低。ESRI和DW的细节相对粗略,各区域没有更多的细节展示;GlobeLand30的空间分辨率为30 m,细节刻画不如其它产品,同时错分现象严重,如区域b的水域基本都被识别为耕地。就视觉效果而言,SAR影像的参与使得分类结果的地物边缘轮廓更加清晰。融合了Sentinel-1和Sentinel-2的ESA和本文产品在处理地形复杂的地区具有相对优势,此类地区应重点关注雷达数据的辅助,在文献[35]中可以得到相同结论。此外,本文训练样本来源于ESA和ESRI,卫星影像来源与ESA一致,导致本文产品与ESA产品有较多相同之处。整体而言,本文方法获得的LC产品分类效果更好,优于现有公开产品。

图3 本文产品与公开地表覆盖产品的局部对比Fig.3 Partial comparison between proposed product and other land cover

3.2 训练样本量和验证样本数据源对产品精度的影响

为研究不同训练样本量的分类效果差异,从ESA和ESRI产品中分别随机选择500、1 000、3 000、5 000、7 000、9 000、12 000、15 000个类别一致的样本,采用相同的卫星数据(S1+S2)和分类器进行分类(图4)。

图4 不同训练样本量的地表覆盖产品Fig.4 Land cover based on different training sample sizes

精度验证时同样采用上文目视解译的验证点位。为衡量不同参考数据源对精度评价的影响,分别将ESA、ESRI、DW、GlobeLand30以及目视解译的类别作为参考源,得到的分类精度变化如图5所示。

图5 不同训练样本量和不同参考数据源条件下的分类精度Fig.5 Classification accuracies under different training sample sizes and reference data source conditions

训练样本数量相同时,不同参考源的评估精度差异较大。其中,参考ESA得到的总体精度整体最高,在78.51%~81.16%之间波动,参考ESRI、DW 和目视解译类别次之。目视解译的评估结果介于ESA、DW之间,表明在LC精度验证环节,可以考虑用已有公开产品作为参考数据源。以GlobeLand30为参考的分类精度最低,总体精度低于其他产品4.33~7.34个百分点。

训练样本数量变化时,在训练样本数量较少(500~7 000)的情况下,实验得到的分类精度提升显著,随着训练样本不断增加,总体精度的提升幅度随之降低,甚至由于样本误差而出现精度下降。而训练样本对分类精度的影响包含样本质量和数量两个方面,当使用较大的样本量进行训练时,数据量的增加很可能会引入新的误差(例如样本标记错误)使训练样本质量降低。

3.3 讨论

高空间分辨率的地表覆盖数据是地球系统研究、生态系统管理的重要基础数据,对国土空间规划、制定可持续化发展战略具有重要意义。然而,公开地表覆盖产品所采用的分类模型和训练样本存在差异,类别定义同样存在差异,比如每套产品用来定义草地、灌木、林地的标准不尽相同,以上差异会影响不同产品之间的一致性。因此,本文在提取训练样本时利用2种公开的10 m地表覆盖产品,通过随机提取类别一致的样本点,降低了不同产品几何位置、类别定义、产品质量的偏差,保证了训练样本的准确性。

本文目前仅论证了所提方法在制作与训练样本来源(公开产品)同一年份的地表覆盖产品的效果,尚未进行后续其它年份10 m地表覆盖产品的更新。另外,本文仅利用分类效果较好的随机森林进行分类,没有对比分析不同分类方法之间的差异。因此,未来计划在GEE平台上利用公开产品以及变化检测算法自动提取未变化区域的训练样本,并在分类特征中加入时间序列特征,开发一种高分辨率、高精度、长时序的逐年地表覆盖产品更新方法,为地理国情监测及可持续发展等事业提供更精确的数据支撑。

4 结论

(1)对大区域的制图工作而言,传统方法的训练样本获取成本较高,本文所提方法制作成本较低,能为频繁和重复制作大比例尺专题图提供便利。

(2)以目视判读的方式评估本文产品与现有LC产品时,本文产品的精度最高(80.35%),相较于公开产品的总体精度提升2.89~8.94个百分点,更能细致地反映地表覆盖类型的局部特征。此外,加入SAR影像作为数据补充使得分类精度提升3.52个百分点,表明主被动卫星影像融合对分类精度的提高有积极作用。

(3)分类精度随训练样本量的增多呈先增加后稳定的趋势。目视解译的评估结果介于ESA、DW之间,表明精度验证时人工判读在一定程度上可以被已有产品替代。

猜你喜欢

训练样本数据源精度
人工智能
基于DSPIC33F微处理器的采集精度的提高
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
GPS/GLONASS/BDS组合PPP精度分析
基于真值发现的冲突数据源质量评价算法
改进的Goldschmidt双精度浮点除法器