基于GEE云平台的山东省不透水面提取
2024-01-29刘声
刘 声
(广东省有色地质测绘院,广东 广州 510055)
0 引 言
不透水面是一种能阻止水分渗入地下的人造结构,一般由建筑、广场、道路等构成[1]。不透水面是城市化进程的一个重要指标,城市的扩张在改善居民生活条件的同时,也引起了一些环境问题,包括城市热岛效应、生物多样性减少、城市内涝等[2-3]。因此,研究不透水面及其变化对于了解城市化过程、城市发展规划以及智慧城市建设等具有重要意义[4]。
遥感技术给近几十年来地球表面连续动态监测提供了新的手段[5]。各种遥感数据,如中分辨率成像光谱仪(MODIS)[6-7]和Landsat数据[8-9],以及合成孔径雷达(SAR)数据[10]已经广泛用于不透水面监测。其中,Landsat系列数据被广泛用于以30 m的分辨率绘制大尺度不透水面地图,但是其经常会遇到混合像元问题,在城市地区的异质景观中尤为严重[11]。哨兵系列数据相较于Landsat系列,在空间分辨率和时间分辨率方面都得到了提高,成为不透水面研究的重要数据源。徐瑞等[12]提出了一种基于Sentinel-2数据的不透水面识别方法,经过实验该方法能有效改善不透水面与裸土的混淆。近年来,如Amazon Web Services、NASA Earth Exchange、Microsoft Azure 和 Google Cloud等云计算平台的出现为地理空间大数据的研究提供了新的机遇[13]。Google Earth Engine(GEE)是一个开放的云计算平台,拥有海量的卫星影像和地理空间数据,依托高性能服务器集群实现对海量影像的在线处理和可视化,大大提高了工作效率[14]。
本文基于GEE平台,将Sentinel-1SAR数据和Sentinel-2光学数据结合使用,采用随机森林算法对山东省不透水面进行提取,探究了SAR数据对不透水面提取精度的影响,以期选择合适特征和方法快速准确地提取大范围不透水面。
1 研究区与数据源
1.1 研究区概况
山东省位于中国东部沿海,地处北纬34°22.9′~38°24.01′,东经114°47.5′~122°42.3′之间,陆地面积约15.8万km2。山东省下辖16个地级市,地形如图1所示,类型包括山地、丘陵、台地、盆地、平原、湖泊等多种类型,属于温带季风气候。
图1 研究区
1.2 数据来源与预处理
研究中使用了Sentinel-2的L2A级多光谱数据、Sentinel-1地距格式的后向散射系数数据、SRTM30m高程数据以及训练和验证样本数据。除样本数据外,其他数据均在GEE平台在线调用并处理。
1.2.1 遥感数据及预处理
Sentinel-2的L2A级数据是通过欧空局sen2cor工具计算生成的,研究中使用了2020年4月覆盖山东省的Sentinel-2影像217景,通过GEE平台过滤云量阈值条件和去云算法去除云污染的影响,采用中值合成方法得到覆盖研究区的完整无云影像。GEE平台的Sentinel-1数据是使用Sentinel-1工具箱处理生成的正射校正影像,预处理过程包括辐射校正、多视、热噪声去除、地形校正,最终将强度数据转换为后向散射系数数据。研究中使用2020年4月覆盖研究区的VV(垂直发射、垂直接收电磁波)和VH(垂直发射、水平接收电磁波)极化地距格式多视影像(GRD)各70景。将所有遥感数据均采样至10 m,通过GEE内嵌算法实现不同数据源的高精度几何配准。
1.2.2 训练和验证样本
本文采用分类的方法提取不透水面,利用目视解译从Google Earth高分辨率影像中采集样本点。结合研究区土地覆盖情况将样本分为5类,共采集样本点2 535个,各类样本数量如表1所示。样本将上传至GEE平台用于随机森林训练和精度验证,训练样本和验证样本的比例为7∶3。
表1 样本类型及数量
2 研究方法
2.1 特征集构建
不同的遥感指数可以反映不同地物的物理特性,增强地类之间的差异,由于地物在遥感影像上普遍存在的“异物同谱”和“同物异谱”现象,单一指数特征难以实现不透水面的准确提取,本文使用多特征构建特征集,综合利用不同遥感指数的性能侧重提高不透水面的提取精度。本文选取归一化植被指数(Normalized Difference Vegetation Index,NDVI)突出植被信息,改进的归一化水体指数(Modified Normalized Difference Water Index,MNDWI)[15]突出水体信息,土壤调节植被指数(Soil Adjusted Vegetation Index,SAVI)[16]区分裸土和植被信息。归一化建筑指数(Normalized Difference Built-up Index,NDBI)[17]是遥感提取不透水面的常用指数,但单独使用会出现裸土和建筑的混淆现象,结合SAVI可以减少裸土和建筑之间的混合。各个遥感指数的计算方式如下:
(1)
式中,NIR、Red、Green、SWIR分别为近红外、红光、绿光、短波红外波段的反射率,L为土壤调节因子,本文取0.5。
为了增加用于随机森林分类器的特征数量,哨兵2号的光谱波段、由SRTM30m数据提取的高程和坡向特征也被用于构建特征空间。SAR是一种主动微波遥感技术,在SAR影像上,建筑等人工地物通常有比其他地物更强的后向散射回波信号,利用这一特征可以将人工目标和自然目标进行区分[18]。综上所述,选取了光谱特征、遥感指数特征、地形特征和雷达特征共18个特征构建特征集(表2)。为了研究哨兵1号VV和VH极化特征对不透水面提取精度的影响,本文设计了两个方案,方案1为光谱特征、遥感指数特征和地形特征,方案2为全特征参与分类。
表2 特征集说明
2.2 随机森林分类
特征集构建好后在GEE云平台上部署随机森林分类算法分别对两个方案进行训练和预测。随机森林是一种由决策树集合组成的非参数机器学习方法,随机森林算法创建多个决策树,根据特征变量对训练数据的随机子集进行分类[19]。随机森林算法已被广泛应用于对遥感影像进行分类,如森林覆盖制图、湿地制图、农作物制图和土地覆盖制图等[20-22]。本文在随机森林分类器中使用了100棵决策树,最终分类结果基于树的多数投票。通过训练样本和验证样本对2020年4月的山东省不透水面进行提取和精度验证,所有分析均在GEE云平台上进行。
3 结果与分析
3.1 精度评估
为了评估随机森林分类的准确性,将最终结果分为不透水面和透水面两类,通过从混淆矩阵中提取的生产者精度(PA)、用户精度(UA)、总体精度(OA)和Kappa系数进行精度评估。2个分类方案的精度如表3所示,使用光学特征和雷达特征的方案2总体精度为92.17%,Kappa系数为0.79,均高于仅使用光学特征的方案1。哨兵1号双极化特征的加入,使不透水面的生产者精度和用户精度分别提高了4.21%和3.48%,总体精度和Kappa系数分别提高了1.89%和0.05。
表3 两种方案的分类精度
不透水面提取结果显示,没有雷达特征参与提取的不透水面像元数多于雷达特征参与提取的结果(图2)。通过分析提取结果发现主要原因有2个:① 无雷达特征参与的方案1存在不透水面和其他地类的混淆现象,不透水面被高估;② 加入雷达特征的方案2对于道路等线状不透水面类型的提取效果不佳,导致部分线状不透水面的低估。
图2 两种方案提取结果
图3选取了3个不同的区域进行分析,分别为青岛市、济南市和德州市的局部区域,对应了不同密度的不透水面以及道路分布情况。从局部对比图可知,雷达特征的使用使不透水面的边界更为清晰,不透水面内部的小空洞明显减少,提取结果更为完整。此外还减少了农田和裸土的误提取,对于大片建设用地范围内的裸土和林地等其他类型也有较好的区分效果,如图3中(a)标识的农田和(b)标识的裸土被方案1错提为不透水面。另一方面,加入雷达特征后对于线状不透水面如高速公路、机场跑道等提取效果不佳,相比仅使用光学特征进行提取的结果边界不够清晰,道路提取不全,如图3德州市局部所示。由于SAR影像对地物的材质、表面粗糙度等介电性质比较敏感[23],房屋建筑地类在SAR影像上会产生很强的后向散射回波,而对于道路、水体这类表面光滑的地物表现为低反射,因而增加了道路和水体之间的混淆情况,导致道路的提取效果不佳。
图3 两种方案局部对比
3.2 后向散射系数对分类精度的影响
为了进一步分析参与分类的各个特征对分类精度的影响,本文分析了由随机森林算法计算得出的特征重要性(图4)。随机森林算法最广泛使用的特征重要性度量之一是平均减少杂质(MDI,或称基尼重要性),MDI计算给定特征的所有拆分所贡献的损失或杂质的总减少量[24]。为方便对比,对每个特征计算得出的MDI进行标准化处理,以使所有特征的重要性总和为1。雷达特征在所有参与分类的8个特征中具有最高的重要性,其中VH极化后向散射系数占比约6.97%,VV极化后向散射系数占比约5.84%,其次为高程特征,占比约6.04%。
图4 所有特征的重要性占比
4 结 语
本文利用GEE云平台和随机森林算法对山东省不透水面进行了提取,通过设计方案研究哨兵1号SAR特征对不透水面提取的影响,通过对提取结果进行对比分析得出以下结论:
(1)雷达和光学数据结合提取不透水面总体精度为92.17%。Kappa系数为0.79,均高于仅使用光学数据。
(2)雷达特征的重要性优于光学特征,光学与雷达数据结合使不透水面边界更清晰完整,显著减少了对裸土等其他地类的错提。
(3)雷达特征对于面状不透水面的提取效果优于线状不透水面,实际使用中应针对不同的应用场景选择合适的特征。