基于自动机器学习的全球尺度滑坡灾害易发性预测
2022-10-20唐贵希方志策李朋磊
王 毅, 陈 曦, 唐贵希, 方志策, 李朋磊
(1.中国地质大学(武汉),湖北 武汉 430074; 2.湖北省地质调查院,湖北 武汉 430034;3.湖北省地质局 遥感应用技术中心,湖北 武汉 430034)
滑坡是一种常见的地质灾害,在全球范围内分布广、发生频率高、灾害破坏力强,对人类生命和财产构成巨大威胁[1]。滑坡灾害易发性预测能够预测研究区内发生滑坡的空间概率,从而为滑坡灾害风险管理及监测提供可靠的科学依据。滑坡易发性预测方法主要分为两大类:确定性预报方法和非确定性预报方法。前者主要针对单个滑坡预测,包括适用于短期和临期滑坡预报的斋腾迪孝法[2]、适用于长期滑坡预报的有限元法[3]等,此类方法通常具有严格且确定的数学函数关系式,且每个参数均有明确的解释,能够反映滑坡发生的物理实质[4]。后者主要包含知识驱动型和数据驱动型两大类,基于非确定性预报的滑坡易发性预测方法经历了从定性到半定量、再到定量的发展过程[5],该方法不强调预报模型中函数式的各个参数的准确性,而是通过调查宏观地形地貌等一系列滑坡内外在影响因子,对滑坡进行空间规划,更适于滑坡灾害风险管理的宏观决策,如Saboya等[6]运用模糊逻辑法将专家选择的滑坡诱因转换为模糊数,在巴西里约热内卢进行了滑坡易发性预测。知识驱动型方法很大程度上依赖于专家知识,但人为因素干扰较大,导致滑坡易发性预测结果的精度偏低。
随着3S技术的飞速发展,多源对地观测数据越来越丰富,使得近年来滑坡数据的精度和可靠性也越来越高。面对海量数据,数据驱动型方法已经展现出强大优势,其应用也日渐成熟,主要包括信息量[7-8]、多元统计分析[9-10]、证据权[11]、朴素贝叶斯(Naive Bayes,NB)[12]、随机森林(Random Forest,RF)[13]、逻辑回归[14-15]、支持向量机[16-17]、决策树[12-18]、人工神经网络[19-20]等统计学和机器学习模型。然而,机器学习方法需要专业研究人员进行极其繁琐的模型选择和参数调整等操作,因此降低使用机器学习的时间和人工成本已逐渐成为当前研究热点。自动机器学习作为新兴的智能学习方法,能够自动筛选特征、自动选择模型和动态调整模型参数,因此被广泛应用于医学图像识别[21-22]、物体检测[23-24]、语义分割[25-26]、文本分类[27]、损失函数搜索[28-29]等领域。
在多源数据的支持下,全球滑坡易发性研究愈发受到研究人员的重视。然而,全球尺度的滑坡灾害易发性预测面临诸多挑战。首先,全球滑坡编目数据获取较难,众多易发性预测研究所使用的数据并未公开,即使能获取研究数据,当将其应用于全球滑坡易发性预测时,往往需要大量的人工成本进行鉴别和筛选。其次,全球滑坡灾害易发性预测还存在模型选择较为局限、无法确定最优模型等难点。最后,目前全球滑坡易发性制图精度普遍偏小,几十千米至几弧度的精度并不能有效应用于滑坡灾害风险管理中。鉴于自动机器学习模型对于滑坡灾害易发性预测具有良好的针对性,因此基于自动机器学习的全球尺度滑坡灾害易发性预测研究具有广阔的应用前景。鉴于此,本文基于全球滑坡开放数据集,充分利用自动机器学习的特性,并最大程度地提升模型预测性能。具体而言,拟以Auto-PyTorch自动机器学习模型为基础,构建全球尺度滑坡易发性预测框架,探究自动机器学习在全球尺度下滑坡易发性预测中的可行性,期望为全球性滑坡灾害风险管理提供科学依据。
1 数据准备与分析
1.1 滑坡编目数据
滑坡编目数据对于易发性预测和后续验证评价举足轻重。然而,开展全球尺度下的滑坡易发性预测时,滑坡数据精度参差不齐,其完整性和精确性也难以保证。本次研究选用了全球开放在线滑坡存储库(Cooperative Open Online Landslide Repository,COOLR),该存储库是基于美国国家航空航天局启动的全球滑坡目录(Global Landslide Catalog,GLC)进行的深度开发产品[30],记录了2007年以来山体滑坡的信息来源、源链接以及滑坡发生时间、发生位置、诱发原因、诱发事件的具体描述、滑坡规模、数据精度等。此外,本次研究还使用了全球致命滑坡数据库(Global Fatal Landslide Database,GFLD),该数据库记录了2004—2017年间对人类造成生命威胁的山体滑坡的发生时间、发生位置、诱发原因、造成的人员伤亡情况、数据精度等[31]。
需特别指出的是全球尺度的滑坡数据库存有量极其有限,即便已发布COOLR和GFLD,但仍无法满足全球滑坡易发性制图数据规模的要求。因此,研究中搜集了部分筛选的精确区域滑坡数据集对全球尺度的滑坡编目数据进行补充,如意大利国家滑坡数据库(FraneItalia)记录了2010—2019年间意大利发生的山体滑坡事件,根据滑坡数量、类别和人员的生命财产损失程度进行了分类,而滑坡数据精度运用确定、近似和市政提供的滑坡数据三个等级进行划分[32];澳大利亚山体滑坡数据库记录了2008—2018年间澳大利亚的滑坡数据,根据数据来源的可信度,将滑坡划分为GPS测量、GIS定位、地图定位、卫星影像定位、本地报道、根据报告定位的滑坡以及未知等类别[33];新西兰国家滑坡数据库(New Zealand Landslide Database,NZLD)同样是一个共享数据库,但缺少数据精度的信息解释[34];美国华盛顿州[35]和犹他州[36]的滑坡数据库同样根据精度信息对滑坡编目数据进行了分类。
滑坡编目数据精度对于易发性研究至关重要。由于不同滑坡数据库的数据精度各不相同,为了增加全球尺度下滑坡易发性预测的可信度,需要对以上搜集的滑坡数据进行筛选。对于全球滑坡数据库而言,选择COOLR和GFLD两个数据库1 000 m以下的滑坡数据;对于局部区域滑坡数据库而言,选择FraneItalia中确定和近似两个精度等级的滑坡数据,选择澳大利亚山体滑坡数据库GPS测量、GIS定位、地图定位、卫星影像定位四种来源的滑坡数据,选择NZLD中有具体时间记录的滑坡数据,选择美国华盛顿州和犹他州滑坡数据库中精度等级为高的滑坡数据。最后,在表1中列出了各滑坡数据库在90 m精度下的具体滑坡数据量等信息,重采样至1 000 m后滑坡数据量为14 290个。
表1 滑坡数据来源
1.2 滑坡影响因子
研究区域为全球60°N-60°S纬度范围内,其滑坡易发性预测是基于SRTM DEM 90 m数据的Version 4版本来完成[37],该数据是位于全球60°N-60°S纬度范围内的高程数据集(图1)。同时考虑了全球尺度滑坡样本空间分辨率不够精细的内因以及制图时间效率偏低的外因,将SRTM DEM 90 m数据重采样至1 000 m,并基于此精度开展全球滑坡易发性制图研究(图1-a)。具体地,滑坡易发性预测研究中所采用的坡度(图1-b)、坡向(图1-c)、平面曲率(图1-d)和剖面曲率(图1-e)等因子均基于重采样的SRTM DEM数据进行提取。
图1 基于DEM的滑坡影响因子专题图
岩性数据对于易发性预测至关重要。不同种类的岩石所能承受应力不同,在雨水、植被等作用下的内部应力变化也各不相同,然而大多精度更高的岩性数据库无法有效支持在全球尺度下的易发性预测。本次研究所使用的岩性数据来自全球岩性数据库(Global Lithological Map,GLiM),该数据库是将全球范围内多张区域可用最高分辨率的岩性数据图组合而成,根据精细度、数据量及数据一致性等准则进行数据合并,共包含16种岩性[38](图2)。
图2 岩性因子专题图
土地覆盖状况对于诱发滑坡同样重要。土地覆盖状况相较于岩性数据在时间尺度上变化更频繁,考虑到滑坡数据均为2010年左右采集,并综合考虑数据量和土地覆盖数据出图时间,采用欧洲航天局于2009年发布的全球陆地覆盖数据GlobCover(图3)[39]。其空间分辨率为300 m,该数据运用Envisat卫星中MERIS(Medium Resolution Imaging Spectrometer)传感器进行采集,土地覆盖数据的地物类别详见文献[39]。
图3 土地覆盖因子专题图
降雨是滑坡的另一大诱因。本次研究选取了东英吉利大学气候研究部门发布的WorldClim 2数据集[40-41]。以2000—2018年的世界降雨量数据的平均值作为降雨量因子,空间分辨率为21 km(图4)。
图4 降雨量因子专题图
地球上主要有三大地震带:环太平洋火山地震带、欧亚地震带和洋脊地震带。地震发生时能触发大量滑坡,而震后由于改变斜坡受力结构,同样会导致滑坡不断发生。本次研究采用全球地震模型基金会(GEM)发布的全球主动断层数据库(GAF-DB)[42],将计算的距离断层数据的欧式距离作为断层距离因子数据(图5)。
图5 断层距离因子专题图
为了保持精度一致,以上所有因子均重采样至1 000 m 的空间分辨率,并且所有数据集都保持在WGS84 CRS(EPSG:4326)坐标系下进行制图,各因子的重分类则由自然断点法来实现。
2 滑坡易发性评价模型
本次研究的主要目的是探究自动机器学习进行全球尺度滑坡易发性预测的可行性,其总体技术路线如图6所示。首先,获取全球滑坡多源数据,包括滑坡编目数据和影响因子数据。其次,将滑坡影响因子重采样至相同空间分辨率,再将滑坡编目数据与滑坡影响因子进行叠置分析,将滑坡编目数据划分为训练数据和测试数据。然后,采用自动机器学习方法进行模型构建,此次采用了开源自动机器学习平台Auto-PyTorch[43]。将自动机器学习方法与两种传统机器学习方法RF(也是经典集成学习模型)、NB进行对比。最后,选取三种方法中各项评价指标最优的模型进行最终全球尺度滑坡易发性预测制图。
图6 技术路线图
2.1 自动机器学习模型
众所周知,机器学习模型的选择在实际应用中需耗费大量时间成本和技术成本,同时对于选定模型的参数确定还需要专业数据研究人员的不断调试。在很多情况下,研究人员并不能找到最优参数,并且其调出的参数也不具有可解释性。自动机器学习可以看作是对传统机器学习一定意义上的颠覆性改进,它不仅能够对参与训练的特征进行自动筛选,还能自动选择模型,并自动对模型参数进行动态调整,极大程度地减少模型应用的时间与技术成本。此外,它还能够有效提升传统机器学习模型的处理效果。
本次研究运用的Auto-PyTorch是开源的自动机器学习平台,早期更关注于自动选择和优化传统机器学习模型,而在后续加入了依赖于PyTorch框架[43]的深度学习框架,该框架利用多保真度优化来对神经网络架构及其中的超参数进行优化。Auto-PyTorch实现并自动调整完整的深度学习管道,包括数据预处理、神经架构、网络训练技术和正则化方法。此外,它还通过从产品组合中抽样配置以及自动集成选择来预启动优化。其自动机器学习模型中也包括传统的机器学习模型,例如轻量级梯度提升机器和支持向量机等,用于解决所提供数据集的回归或分类任务。在使用传统机器学习模型筛选时,引入了贝叶斯优化,输出模型时采用了集成模型。充分利用了之前模型选择和超参选择时的探索结果。集成模型的使用使得之前的搜索结果没有被浪费,进一步提高了模型的泛化性。
2.2 模型评价指标
为了客观评价易发性预测模型的性能,本文采用了多个统计学评价指标,包括变动率指标(Price Rate of Change,ROC)曲线、ROC曲线下面积的值(Area Under Curve,AUC)、准确率(Accuracy,ACC)、均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)。其中AUC和ACC的取值范围为0~1之间,越接近1,表示该模型性能更优越;RMSE与MAE的取值范围同样为0~1,其值越接近0表示该模型性能更优。
ACC计算公式为:
(1)
式中:TP为正确识别正样本的数量;TN为正确识别负样本的数量;FP为被误报的负样本数量;FN为被漏报的正样本数量。
RMSE和MAE的计算公式为:
(2)
(3)
式中:n为测量的次数;oi为真实数据;pi为预测数据。
3 实验结果与分析
3.1 滑坡评价因子分析
本次研究使用了Python编程工具,并以Auto-PyTorch库为基础,对自动机器学习进行了建模。此外,利用Sklrearn库作为传统机器学习的模型基础,构建了RF和NB两种传统机器学习模型。研究实验环境包括:16核CPU、2块GPU(NVIDIA GeForce RTX 3090,单个显存为24 GB)和128 GB内存。
由表1可知,全球滑坡编目数据重采样到1 000 m后,其滑坡数量为14 290个样本,同样在非滑坡区域随机选择14 290个非滑坡样本。对全球滑坡数据和滑坡影响因子图层进行叠加,并在叠加后对该多维矩阵数据按7∶3比例进行分割。其中,70%的样本数据用于滑坡易发性自动机器学习模型构建,剩余30%的样本数据用来验证模型性能。
由于自动机器学习具有自动选择特征,因此本研究无需因子筛选和重要性分析过程。首先,对自动机器学习模型进行训练。为了兼具效率和性能,自动机器学习模型的学习时间设定为0.5 h,采用模型评价指标定量评估Auto-PyTorch、RF和NB的性能优劣。最后,选择性能最优的自动机器学习模型进行后续建模和易发性制图。
3.2 滑坡易发性预测图
为了验证基于自动机器学习的全球尺度滑坡易发性预测的可行性,将Auto-PyTorch自动机器学习模型分别与RF和NB两种传统机器学习模型进行了对比分析出图。将研究区按滑坡的易发性大小分为五个等级:极低、低、中、高和极高易发区,易发性等级分区方法选择自然断点法[44]。Auto-PyTorch自动机器学习模型与RF、NB两种传统机器学习模型的全球尺度滑坡灾害易发性预测结果分别如图7-a、图7-b、图7-c所示,Auto-PyTorch模型易发性分区与滑坡点堆叠图如图7-d所示,可以看到三种模型的全球滑坡预测结果中高与极高易发性区域与滑坡编目数据非常吻合,自动机器学习模型尤其优秀,表明自动机器学习在全球尺度下进行滑坡易发性预测具有良好的可行性。
图7 滑坡灾害易发性分区图
3.3 模型比较与验证
表2给出了三种机器学习模型的评价结果。其中,Auto-PyTorch模型的各项指标均最优,ACC、AUC、RMSE和MAE分别为0.901 4、0.963 2、0.313 9和0.098 5;RF模型次之,其各项指标比Auto-PyTorch模型略低,ACC、AUC都略微下降0.004 7,RMSE与MAE分别增加0.007 3和0.004 7。虽然差距较小,但是仅训练10 min的Auto-PyTorch模型的潜力还是优于RF模型。NB作为传统机器学习模型,虽然AUC超过0.8(达到0.839 3),能算是优良的结果,但各项数值相比Auto-PyTorch模型和RF模型下降许多,较之最优秀的Auto-PyTorch模型,ACC、AUC分别下降0.154 9和0.123 9,RMSE与MAE分别增加0.189 5和0.154 9。结果表明,Auto-PyTorch模型能够自动选择模型和动态调整参数,在节约时间的同时还能提升精度。图8给出了三种模型的ROC曲线,可看出Auto-PyTorch模型明显优于传统机器学习模型。以上实验结果进一步验证了自动机器学习的优势,也证明了自动机器学习在全球尺度下滑坡易发性预测的应用价值。为了探究训练时间的长短对于自动机器学习性能的影响,以Auto-PyTorch模型为例,分别设定10 min和30 min作为训练时间进行模型性能比较。如表2所示,训练30 min的ACC较训练10 min的ACC增加0.001 4,由于模型是根据ACC高低进行筛选,AUC在其他指标增加的情况下略微下降0.000 8,而RMSE和MAE分别下降0.002 3和0.001 4。如图8所示,自动机器学习模型较长的训练时间能得到更优越和综合提高的精度。
图8 模型ROC曲线
表2 模型精度评价结果
4 结论
本文开展了基于自动机器学习的全球尺度滑坡灾害易发性预测研究,以全球60°N-60°S纬度范围作为研究区,采用坡度、坡向、平面曲率、剖面曲率、岩性、土地覆盖、降雨量、断层距离9个滑坡影响因子,运用Auto-PyTorch自动机器学习模型和RF、NB两种传统机器学习模型进行了滑坡易发性建模工作,旨在探讨自动机器学习在全球尺度下滑坡易发性预测的可行性。研究结果表明,三种模型的全球滑坡易发性制图结果与滑坡编目数据的趋势非常吻合,Auto-PyTorch模型吻合程度格外优秀;提升训练时间能够在一定程度上提升模型预测性能。具体而言,在各模型中,NB模型的各项指标为最低,RF模型的各项指标略逊色于Auto-PyTorch模型。AUC最高的为训练10 min的Auto-PyTorch模型,ACC、RMSE、MAE最佳的为训练30 min的Auto-PyTorch模型;各项指标最优的Auto-PyTorch模型较NB模型而言,AUC、ACC分别增加0.123 9、0.156 3,RMSE和MAE分别下降0.191 8、0.156 3,证明了Auto-PyTorch模型的优越性能。此外,自动机器学习还存在不可解释性,未来解决该问题能够更加有效地提升自动机器学习在全球尺度滑坡灾害易发性预测中的应用潜力。