动态多源数据驱动模式下的滑坡灾害空间预测
2021-07-26温亚楠张志华慕号伟田德宇王筱宇
温亚楠,张志华,慕号伟,田德宇,王筱宇
(1.兰州交通大学 测绘与地理信息学院,甘肃 兰州 730070; 2.地理国情监测技术应用国家地方联合工程研究中心,甘肃 兰州 730070;3.甘肃省地理国情监测工程实验室,甘肃 兰州 730070; 4.中科院西北生态环境资源研究院,甘肃 兰州 730000)
滑坡是世界范围内发生的最主要的地质灾害,其严重威胁着人类的生命财产安全[1]。滑坡在中国广泛分布,仅在2019年全国共发生滑坡4 220起,占地质灾害总数的68.27%,造成了巨大的破坏[2]。及时发布滑坡预警信息有助于疏散民众,从而减少由此造成的生命财产损失。为了降低滑坡灾害对人类的威胁,相关国家和组织通过响应《2015-2030年仙台减少灾害风险框架》和《2030年可持续发展议程》,共同推进构建自然灾害风险防范协同机制[3],积极开展滑坡预测预警研究,及时采取相应的防灾减灾措施。
在20世纪60年代滑坡时间预测[4]被提出后的10年间,国内外专家学者开始将滑坡预测研究方向由时间预测扩展到空间预测,并且取得了较好的成果。滑坡空间预测分为确定性预测和非确定性预测。确定性预测是通过力学计算模型结合基础地理信息预测滑坡灾害,但只适用于小范围预测[5]。非确定性预测是通过结合历史滑坡数据与滑坡诱发因子来预测不同尺度区域的滑坡灾害,具体分为滑坡知识驱动模型和滑坡数据驱动模型[6]。相关研究通过GIS技术分别结合知识驱动模型中的层次分析法[7]以及数据驱动模型中的CF多元回归和神经网络模型[8],综合多种滑坡诱发因子对滑坡灾害敏感区域进行空间预测。对比这两种方法,数据驱动方法可以更好地通过定量方式预测不同等级的滑坡敏感区域,取得了较好的预测结果。此外,海量多源数据结合数据驱动中的BP神经网络方法提取了滑坡诱发因子,滑坡易发性等级评价较准确,滑坡空间预测精度较高[9-10]。支持向量机、随机森林、回归树等机器学习方法结合多源数据在滑坡空间预测中同样表现出较为准确的预测性能[11-13]。随着物联网和传感器技术的快速发展,多学科领域与多途径联合探索及动态观测为滑坡预测预警提供了动态多源观测数据,主要包含了滑坡发生过程的复杂时空变化信息、滑坡诱发因素,同时可以反映滑坡形变表现。天空地协同观测数据驱动模拟分析方法,可以实现复杂地形地质条件下滑坡灾害模拟分析[14]。地质灾害自动检测预警系统,通过结合多源数据和数据驱动方法成功预测了黑方台陈家6#滑坡[15]。另外,基于全球定位导航技术与合成孔径雷达干涉技术总结了高精度空间检测技术并且在2019年10月5日成功预报了黑方台突发性黄土滑坡[16]。
本文从数据驱动的角度进行滑坡空间预测研究,基于谷歌地球引擎平台(GEE)的动态多源遥感数据,结合支持向量机(SVM)、随机森林(RF)分类算法以及主成分分析(PCA)数据降维算法、特征递归消除(RFE)数据筛选算法,提出了一种动态多源遥感数据驱动模式下的滑坡预测模型,然后计算对比两种分类器以及数据降维、数据筛选后两种分类器的预测精度和泛化能力,并且通过受试者工作特征曲线(ROC曲线)的曲线下面积量化值(AUC值)评价预测模型,选出最优滑坡预测模型。
1 数据采集与分析
1.1 滑坡数据来源
为了确保研究数据的真实性和科学性,试验数据来自国家自然资源部地质灾害灾情险情报告,并获取了2016年6月到2019年8月间全国(不包含港澳台地区)175个样本数据,包含75个滑坡样本和100个非滑坡样本,其中西南地区71个样本,西北地区25个样本,中南东南地区68个样本,西北地区5个样本,其它地区6个样本。另外,非滑坡样本参考滑坡样本发生地点选取,同时试验对获取数据的经纬度坐标进行了地理编码处理。如图1所示,试验将地理编码处理后的经纬度坐标输入GEE平台,动态获取需要时间范围内的影像以及筛选相应的波段。关于GEE平台的详细内容可以查询其官网。
1.2 滑坡诱发因子
考虑不同诱发因子对滑坡的影响[17-18],试验参考样本数据选择灾前和无灾的动态多源遥感数据集,其中将离滑坡灾害发生日期最近的灾前遥感影像作为灾前遥感数据。如表1,每个样本点包含了灾前16景遥感影像,共92个波段,滑坡点选取灾前影像,非滑坡点参考滑坡发生地选取某一无灾日期前的影像,数据集共选取了2 800景遥感影像。因此,试验将原始数据集构建成175×92的特征向量,并将其按照7∶3的比例随机划分为训练集和验证集。
注:本图制作基于国家自然资源部标准地图服务网站下载的国家标准地图,审图号为GS(2019)1815号,底图未作修改。
表1 诱发因子Table 1 Inducing factors
其中,Sentinel-1幅宽干涉模式的VH极化波段和VV极化波段,可以广泛地应用于地表形变监测。Sentinel-2的多光谱数据可以有效检测地表反射条件和植被覆盖信息,同时也包含了云掩膜信息,为滑坡预测提供有效参考。降水是导致滑坡灾害最大的外在因素[19],GPM降水数据产品每30分钟进行一次观测,每3小时提供一次全球雨雪观测,可以及时提供降水信息。MCD12Q1土地覆盖类型数据和SRTM DEM数据产品可以充分表达出地形地貌条件,在一定程度上体现了滑坡点的内部地质结构。此外,试验还把地表昼夜温度、土壤湿度和土壤温度等因素加入滑坡诱发因子。需要注意的是,试验选择的动态多源遥感数据在GEE平台进行预处理,如Sentinel-2多光谱影像是经过GEE预处理的一级产品,所选影像产品可以直接进入模型计算。考虑滑坡影响的地理范围,试验在GEE平台上通过构建半径为10公里的圆形缓冲区对不同来源的遥感影像进行裁剪,并取其平均值作为试验的数据集。本研究将所有数据的分辨率采样至10 m,保证将所有数据的分辨率统一至其最高分辨率,并通过GEE平台内置算法统一坐标系,保证每个像素代表相同的地表范围。
2 模型方法
2.1 滑坡分类方法
基于动态多源数据驱动模式进行滑坡空间预测的基本思路是通过对比分析全国区域内未发生滑坡和发生滑坡前的动态多源遥感数据像素值,通过机器学习特征优选算法和分类算法归纳出其中的像素值差异并进一步构建滑坡预测模型。试验流程图如图2所示,主要由数据获取(滑坡和非滑坡点数据、动态多源遥感数据)、特征优选、滑坡分类预测和精度评价4个部分构成。
图2 试验流程图Fig.2 Experimental flow chart
2.2 特征优选
本文滑坡和非滑坡数据由92个维度构成,其中包括噪声和相关性较差的特征,因此试验选用PCA算法和RFE算法对研究中的数据集分别进行降维和筛选处理。PCA算法从高维度数据保留最重要的一系列特征,去除噪声和相关性较差的特征,保留前N个主成分,使其累计贡献率满足一定要求,形成新的特征。这些特征既能代表原始数据集的绝大多数信息,又互不相关,并且可以代替原始数据进一步统计分析[20]。试验最终保留了累计贡献率前90%的主成分,共15个,其中PC1-PC15的贡献度分别为23.58%、12.34%、10.14%、8.56%、7.07%、5.47%、4.30%、3.89%、3.12%、2.49%、2.08%、1.76%、1.73%、1.50%和1.31%。RFE算法的目标是通过递归计算权重最小的特征,该过程在数据集上递归地运行,消除模型中可能存在的依赖关系和共线性,直到达到所需要选择的特征数量。试验通过设置筛选特征阈值,最终在保留30个特征时RFE算法效果最好。
2.3 分类器选择
SVM分类器将原始非线性数据映射到高维空间,寻找一个满足分类要求的全局最优分类超平面,以最优分类超平面将滑坡数据和非滑坡数据进行区分,并保证得到最大分类间隔[20]。在实际运算中,还需要通过核函数解决高维空间中非线性不可分问题。而RF分类器是一个基于决策树的集成学习模型,其基本组成单元是相互独立的决策树,这样更稳定、泛化能力更好[21],在森林构建完成后,将带有滑坡和非滑坡标签的数据集输入森林时,需对森林中的每一棵决策树进行判断,预测出数据集中的样本是滑坡数据还是非滑坡数据。与其它分类器相比,这两种分类器更加适用高维数据处理,并且均可以有效防止过拟合。众多专家学者将SVM分类器和RF分类器广泛地应用于不同方向的分类和回归研究[22-24]。最后,与特征优选模型相结合,分别构建各自的训练模型。
2.4 精度验证
为了对滑坡预测的结果进行综合评价,确定预测精度的可靠性,本研究采用了ROC曲线对滑坡预测结果进行精度验证。
ROC曲线是一个综合指标,能够反映灵敏性和特异性连续变量的相互关系,可用于二分类模型的评价。灵敏度表示实际是滑坡灾害且预测模型判断为滑坡灾害的概率;特异度表示实际是非滑坡灾害且预测模型判断为非滑坡灾害的概率。AUC值是量化ROC曲线的指标,可通过计算ROC曲线下的面积衡量ROC曲线[25]。AUC值与滑坡预测结果对应关系如表2所示。
表2 AUC值与滑坡预测结果的对应关系Table 2 Correspondence between AUC values and landslide prediction results
3 试验分析
3.1 数据可分性研究
本研究中动态多源观测数据共选择了7种遥感影像,从中选择需要的波段,并把这些波段看作特征。试验数据分为滑坡与非滑坡两类,为了验证数据集的可分性,对两类数据进行了归一化处理,计算每个特征的归一化指数均值,从而得到滑坡与非滑坡两条归一化均值曲线。两条曲线存在重叠区域,为了能够区分重叠曲线,试验放大了相关区域。如图3所示,曲线在特征1-31间表现出明显的差异性,滑坡数据集从特征1-特征29在不同程度上都要高于非滑坡数据集,而在特征30-31上则相反,这些特征来源于Sentinel-2多光谱数据、MCD12Q1土地覆盖数据、MOD11A1地表昼夜温度数据;曲线在特征32-35和特征36-39上分别表现为非滑坡数据集高于滑坡数据集以及滑坡数据集高于非滑坡数据集,具有明显的差异性,这些特征分别来源于FLDAS数据的土壤湿度和土壤温度数据;曲线在特征41-92上也表现出较好的差异性,滑坡数据集在变化趋势上都要低于非滑坡数据集,这些特征来源于Sentinel-1雷达数据、GPM降水数据和SRTM坡度数据。综合分析,两类数据集在归一化特征均值曲线上表现出了较好的差异性,这表明试验数据集是可分的,可以应用于滑坡预测预警研究。
图3 滑坡与非滑坡数据集的归一化均值特征曲线Fig.3 Normalized mean characteristic curve of landslide dataset and non-landslide dataset
3.2 试验结果及模型评价
3.2.1 滑坡特征相对重要性与模型选择
试验通过随机森林算法对PCA降维数据和RFE筛选的30个特征数据进行分析,将得到的特征相对重要性来描述特征变量的影响权重,从而确定PCA降维数据和RFE筛选的30个特征数据中影响滑坡预测的特征相对重要性排序。图4分别表示:(a)PCA降维数据中PC1-PC15特征相对重要性排序;(b)RFE方法筛选的前30个特征相对重要性排序。从图4(a)中可以看出,PCA降维数据中第一主成分的相对重要性最高,并且远大于其它主成分,对滑坡分类影响最大。图4(b)中进一步分析具体特征,从RFE保留的30个特征数据中可以发现对滑坡预测影响较大的因子是GPM降水数据,其它滑坡预测影响因子还包括FLDAS土壤湿度数据、Sentinel-2多光谱数据、FLDAS土壤温度数据、SRTM4 DEM数据,而MCD12Q1土壤覆盖类型数据、MOD11A1地表昼夜温度数据和Sentinel-1雷达数据未出现在前30个特征中。从而可以得出,PCA降维数据中第一主成分的特征相对重要性最大,与主成分分析理论相符合,而其它主成分的特征相对重要性却与主成分排序不一致。另外,从RFE算法筛选的前30个特征的特征相对重要性排序结果中可以发现降雨是滑坡预测最重要的因子,这也与2014-2018年我国地质灾害统计相吻合,我国84.3%的滑坡是由降雨直接诱发或与降雨有关[19]。
图4 特征相对重要性排序Fig.4 Ranking of feature relative importance
模型选择是调整分类器超参数的过程,经过格网搜索确定了SVM分类器正则化系数为10,核函数选择线性核函数,并确定RF分类器树的棵数为50。在确定好超参数后,试验会根据所有模型的预测精度确定最优模型。
3.2.2 原始数据的滑坡空间预测
为了对比SVM和RF分类器在本研究数据中哪一个具有更好的预测效果,试验首先未使用PCA数据降维方法和RFE数据筛选方法,而是只使用SVM和RF分类器对原始数据进行滑坡分类与预测。具体步骤为将训练数据输入SVM和RF分类器训练得到训练模型,然后将验证集输入到训练模型中计算预测精度。表3显示了2种分类器的滑坡预测结果,从中可以发现RF滑坡预测模型比SVM滑坡预测模型具有更好、更稳定的预测结果,预测精度分别为0.7777和0.6402。试验除了计算验证集的预测精度外,还计算了训练集的预测精度,通过对比训练集和验证集的预测精度差值,比较两种滑坡预测模型的泛化能力。
表3 试验精度量化结果Table 3 Quantification results of experimental accuracy
从表3中的2种预测精度差值可以发现,SVM和RF滑坡预测模型的训练集和验证集差值均为正值,这表明:2种滑坡预测模型的训练集预测精度都大于验证集预测精度;但SVM滑坡预测模型的2种预测精度差值为0.1971,而RF滑坡预测模型的两种预测精度差值为0.0625,表明RF滑坡预测模型泛化能力较好。
此外,试验还计算了2种滑坡预测模型训练集和验证集的灵敏度和特异度,将灵敏度作为纵坐标,将特异度作为横坐标,把训练集和验证集的预测结果分别导入python的scikit-learn模块中进行分析并绘制相应的ROC曲线以及计算各自的AUC值,从而定量地评价两种滑坡预测模型的预测结果。如图5所示,SVM和RF训练集和验证集的ROC曲线展现出了分类器的细微变化,其中RF滑坡预测模型表现较好,AUC值分别为0.8995和0.8389,而SVM预测模型表现较差,AUC值分别为0.9291和0.6951。这表明RF滑坡预测模型相比于SVM滑坡预测模型,其预测结果的准确度更高,模型泛化能力更好。
图5 SVM和RF预测模型训练集和验证集的ROC曲线Fig.5 ROC curves of training dataset and validation dataset in the SVM and RF prediction models
由此可见,综合考虑两种滑坡预测模型的预测精度、训练集和验证集预测精度差值以及训练集和验证集的AUC值,表明相较于SVM训练模型,RF训练模型精度更高,泛化能力也更好,更适于本研究。
3.2.3 特征优选数据的滑坡空间预测
在对原始数据进行滑坡预测研究后,试验采用PCA算法和RFE算法对原始数据分别进行了降维和筛选处理,得到了PCA数据和RFE筛选30个特征的数据。之后分别将PCA数据和RFE筛选30个特征的数据与SVM和RF分类器进行交叉组合,分别进行滑坡预测研究,得到了PCA-SVM、PCA-RF、RFE-SVM和RFE-RF共4种滑坡预测模型。训练集和验证集的预测结果如表4所示,经过PCA和RFE方法处理后2种分类器的预测精度都有了一定的提升,尤其是SVM分类器提升较高。PCA和RFE方法处理后,SVM验证集的预测精度分别提升了0.1489和0.1030,而RF分类器验证集的预测精度分别提升了0.0171和0.0399。对比四种滑坡预测模型的预测精度,RFE-RF模型的训练集和验证集的预测精度都最高,分别为0.8314和0.8176;PCA-RF模型次之,预测精度分别为0.8115和0.7948;预测精度较差的是PCA-SVM模型,预测精度分别为0.8201和0.7891;预测精度最差的是RFE-SVM模型,预测精度分别为0.9144和0.7432。试验进一步评价4种滑坡预测模型的泛化能力,对比4种模型的训练集和验证集预测精度差值,可以发现RFE-SVM模型2种预测精度间的差值为0.1712,泛化能力最差;PCA-SVM模型2种预测精度的差值为0.0310,模型泛化能力居中;PCA-RF和RFE-RF的两种预测精度差值分别为0.0167和0.0138,模型泛化能力较好。
表4 特征优选后预测精度及AUC值Table 4 Prediction accuracy and AUC value after feature optimization
同样,试验计算了4种滑坡预测模型验证集的灵敏度和特异度,将灵敏度作为纵坐标,把特异度作为横坐标,绘制了4种滑坡预测模型验证集的ROC曲线并计算其AUC值。从图6中可以看出,RFE-RF滑坡预测模型的ROC曲线下面积最大,表明该模型的AUC值最高,模型评价最好。结合表4具体分析,RFE-RF滑坡预测模型表现最好,AUC值分别为0.8901和0.8751;PCA-RF滑坡预测模型的预测结果次之,AUC值分别为0.9047和0.7963;而PCA-SVM滑坡预测模型的预测结果最差,AUC值分别为0.8729和0.7928。
图6 特征优选后四种预测模型的ROC曲线Fig.6 ROC curve of four prediction models after feature optimization
综合分析4种滑坡预测模型的预测精度、预测精度训练集和验证集差值以及AUC值可以看出:RFE方法的筛选效果要优于PCA方法的降维效果;4种滑坡预测模型中RFE-RF训练模型的曲线下面积最大、表现最好,并表现出最好的泛化能力;RFE-RF预测模型为滑坡预测提供了一种新的思路。同时从4种训练模型验证集的预测精度和AUC值中可以发现两者具有相同的排序,这验证了预测模型精度的可信性。
4 讨论
数据量不够,数据维度太高,都是造成预测精度低的原因。本文由于试验数据获取途径单一,并且国家自然资源部地质灾害灾情险情报告滑坡数据量也较少,短时间内无法提高数据量,因此采用数据降维和数据筛选来优化特征,继而提高模型的预测精度。数据降维和数据筛选可以提高算法可用性,其更深层的意义在于提取综合有效的信息以及剔除相关性较差的信息。本文滑坡预测模型与现在常用的实时综合监测滑坡的方法相比,应用范围更加广泛,更加节省资源。虽然基于动态多源遥感数据的滑坡预测模型对于滑坡预测有较高的精度,但错分现象却无法避免。为了进一步提高和稳定试验精度,未来的研究应着重于提高数据量以及通过优化决策树结构来改进RF分类器,并且与深度学习方法相结合。同时,在优化降水特征的基础上,还应考虑加入纹理特征,以进一步提高模型的预测精度。
5 结论
本文针对近些年全国发生的滑坡灾害,在GEE遥感大数据平台的基础上结合多种经典机器学习算法进行滑坡空间预测研究。其中用到的分类算法包括SVM和RF,考虑到试验数据维度过高会影响预测精度,试验引入PCA数据降维算法和RFE数据筛选算法,将分类算法和数据降维算法、数据筛选算法优化组合分类,建立了针对全国滑坡进行预测的机器学习模型,并通过AUC指数评价模型精度。
通过上述研究,得出如下结论:
(1)试验在所构建的动态多源遥感数据集上计算了特征相对重要性,发现降水特征对预测结果起到了至关重要的作用。
(2)通过PCA和RFE两种方法分别进行数据降维和数据筛选试验,有效地提高了滑坡预测精度。在本文所有滑坡预测模型中,RFE-RF模型的训练集预测精度较高、验证集预测精度和AUC值最高,滑坡预测性能最好。
(3)基于先验知识和机器学习算法完成模型训练,选择精度达到了81.76%的RFE-RF作为滑坡预测模型。在此基础上对存在的滑坡隐患灾害区域进行持续观测,通过GEE平台实时获取相应的动态多源遥感数据并将其输入RFE-RF模型,最后根据模型输出结果判断滑坡隐患区未来是否会发生灾害,以此达到预测的目的。