基于机器学习的遵义市滑坡灾害易发性评价研究
2022-04-22马俊杰
马俊杰
摘 要:滑坡灾害是我国经常发生的地质灾害之一,滑坡灾害易发性评价可以从空间和概率上将研究区划分成不同的滑坡风险等级。滑坡易发性评价结果可为滑坡治理和防治做出重要的决策支持。本研究以贵州省遵义市作为研究区,选取高程、坡度、NDVI等八个影响因素作为本次滑坡易发性评价的滑坡影响因子,选用决策树、随机森林、GDBT三种机器学习算法作为滑坡易发性评价的训练模型。通过自然间断法将评价结果按照易发性大小分成极高易发区、高易发区、中易发区、低易发区和极低易发区五类。使用ROC曲线和滑坡点密度对三种模型的效果进行对比分析。
关键词:机器学习;滑坡易发性评价;遵义市
中图分类号:P694 文献标志码:A 文章编号:1003-5168(2022)6-0129-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.06.030
Study on Landslide Susceptibility Assessment Based on Machine Iearning in Zunyi City
MA Junjie
(School of Spatial Information and Surveying engineering, Anhui University of Science and Technology,Huainan 232001,China)
Abstract: Landslide disaster is one of the most common geological disasters in China. The evaluation of landslide disaster susceptibility can be divided into different risk levels from spatial and probability. The evaluation results of landslide susceptibility can provide important decision support for landslide control and prevention. In this paper, Zunyi City of Guizhou Province is taken as the research area, eight influencing factors such as elevation, slope and NDVI are selected as the influencing factors of landslide susceptibility evaluation, and three machine learning algorithms including decision tree, random forest and GDBT are selected as the training models of landslide susceptibility evaluation. Natural discontinuity method was used to classify the evaluation results into five types: extremely high, high, medium, low and extremely low. ROC curve and landslide point density were used to compare and analyze the effects of the three models.
Keywords: machine learning; evaluation of landslide susceptibility;Zunyi City
0 引言
隨着我国经济的高速发展,需要建造更多的空间来满足人们生活和工作的需求,地质灾害是必须要事先考虑的问题,建造这些空间要避开容易发生地质灾害的地方[1]。滑坡是我国常见的地质灾害之一,对重要区域进行滑坡灾害易发性评价,从概率的角度将空间划分出不同滑坡发生可能性程度的区域,这将帮助决策者避开容易发生滑坡灾害的地方,也会间接地减少由于滑坡造成的损失[2-3]。
滑坡灾害易发性评价的发展经历了定性到半定量再到定量的发展趋势[4-6]。定性和半定量的方法主要依靠力学模型和专家知识,这种方法效率有限,容易受主观因素影响,而且不适用于大范围的滑坡易发性评价[7-8]。随着计算机和人工智能大数据的发展,用机器学习的方法进行滑坡易发性评价已经逐步流行起来[9]。徐胜华等用支持向量机的方法进行了陕西地区的滑坡灾害易发性评价[10];武雪玲等将神经网络模型用于滑坡易发性评价模型的训练[11];Xing等用逻辑回归完成了滑坡易发性评价[12]。以上这些方法都取得了不错的效果。
1 研究区概况与数据源
1.1 研究区概况
遵义市位于贵州省东北部,处于东经106°17′—107°26′,北纬27°13′—28°04′,海拔800~1 300 m,大娄山横穿遵义市全境,遵义市岩溶地貌发育广泛,降雨充沛,经常发生各种地质灾害,选取遵义市作为研究区是非常有意义的。
1.2 数据来源
遵义市的滑坡灾害点数据、降雨量数据来自中国科学院资源环境科学数据中心。灾害点原始数据格式有shape格式和excel格式,包含崩塌、塌陷、泥石流、地面沉降、地裂缝、滑坡、斜坡七大类主要的地质灾害类型。30 m分辨率的DEM数据和landsat8卫星遥感数据来自地理空间数据云。居民点数据、河流数据和地表覆盖数据是在全国自然资源服务部网站申请下载的数据。本次遵义市滑坡灾害易发性评价以栅格单元为基本评价单元,分辨率为30 m。
2 滑坡影响因子与机器学习模型
2.1 滑坡影响因子
通过对滑坡影响因子综合评价能够反映研究区发生滑坡灾害的容易程度。本研究选取了高程、坡度、坡向、降雨量、距居民点距离、距河流距离、土地利用、NDVI等八种可以反映研究区地质地貌、水文气候和人类活动的因素作为滑坡影响因子。
2.1.1 地质地貌。地质地貌是诱发滑坡的重要因子,在不同地质条件下滑坡的启动条件不同,例如,松软岩层、地形起伏度等会大大增加滑坡发生的可能性。高程可以反映研究区的海拔情况,海拔不同对发生滑坡的条件也有所不同;坡度和坡向可以反映区域内的地形起伏情况,坡度大小和坡向会不同程度地诱发滑坡灾害;土地利用和NDVI可以反映研究区地表形态。
2.1.2 水文气候。水文气候情况是影响滑坡灾害发生的重要外界诱发因素,潮湿的地表会让岩土更容易移动,这种情况下比较容易发生滑坡地质灾害。降雨量和河流可以补充区域内地表岩层的含水量,所以本研究选取年累计降雨量和到河流距离作为反映研究区的水文气候的影响因子。
2.1.3 人类活动。滑坡灾害也容易受到人类活动的影响,由于人类的生产经营活动会在一定程度上改变地表的覆盖情况和地表岩层的易滑程度,本研究选取距离居民点的距离和地表覆盖作为能反映人类活动的滑坡影响因子。
2.2 机器学习模型
2.2.1 随机森林。随机森林是通过有放回地随机抽取样本,并随机选取不同规模的特征组建训练集,用多棵决策树进行训练和预测的机器学习算法。在随机森林模型中,决策树的训练数据和剪切阈值都是随机选取的,大大提高了模型的鲁棒性和避免模型过拟合。目前,随机森林被广泛应用在分类预测领域。
2.2.2 梯度提升树。GBDT算法是机器学习中一个很重要的算法,和随机森林一样都是集成学习的一种,但是GBDT用的是另外一种组合迭代方式。利用前一轮基学习器的误差更新权重,这样一直迭代下去,不断地迭代更新直到找到合适的权重。和随机森林不同的是GBDT模型每个基学习器之间是相互关联的,是一种串联的方式。
2.2.3 决策树。决策树是一种常用的监督分类方法,从根节点对训练数据的某个特征进行测试,根据测试结果将该样本分配到某节点中,如此重复对每个特征进行分配直到到达叶节点,最后将样本分到叶节点中。决策树的本质是从训练数据中归纳出分类规则,得到条件概率模型。
3 结果与分析
本研究利用三種机器学习模型进行滑坡灾害易发性评价结果,如图1所示,从模型精度和滑坡点密度两方面对三种模型进行比较分析。
3.1 模型精度比较
滑坡灾害易发性评价,从问题本质上来说就是二分类问题,只不过要更偏向二值中某个值的程度。对于这种问题,受试者工作曲线(Receiver Operating Characteristic,Curve ROC曲线)和线下面积AUC值是常用的评价指标。曲线通过设定不同的门槛获得一系列二分类的结果,然后计算历史滑坡点被标为滑坡点的比例结果作为纵坐标,将非滑坡点标为非滑坡点的比例作为横坐标,这样标绘出来的曲线就是ROC曲线,ROC曲线和横坐标之间空间的面积即AUC值。曲线越凸线下面积越大,说明模型精度越高,曲线越凸AUC值越小,模型精度越差。为了衡量模型的性能,将采用ROC曲线以及AUC值作为指标对比三种机器学习模型的性能。
三种模型得到的ROC曲线和AUC值如图2所示,根据对比可知,随机森林模型效果最好,明显高于其他两种模型,决策树最差,GBDT算法介于两者之间。
3.2 滑坡点密度比较
对于历史滑坡点来说,滑坡点应该集中于极高易发区,也就是说极高易发区的滑坡点密度最高,易发性越低滑坡点密度越低。
将三种模型得到的评价结果与历史滑坡灾害点进行叠加,得到每个区域的滑坡点密度。从表2中可以看出滑坡点密度从极低易发区到极高易发区逐步上升,主要集中在极高易发区和高易发区。通过三种方法的对比,随机森林模型得到的结果最好,其次是GBDT,最差的是决策树。
4 结语
本研究将贵州省遵义市作为研究区,采用高程、坡度、坡向等八种滑坡影响因子利用GBDT、随机森林和决策树三种机器学习算法进行滑坡易发性模型的训练,对评价结果从ROC曲线和滑坡点密度两方面进行对比分析,得到的结果是随机森林模型效果最好,其次是GBDT,最差的是决策树模型。
参考文献:
[1]陈伟.山区村镇滑坡灾害风险评估研究[D].武汉:武汉大学,2019.
[2]王佳佳.三峡库区万州区滑坡灾害风险评估研究[D].武汉:中国地质大学,2015.
[3] WANG D,HAO M,CHEN S,et al.Assessment of landslide susceptibility and risk factors in China[J].Natural Hazards,2021(108).
[4] HE Y, BEIGHLEY R E. GIS‐based regional landslide susceptibility mapping: a case study in southern California[J].Earth Surface Processes & Landforms,2010,33(3):380-393.
[5]管新邦.云南省滑坡地质灾害危险性评价研究[D].北京:中国矿业大学(北京),2018.
[6]孙德亮,马祥龙,唐小娅,等.基于不同因子分级的滑坡易发性区划对比:以万州区为例[J].重庆师范大学学报(自然科学版),2021,38(5):43-54.
[7]于宪煜.基于多源数据和多尺度分析的滑坡易发性评价方法研究[D].武汉:中国地质大学,2016.
[8]孙德亮.基于机器学习的滑坡易发性区划与降雨诱发滑坡预报预警研究[D].上海:华东师范大学,2019.
[9] WANG X,LI S,LIU H,et al.Landslide susceptibility assessment in Wenchuan County after the 5.12 magnitude earthquake[J]. Bulletin of Engineering Geology and the Environment, 2021(1):5369-5390.
[10] 徐胜华,刘纪平,等.熵指数融入支持向量机的滑坡灾害易发性评价方法:以陕西省为例[J]. 武汉大学学报(信息科学版),2020,5(8):1214-1222
[11] 武雪玲,杨经宇,牛瑞卿.一种结合SMOTE和卷积神经网络的滑坡易发性评价方法[J].武汉大学学报(信息科学版),2020,45(8):223-1232.
[12] XING X, WU C, LI J,et al.Susceptibility assessment for rainfall-induced landslides using a revised logistic regression method[J]. Natural Hazards, 2021(5):1-16.