APP下载

基于深度学习的CZ铁路康定—理塘段滑坡易发性评价*

2022-11-08王世宝庄建琦牟家琦付玉婷

工程地质学报 2022年3期
关键词:康定易发曲率

王世宝 庄建琦 郑 佳 牟家琦 王 野 付玉婷

(长安大学地质工程与测绘学院/西部矿产资源与地质工程教育部重点实验室,西安 710054,中国)

0 引 言

中国是世界上地质灾害发育最为严重的地区之一,其中滑坡作为常见的地质灾害,具有分布广、发生频率高、隐蔽性强、破坏性大等特点,往往会造成灾难性的后果,给人民的生命财产安全和社会经济的发展带来巨大的威胁(殷跃平,2004;黄润秋,2007)。近年来,随着社会的快速发展以及人类工程活动范围的不断扩大,滑坡灾害发生的频率日趋增多,造成的损失也日趋严重。因此,采用高效可靠的滑坡灾害评价技术进行滑坡易发性评价,快速精准地识别滑坡灾害的高易发区,预测新滑坡灾害的发生,可以有效地提高灾害预报的效率,减免滑坡灾害带来的损失,为地质灾害的防灾减灾工作提供参考。

纵观国内外学者利用滑坡灾害的易发性评价技术,主要分为知识驱动和数据驱动以及将两者相结合的方式(周超等,2020)。知识驱动主要依赖专家的经验知识进行滑坡易发性的评价,其缺点是具有一定的主观性及评价范围小的局限性。在计算机技术的快速发展下,基于数据驱动的方法被广泛地应用到区域滑坡易发性评价中,主要包括信息量模型(庄建琦等,2010),证据权模型(范强等,2014),逻辑回归模型(Zhuang et al.,2016),神经网络模型(Xu et al.,2015),支持向量机模型(Chen et al.,2016;Hong et al.,2017),集成学习算法(Zhang et al.,2017)等。随着人们对机器学习的不断深入研究,发现深度学习算法比单隐藏层的神经网络、支持向量机等“浅层学习”方法具备更多非线性操作的层级数(Hao et al.,2016)。深度学习通过多层处理,逐渐地将初始的低层特征表示转换成更加抽象的高层特征表示,以发现数据的分布式特征表示,从而更有利于分类或特征的可视化(孙志远等,2016)。深度学习中最典型的模型为CNN,CNN模型的局部连接、权值共享以及池化操作等特性可以降低网络的复杂度和减少训练参数,也易于训练和优化,并且已经在其他领域取得广泛的应用(Chen et al.,2015;Huynh et al.,2016)。因此,基于这些优越的特性,本文将深度学习中的CNN模型应用到滑坡易发性评价中,提高滑坡预测的准确度,为滑坡易发性评价提供了新技术。

CZ铁路康定至理塘段地处青藏高原东部边缘,横断山中段,区域内地形地貌类型多变、地质构造复杂、新构造活动强烈、沟谷下切严重,复杂的地质背景和脆弱的地质环境使得该区域滑坡、崩塌、泥石流灾害极为发育,特别是滑坡灾害,给当地人民的生命财产安全造成了巨大损失,如康定捧塔乡金平电站滑坡、毛垭坝滑坡等(孙逊等,2013;郭长宝等,2016)。滑坡灾害已经对该区域正在规划建设的CZ铁路、高速公路、城镇化建设以及人民生活造成了巨大的威胁,迫切地需要开展区域滑坡灾害的易发性评价工作,快速精准地划分出易发性分区,制定有效的防灾减灾措施。

本文在遥感影像解译、地质灾害资料收集以及野外地质灾害调查的基础上,建立CZ铁路康定至理塘段滑坡灾害空间数据库,分析滑坡灾害发育的空间分布规律和影响因素,确定了地形地貌、基础地质、水文环境、植被覆盖、人类工程活动共15个影响因子,采用CNN模型对CZ铁路康定至理塘段进行滑坡易发性评价,为该区域的CZ铁路建设和未来安全运行过程中的防灾减灾工作提供一定的参考依据。

1 研究区概况

CZ铁路康定至理塘段长约250km,从康定县出发,经过雅江县到达理塘县。本次研究的范围主要位于CZ铁路两侧区域,地理位置介于东经99°48′~102°02′,北纬29°45′~30°13′之间,总面积约12396km2。区域内因地形复杂,气候出现明显的垂直差异,年均降雨量约为700mm,主要集中在6~9月。CZ铁路康定至理塘段地处青藏高原东部边缘,横断山脉中段,地形地貌以丘状高原、高山峡谷和山原地貌为主。地势两端高,中间雅江段低,高程为2274~6486m,其相对高差4212m。研究区内水系发育,跨越多条河流,断裂构造复杂,地层岩性主要为花岗岩、砂岩、灰岩和松散堆积层。多变的地形地貌、复杂的地质构造、脆弱的地质环境,使区域内滑坡、崩塌、泥石流等灾害极其发育,对CZ铁路的建设以及安全运行构成严峻的挑战。通过野外滑坡灾害的调查以及遥感影像的解译,研究区共确定滑坡地质灾害138处,空间分布如图1所示。研究区滑坡灾害的总面积21.02km2,其中单体滑坡最大面积为4577883m2,最小面积为1587m2。

图1 CZ铁路康定至理塘段滑坡灾害分布图

本文采用的数据源主要为:(1)30m分辨率的DEM数据,用来提取高程、坡度、地表切割度等地形地貌相关信息;(2)全国1︰250万的地质图,主要提取地层岩性、构造等信息;(3)全国道路网及水系网矢量图,提取道路和水系分布信息;(4)30m分辨率的Landsat8影像,用于提取地表植被覆盖信息;(5)野外地质灾害调查资料及Google Earth影像,用于确定滑坡灾害点的空间分布。

2 研究方法

2.1 深度学习

CNN模型是人工神经网络与深度学习相结合,通过反向传播算法训练卷积神经网络中的权重,从而实现深度学习的方法。CNN模型包括输入层、卷积层、池化层(采样层)、全连接层和输出层。其中卷积层采用滑动卷积窗口的方法对输入层进行特征提取,第1层卷积层通常提取到一些低级的特征,更多层的卷积层能从低级特征中迭代提取更高级的特征。卷积层最大的特点在于运用了参数共享机制,可以减少很多参数数量;池化层是实现对特征图的采样处理,在减少数据量的同时保留有用的信息,可以防止过拟合和提高模型的泛化能力;全连接层处于网络结构的尾端,对前面逐层变换和映射提取的特征进行回归分类等处理,采用ReLU函数作为全连接层每个神经元的激励函数。全连接层输出的值传递到输出层,利用SoftMax逻辑回归进行多分类。CNN模型结构如图2所示。

图2 CNN模型结构图

2.2 人工神经网络

ANN是由一系列小型处理节点组成的网络系统,可以用来处理非线性问题,神经网络的结构分为3部分:输入层、中间隐含层、输出层。网络学习训练过程是网络根据输入值和输出值不断地调节每个节点间连接权值的过程,可以表示为:

yi=f(∑wijxi+bj)

(1)

式中:wij为连接神经元i与j之间的权重;bj为神经元j的偏置;f为激活函数,模型通过选取合适的激活函数,通过对已知信息的反复学习训练,逐步调整改变神经元连接权重的方法,达到处理信息、模拟输入输出之间关系的目的,使得输出的均方误差值最小,得到最优参数的神经网络模型。

3 易发性指标因素选择

滑坡的发育是内动力地质条件和外界环境因子共同作用的结果。CZ铁路康定至理塘段穿越多种地形地貌,区域内地质背景十分复杂,地质环境极其脆弱,促使研究区内滑坡灾害频发。前人研究表明,滑坡灾害的发育主要受地形地貌、基础地质、水文环境、植被覆盖和人类工程活动等多种因素的影响(Guo et al.,2015;戴福初等,2020;彭建兵等,2020)。本文基于研究区地质条件和前人研究的基础上选取15个影响因子,分别为高程、坡度、坡向、曲率、平面曲率、剖面曲率、地形起伏度、地表切割度、地表粗糙度、地形湿度指数(topographic wetness index,TWI)、植被归一化指数(normalized difference vegetation index,NDVI)、岩性、距断层距离、距河流距离、距道路距离。研究区的影响因子数据类型由连续型和离散型组成,其中坡向、岩性、距断层距离、距河流距离、距道路距离等因子为离散型数据;高程、坡度、曲率、平面曲率、剖面曲率、地形起伏度、地表切割度、地表粗糙度、TWI、NDVI因子为连续型数据。将离散型数据的影响因子采用原有的自然分组进行分级,对于连续型数据的影响因子结合分布规律采用自然断点法进行分级,如图3和表1所示。根据工程地质类比法可知,与已发生滑坡灾害相似的环境条件更易于形成新的滑坡,因此采用频率比法来衡量各影响因子不同区间的信息量,定量分析滑坡发育与影响因子间的关系,频率比大于1时,对滑坡的发生有促进作用,且随着频率比的增大,滑坡发生的概率也越大。从表1中可以看出,2274~3249m的高程、42.1°~82.3°的坡度范围、西向、-1.74~-0.91的曲率、-0.32~0.09的平面曲率、大于0.64的剖面曲率、大于84的地形起伏度、大于47的地表切割度、大于1.96的地表粗糙度、8.41~10.46的TWI、大于0.247的NDVI、G类岩性(软弱的松散堆积砂、砾、黏土)、距断层距离小于500m、距河流距离200~500m、距道路距离200~500m分别在各所属因子里面占据最高的频率比值,且频率比均大于1。因此,各因子频率比最高区间范围对滑坡的发育有着促进作用。

图3 滑坡易发性评价因子分级图

表1 影响因子的频率比值

4 滑坡易发性评价

4.1 影响因子相关性分析

在滑坡易发性评价中,参与建模的影响因子之间需要保持相互独立性,以保证模型评价的准确性。因此,需要对各个影响因子之间进行相关性分析,将相关性较大的影响因子剔除,确保参与建模的因子之间没有较大的相关性。本文采用Pearson相关系数分析影响因子之间的相关性,当两个因子间的相关系数的绝对值大于0.5时,认为其具有较高的相关性(闫举生等,2019),运用SPSS18.0软件计算Pearson相关系数。

由表2可知,坡度与地形起伏度、地表切割度、地表粗糙度的相关系数大于0.5;曲率与平面曲率和剖面曲率的相关系数大于0.5;地表粗糙度与地形起伏度的相关系数大于0.5,说明这些因子间存在较高的相关性,影响模型评价的准确性。因此,在滑坡易发性建模中剔除坡度、曲率、地表粗糙度3个影响因子,将剩余的高程、坡向、平面曲率、剖面曲率、地形起伏度、地表切割度、TWI、NDVI、岩性、距断层距离、距河流距离、距道路距离等12个影响因子带入模型进行研究区滑坡易发性评价。

表2 影响因子的相关性分析

4.2 滑坡易发性建模

本文采用30m×30m分辨率的栅格作为评价单元,研究区共计13759881个栅格单元。研究区识别的138个滑坡样本作为基础样本数据,将每个滑坡矢量面转换成30m×30m分辨率的栅格单元,共计25069个滑坡栅格单元。非滑坡样本的选取,决定了模型训练与预测的准确性,为了减少非滑坡样本选取的误差,提高模型的预测能力,利用信息量模型划分的易发性分区选取非滑坡样本。通过计算各个因子的信息量值(表1),利用Arcgis10.2软件将每个信息量值进行叠加,得到研究区滑坡易发性指数,再运用自然断点法将研究区的易发性划分为极高、高、中、低和极低5个等级,在低和极低的易发区中随机选取相等数量的非滑坡样本。

采用CNN模型对CZ铁路康定—理塘段进行滑坡易发性评价时,需要将所有影响因子进行归一化处理,全部归一化为[0,1]的区间。连续型数据直接采用式(2)归一化,离散型数据先统一度量衡之后归一化。归一化公式为:

(2)

图4 CNN模型易发性分区图

图5 ANN模型易发性分区图

4.3 模型精确度的统计与分析

模型准确性的评价是滑坡易发性建模重要的组成部分,为了检验CNN、ANN模型的预测能力,本文选用频率比和ROC曲线对评价结果进行验证。

通过统计滑坡单元在各个易发性等级的分布状况,计算其频率比(表3),对模型的预测能力进行评价。在CNN模型的评价结果中,研究区内91.50%的滑坡栅格单元落入极高、高易发区,而ANN模型仅有89.15%的滑坡栅格单元落入极高和高易发区;CNN模型的极高易发区占研究区总面积的13.76%,但分布着78.06%滑坡栅格,其频率比高达5.6750,大于ANN模型的4.4414。以上分析表明CNN模型的预测精度高于ANN模型。

表3 滑坡易发性评价等级结果统计

ROC曲线也是滑坡易发性评价精确度检验的常用方法,在滑坡易发性精确度检验中得到广泛的应用(许冲等,2009;郭子正等,2019)。本文中ROC曲线的纵轴为滑坡栅格数的累加百分比,横轴代表易发性指数由高到低的各易发性等级面积的累加百分比。ROC曲线下的面积(AUC)代表了模型精确度的大小,当AUC值越接近于1时,表明该模型预测的精确度越高。两种模型的ROC曲线如图6所示,CNN模型的AUC值为0.87,大于ANN模型的0.84,表明CNN模型在该研究区滑坡易发性评价中预测性能更优,准确性更高。

图6 CNN、ANN模型的ROC曲线

4.4 滑坡易发区分布规律与影响因子分析

从CNN模型(图4)和ANN模型(图5)易发区分布图可知,两种模型预测的极高和高易发区主要为雅砻江流域以及其他河流流域,沿着河流两侧2km以内分布。从表1统计的频率比可知,距河流距离(<500m)、距道路距离(<500m)、高程(<3249m)的频率比均大于3.9,随着高程、距河流距离、距道路距离的增加,其频率比越来越小,对滑坡的影响作用逐渐减弱。相比于其他因子的频率比,高程、距河流距离、距道路距离的频率比差值更大,对滑坡的影响作用更明显,因此,高程、距河流距离、距道路距离是研究区滑坡发育的主要影响因素。研究区水系较为发育,长期的流水作用使河流两岸遭受严重的侵蚀和冲刷,形成高陡的不稳定斜坡,以及大量的道路修建,边坡的开挖,破坏了斜坡的天然应力分布及形态,容易造成边坡失稳,这些都是导致滑坡发生的重要因素。低易发区主要分布在高海拔地区,主要原因是高海拔地区常年积雪,岩土体处于冰冻状态,且人类工程活动较少,坡体受扰动较轻,不易发生滑坡灾害。因此,表明CNN的高和极高易发区空间分布规律与影响滑坡发育的因子统计分析结果基本一致。

5 结 论

本文在滑坡灾害的遥感影像解译和野外地质灾害调查的基础上,建立了CZ铁路康定至理塘段的滑坡空间数据库,并且选取了高程、坡向、平面曲率、剖面曲率、地形起伏度、地表切割度、TWI、NDVI、岩性、距断层距离、距河流距离、距道路距离等12个因子建立了滑坡易发性的评价体系。基于GIS和Python语言,运用深度学习中的CNN模型对研究区进行滑坡易发性评价,得到了以下结论:

(1)CZ铁路康定至理塘段共发育滑坡灾害138处,滑坡总面积21.02km2。运用频率比法定量分析了滑坡与影响因子的关系,表明滑坡发生的主要影响因素为高程、距水系距离、距道路距离。

(2)采用深度学习中的CNN模型对研究区进行滑坡易发性评价,按易发性指数将研究区划分为5个等级,分别为极高易发区(13.76%)、高易发区(14.00%)、中易发区(15.86%)、低易发区(18.17%)、极低易发区(38.21%)。其中极高和高易发区滑坡栅格单元占总滑坡栅格的91.50%。极高和高易发区主要为雅砻江和其他河流沿岸2km以内范围,并且易发性分区结果和滑坡灾害的空间分布规律存在较好的一致性。

(3)采用频率比和ROC曲线对评价结果进行验证,并且与ANN模型进行对比。CNN模型的极高易发区频率比高达5.6750,高于ANN模型(4.4414),且CNN模型AUC值为0.87,大于ANN模型(0.84),表明CNN模型的特征提取、参数共享、特征图的采样处理等特性使模型具较高的拟合度和较优的预测性能,能够较好地反映研究区滑坡易发性的分布状况,可以为CZ铁路康定至理塘段防灾减灾工作提供一定的科学依据。

猜你喜欢

康定易发曲率
Three New Species of Diploderma Hallowell,1861 (Reptilia: Squamata:Agamidae) from the Shaluli Mountains in Western Sichuan,China
一类具有消失χ 曲率的(α,β)-度量∗
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
唱一首康定情歌,跟着领克02 Hatchback 解锁钢炮宿命
儿童青少年散瞳前后眼压及角膜曲率的变化
夏季羊易发疾病及防治方法
2014年四川康定MS6.3和MS5.8地震的应力触发研究
冬季鸡肠炎易发 科学防治有方法
面向复杂曲率变化的智能车路径跟踪控制