APP下载

基于CF与CF-LR模型的地质灾害易发性评价

2022-04-29屠水云张钟远付弘流徐世光邓明国何例春刘金宇

中国地质灾害与防治学报 2022年2期
关键词:易发确定性逻辑

屠水云,张钟远,付弘流,徐世光,邓明国,何例春,刘金宇

(1.云南地矿工程勘察集团公司,云南 昆明 650000;2.昆明理工大学国土资源工程学院,云南 昆明 650000;3.铜仁市自然资源局,贵州 铜仁 554300)

0 引言

地质灾害易发性评价是以地质环境条件为基础,参考地质灾害现状的静态因素来预测一定区域内发生地质灾害的可能性[1]。地质灾害易发性评价方法分为定性和定量两类。定性方法主要包括专家评分[2]、层次分析[3]等。随着数据获取的便利、计算能力的提升以及评估模型的日趋完善,定量评价方法应用更为广泛,定量方法主要有信息量[4]、确定性系数[5]、证据权[6]、逻辑回归[7]、支持向量机[8]、决策树[9]、随机森林[10]、神经网络[11]等。其中确定性系数方法计算严密,可以解决多源数据类型的合并问题和影响因子内部不同特征区间对地质灾害易发性的影响[12],但单一的确定性系数评价法没有考虑每个评价因素对地质灾害易发性的影响差异。逻辑回归( Logistic Regression,LR) 可以使用简单的线性回归来描述自然现象之间的复杂非线性关系,并根据影响因素与历史灾害点之间的关系确定影响因素的权重。文章基于地理信息系统,将研究区划分为栅格,选取海拔、坡度、坡向、地形曲率、归一化植被指数(Normalized Difference Vegetation Index,NDVI)、工程地质岩组、断层、道路、水系这9 个孕灾、诱灾因素作为评价指标因子,采用频率比法(Frequency Ratio,FR)、确定性系数法(Certainty Factor,CF)量化评价指标因子,基于确定性系数法进行逻辑回归运算,计算研究区网格地质灾害发生的概率,得到地质灾害易发性分区图。

1 研究方法

1.1 频率比(FR)

频率比是建立在假设地质条件、孕育地质灾害的概率相似的地区。频率比重点考虑因子类别与地质灾害发生可能性的空间相关性,定量表示环境因子各属性区间对地质灾害发生的相对影响程度[13−15],计算方法如式(1)。

式中:FRi——频率比值;

li——某个评价因子i类属性区间发生地质灾害的个数;

L——研究区内的总数;

si——某个评价因子i类区间的面积;

S——研究区总面积。

FRi大于 1 表明该环境因子属性区间利于地质灾害发育,值越大表示对地质灾害发育的贡献也越大;反之,FRi小于 1 表明该环境因子属性区间不利于地质灾害发育。

1.2 确定性系数模型(CF)

确定性系数模型假设将来发生地质灾害的条件和过去发生地质灾害的条件相同。CF计算公式为:

式中:CF——地质灾害发生的确定性系数;

PPa——地质灾害在因子分类数据a中发生的条件概率,研究中通常用因子分类a中的地质灾害个数与因子分类a的面积比值表示;

PPS——地质灾害在整个研究区中发生的先验概率,以研究区地质灾害总个数与研究区总面积比值表示。

由式(2)可知,CF的变化区间为[−1,1]。正值表示地质灾害发生的确定性大,越接近1 越易于发生地质灾害;负值表示地质灾害发生确定性小,越接近−1 越不易于发生地质灾害;值为 0 时表示条件概率和先验概率相同,不确定是否会发生地质灾害[5]。

1.3 基于确定性系数的逻辑回归模型(CF-LR)

逻辑回归模型是研究二分类因变量常用的多元统计分析方法。自变量Xi为控制灾害发生的影响因子。因变量Y属于二分类变量,通常 0 代表地质灾害不存在,1 代表地质灾害存在。用线性回归来描述自然现象之间复杂的非线性关系,揭示因变量和多个自变量之间的多元回归关系,将每个评价因子视为自变量,能很好解决滑坡易发性评价中出现的二分类变量问题[16],逻辑回归函数如式(3):

式中:P——地质灾害发生的概率;

Z——地质灾害发生概率的目标函数,表达为各因素自变量x1,x2,x3,···,xn的线性组合;

β1,β2,···,βn——逻辑回归系数;

β0——常数表示在不受任何有利或不利于地质灾害发生因素影响的条件下,地质灾害发生与不发生概率之比的对数值[17]。

通过确定性系数模型计算得到各评价因子类别的值,将其结果作为逻辑回归模型中的自变量,建立回归方程,进行逻辑回归运算,得到各评价因子的逻辑回归系数,以此进行确定性系数–逻辑回归模型(CF-LR)进行地质灾害易发性评价。

2 实例分析

2.1 研究区概况

研究区沿河土家族自治县位于贵州省东北部,隶属铜仁市,南北长98.28 km,东西宽53 km,行政区域总面积2 483.51km2,占贵州省总面积的1.4%,占铜仁市总面积的13.7%。沿河县境内有乌江及其支流洪渡河、暗溪河、白泥河、坝坨河等26 条河流,河道长548.7 km,河网密度0.23 km/km2。地貌轮廓明显受地质构造控制,全县地貌“轴部成山,翼部成谷”。区内出露地层从老到新有震旦系、寒武系、奥陶系、志留系、二叠系、三叠系及第四系。受乌江切割和地层、岩性、构造的影响,在内外营力综合作用下,形成山峦叠障、沟谷纵横、复杂多样的地形地貌景观。区内历史地质灾害以滑坡、崩塌为主,共计130 处,滑坡、崩塌分别占全县地质灾害的55.38%、33.85%。研究区地理位置及地质灾害分布如图1所示。

图1 研究区地理位置及地质灾害点分布Fig.1 Geographical location and distribution of geological hazard in the study area

2.2 评价指标因子选取

结合研究区的地质背景、地质灾害形成条件及发育特征,初步选取海拔、坡度、坡向、地形曲率、归一化植被指数(NDVI)、工程地质岩组、距断层距离、距道路距离、距水系距离9 个影响因素作为评价指标因子。数据源为沿河县地质灾害数据库、地理空间数据云平台获取研究区30 m×30 m 数字高程模型(Digital Elevation Model,DEM)、1∶50 000 的地质图、Google 影像地图,利用ArcGIS 平台通过DEM 数据提取分析得到研究区坡度、坡向、地形曲率、河流网评价因子图层,通过Google 影像地图矢量化得到道路数据,利用 landsat8影像获得该区的归一化植被指数(NDVI)专题图。

2.3 评价因子相关性分析

影响地质灾害发育的因素之间存在一定的关联,当评价因子之间存在多重共线问题时,会降低模型的预测精度,因而需对评价因素进行相关性分析。利用ArcGIS 计算相关矩阵如表1所示,相关性系数绝对值最大为0.324,说明本文选取的9 个评价指标因子之间相关性较弱,均可纳入研究区评价模型[18]。

表1 评价指标因子相关性系数矩阵Table 1 Correlation coefficient matrix of evaluation index factors

2.4 评价指标因子分析

工程地质岩组为离散型因子,根据野外地质调查以及已有分类标准进行分类,连续型指标因子分类根据地质灾害比例进行等距离划分,各指标因子分级如图2所示,利用式(1)进行频率比计算确定性系数计算,利用式(2)进行确定性系数计算,结果见表2。

表2 评价指标因子分级、频率比、确定性系数Table 2 Evaluation index factor classification,frequency ratio and certainty coefficient

图2 评价指标因子分级图Fig.2 Grading of evaluation index factors

海拔高度与降雨量、植被类型、植被覆盖等有着密切的关系,影响着人类工程活动程度,因此海拔间接影响着地质灾害的发育[19],海拔高度209~1 408 m,将其分为6 个类别。

坡度定量描述地面的倾斜程度,它的大小对斜坡表面径流量、斜坡表体土层剩余下滑力等都影响巨大,一定程度上影响着地质灾害发育的规模与强度[20],研究区坡度最高达75°,以8°等间距分为5 类,大于40°为1 类,共计6 个类别。

不同坡向与岩体结构面的组合关系差异导致地质灾害发育的程度不同[21],将研究区坡向分为9 个类别。

地形曲率是局部地形曲面在各个截面方向上形状、凹凸变化的反映,其值为正时表明边坡是凸面坡,为 0 时表明为平面坡,为负时表明边坡为凹面坡[22],由于研究区平面坡(曲率等于0)面积极小,所以用曲率为−0.2~0.2 代表近似平面坡,将其分为凹坡(<−0.2),近似平面坡(−0.2~0.2),凸坡(≥0.2)3 类。

归一化植被指数(NDVI)是遥感影像中近红外波段(NIR)的反射值和红光波段(R)的反射值的差与两者之和的比值,NDVI 值的范围为 [−1,1],负值表示对可见光高反射,地面为江、河、湖泊等水体或有雪覆盖,0 表示NIR 和R 近似相等,为岩石或裸地等,正值表示有植被覆盖,数值越大表示植被覆盖率越高[23],研究区NDVI 在−0.02~0.54 之间,将其分为5 个类别。

岩土体是地质灾害发生的物质来源基础,岩石类型、坚硬程度决定岩土体的力学强度、抗风化能力和抗侵蚀能力[19],研究区工程地质岩组分为5 类,分别为坚硬岩组、较坚硬岩组、较软岩组、软岩组和软硬相间岩组。

地质构造影响着岩体结构及其组合特征,对山区地质灾害发育起着重要的控制作用[24],利用ArcGIS 领域分析功能将研究区断层以300 m 等距离提取缓冲区,得到6 个类别。

道路修建开挖坡体改变原有地质环境,破坏岩土体结构[25],以200 m 等距离提取道路缓冲区,得到6 个类别。

河流的侵蚀、侧蚀作用影响地质灾害的发育、且河流是控制坡面侵蚀的重要原因[26],将研究区河流200 m等距离提取缓冲区,得到6 个类别。

通过对因子类别进行分类后,利用式(1)对各评价因子类别进行频率比计算,当频率比大于1 时,说明该因子类别对地质灾害发育具有促进作用,如表3所示。

表3 频率比大于1 的属性区间Table 3 Attribute intervals with frequency ratio greater than 1

2.5 逻辑回归分析

利用ArcGIS 以500 m 距离制作灾点缓冲区,在500 m 以外提取随机点130 个非地质灾害点,与灾害训练样本组成训练集共计260 个点。将9 个评价指标因子的属性提取至训练集样本,导出后替换成评价因子的CF 值导入SPSS 软件中进行逻辑回归运算,各评价因子分类级别的CF 值作为自变量,是否发生滑坡灾害作为因变量(0 表示未发生地质灾害,1 值表示已发生地质灾害),LR-CF 模型的逻辑回归运算结果如表4所示,其计算得到的所有评价指标因子的逻辑回归系数均为正数,表明所有评价指标因子对模型均起正向作用。在逻辑回归计算过程中,显著性sig≤ 0.05 则该回归系数有效,评价指标因子具有统计意义[22]。

表4 逻辑回归系数和显著性Table 4 Logistic regression coefficient and significance

3 易发性分区与评价

3.1 CF、CF-LR 分区结果

基于GIS 平台,将评价指标因子图层自定义添加属性字段,对应输入计算的确定性系数,利用栅格叠加得到确定性系数模型评价图,利用自然断点法将沿河县地质灾害易发性区划为低易发区、中易发区、高易发区、极高易发区,其面积(频率比)分别为361.265 km2(0.159)、784.269 km2(0.414)、895.197 km2(1.003)、442.779 km2(2.718),如图3(a)和表5所示。利用栅格计算器按照公式(3)计算得到CF-LR 模型地质灾害发生概率图,利用自然断点法将其分为低易发区、中易发区、高易发区、极高易发区,其面积(频率比)分别为671.252 km2(0.142)、467.758 km2(0.327)、927.527 km2(0.741)、507.145 km2(3.051),如图3(b)和表5所示。CF 模型和CF-LR 模型地质灾害易发性等级的频率比值均从极低易发区到极高易发区明显增大,表明有效评价了研究区地质灾害易发性。CF 模型和CF-LR 模型计算的极高易发区频率比值分别占总频率比值为63.3%和71.6%。说明CF-LR 模型比单一CF 模型评价精度更高。

表5 地质灾害易发性评价频率比值Table 5 Frequency ratio of geological hazard susceptibility evaluation

图3 地质灾害易发性区划Fig.3 Division of geological hazard susceptibility

3.2 精度验证

本文使用ROC 曲线来表示拟合数据和实测数据之间的关系,评价成功率或有效性以AUC值来表示(图4)。曲线中纵轴为敏感度,即实际地质灾害数量百分比累加量,横轴为特异性,即易发性面积百分比累积量,ROC曲线下面积AUC值越大表明模型评估效果越好[27−28]。CF 模型和CF-LR 模型AUC值分别为0.722 和0.818,说明CF 和CF-LR 评价模型均能够较为客观准确地对沿河县地质灾害易发性进行评价,且CF 法进行逻辑回归后的CF-LR 模型评价精度更高。

图4 ROC 曲线Fig.4 ROC curve

4 结论

(1)文中从选取的9 个地质灾害影响因素的各类别的频率比值可以看出,在海拔209~800 m,坡度8°~32°,坡向朝向北、东北、东、西南,地形曲率小于−0.2,NDVI 为0.1~0.3,较软质岩、软质岩、软硬相间质岩,距断层900 m、道路和河流800 m 以内对沿河县地质灾害发育具有促进作用。

(2)CF 模型评价低易发区、中易发区、高易发区、极高易发区,其面积(频率比)分别为361.265 km2(0.159)、784.269 km2(0.414)、895.197 km2(1.003)、442.779 km2(2.718);CF-LR 模型评价低易发区、中易发区、高易发区、极高易发区,其面积(频率比)分别为671.252 km2(0.142)、467.758 km2(0.327)、927.527 km2(0.741)、507.145 km2(3.051)。CF 模型和CF-LR 模型地质灾害易发性等级的频率比值从极低易发区到极高易发区明显增大,均有效评价了研究区地质灾害易发性。CF 模型和CF-LR 模型计算的极高易发区频率比值分别占总频率比值为63.3%和71.6%。

(3)CF 模型和CF-LR 模型AUC值分别为0.722 和0.818,均能够较为客观准确地对沿河县地质灾害易发性进行评价。但单一CF 法没有考虑评价因素对地质灾害易发性的影响差异,在此基础上,LR 法用线性回归来表示评价因子之间复杂非线性关系,考虑了评价因子的权重,使得AUC值提高了0.096,CF-LR 模型具有更高的评价精度。

由于研究区的地质灾害研究样本偏少,不为理想研究实验区,将影响评价效果和精度,对地质灾害易发性评价的精度还需进一步探索。

猜你喜欢

易发确定性逻辑
刑事印证证明准确达成的逻辑反思
论中国训诂学与经典阐释的确定性
含混还是明证:梅洛-庞蒂论确定性
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
逻辑
夏季羊易发疾病及防治方法
创新的逻辑
冬季鸡肠炎易发 科学防治有方法
论法律的确定性、妥当性与交谈合理性*——评《法律解释学》“法律确定性问题”部分