基于机器学习MaxEnt模型的线性工程滑坡易发性评价

2021-05-09王文霞

矿产与地质 2021年6期

王文霞

(北京市地质工程勘察院，北京 100048)

0 引言

滑坡是我国地质灾害中数量最多、发生频率最高的地质灾害。对穿越区域大、暴露度高的线性工程而言，滑坡严重威胁铁路、公路、输电线路、管线等“生命线”工程的正常运行[1]。因此，诸多学者对不同类型的线性工程沿线进行了地质灾害易发性评价。如屈飞行等[1]将InSA形变监测与加权信息量模型进行耦合，构建了川藏联网工程芒康段地质灾害易发性动态评价模型；冼国栋等[2]采用贡献率模型完成了中国石油西南管道沿线的地质灾害滑坡易发性评价；李刚等[3]分析了滑坡对关中环线道路建设和维护的影响。

不同的评价模型对滑坡易发性评价结果有很大影响。目前，常用的滑坡易发性评价模型可分为知识驱动型、数据驱动型和物理模型驱动型[1]。知识驱动型有较强的主观性，物理模型驱动型则需要大量精确的滑坡体力学参数，这在一定程度上限制了这两种方法的应用。实践证明，相较其他两种类型，数据驱动型有着更高的精确性[2]。随着人工智能的发展，机器模型已成为滑坡易发性定量评价最为广泛应用的模型，大量应用实践证明，机器模型的评价结果优于传统数据统计模型[4]。常见的机器学习模型有随机森林模型、决策树模型、支持向量机、贝叶斯模型和神级网络模型等[5-6]，各种模型的优缺点见表1。

表1 常见机器学习模型在滑坡易发性评价中的优缺点对比

根据滑坡评价的基本理论，未来滑坡通常会发生在与已发生过滑坡的相似区域，这与物种生存环境适宜性评价的基本理论相一致。近期，国外科学家进一步将原应用于物种生存环境适宜性评价的最大熵模型运用于滑坡易发性评价研究，取得了有效评价结果，这在国内滑坡易发性评价工作中尚不多见[7-8]。因此，将该跨学科评价模型应用于国内滑坡易发性评价并验证其适宜性，可丰富评估模型并应用于工程施工过程中的滑坡灾害预测。

国道109新线高速公路(六环—市界段)工程总长度为69.2 km，是实现京津冀一体化发展的一条重点规划线路。因此，本文以该线路为例，采用机器学习模型中的最大熵模型(MaxEnt)对沿线滑坡进行易发性评价，实现模型验证的同时，可为新高速公路的滑坡灾害预警提供参考。

1 研究区概况

国道109新线高速公路(六环—市界段) (图1)，总长度为69.2 km，东起北京六环，终点为市界。本文选择以公路沿线两侧所在山体的分水岭作为评估边界与地质灾害活动环境更加相符，进而有效评估高风险灾害[9]，圈定评估区域面积共计628 km2。项目区域为典型的山地地貌，地层以砂岩、玄武岩为主，区域地质构造复杂，主要以大型复式地台型褶皱为主，主体构造呈NE向，断裂构造发育，该构造附近发育有少量小型的非活动断裂。根据遥感解译和现场调查，共发现126处疑似滑坡，对该工程的建设和后期维护产生巨大威胁。

图1 地理位置图

所有解译的滑坡主要分布在公路沿线斜坡单元内，呈零散分布。地形坡度大(45°～70°)，坡向在110°～170°之间，坡高较高，坡体上岩体节理、裂隙较发育，受人为活动等影响较大。

2 数据来源与研究方法

基于MaxEnt模型的滑坡易发性评价主要有以下步骤：

1)构建评价指标体系：收集滑坡数据库、地质图、数字高程影像等资料，确定评价指标体系。

2)数据预处理：在GIS中将所有评价指标统一坐标系，确定评价单元类型和大小，输出为ASCII格式。

3)导入MaxEnt软件计算：将上步获取的指标导入，设定训练和验证比例、训练次数等内容，进行易发性计算。

4)滑坡易发性分级与分析：将计算结果导入到GIS平台中，采用自然断点法进行易发性分级，实现研究区滑坡易发性评价。具体流程见图2。

图2 滑坡易发性评价流程图

2.1 数据源与评价指标

构建有效的评估指标体系，才能实现有效的评价结果[10]，本文以DEM、地质图、光学遥感影响及公开数据等为数据源，选取了地形起伏度、高程、坡度、坡向、地形湿度指数、粗糙度、工程地质岩组、距道路距离、植被覆盖度和土地利用类型等10个评价指标，重采样所有指标精度为30 m。具体数据来源和精度见表2。评价数据主要来源于公开数据，且经过大量相关文献的检验，数据可靠，适用于地质灾害易发性评价[1-3，10]。

表2 数据来源

2.2 数据预处理

首先将所有的数据在GIS中转换为同一坐标系和同一精度，随后导出为MaxEnt软件可识别的ASCII格式。其中，地形起伏度、高程、坡度、坡向、地形湿度指数和粗糙度等6个指标来自数字高程模型，工程地质岩组来自地质图的矢量化处理，NDVI和距道路距离分别来自哨兵2号的红外、近红外波段影像及光学影像，土地利用类型图依据国家标准将其分为五大类。滑坡灾害数据库以野外调查和遥感解译为数据源，共计126处。

2.3 MaxEnt模型

MaxEnt模型是依据训练滑坡的地质环境指标并通过贝叶斯规则定量计算评估区滑坡发生概率的机器学习模型。具体计算原理：将研究区划分为有限个像元集X，假设x表示研究区的每一个计算单元x∈X，π(x)表示每个计算单元的发生滑坡的概率分布值0

(1)

式中：P(y=1|x)表示在特定x点发生山体滑坡的概率；P(y|x=1)表示滑坡分布条件下特定点x发生滑坡的可能性，即π(x)；P(y=1)表示滑坡总体发生率；P(x)表示任意点发生x滑坡的概率。

因P(x)表示研究区内所有计算单位X的任意点x等于1|x|，则式(1)可转化为

P(y=1|x)=π(x)P(y=1)|x|

(2)

设滑坡发生与不发生的概率相等，即 [P(y=0)=P(y=1)=0.5]，可进一步简化方程为

(3)

MaxEnt模型的应用直接取决于条件概率P(y=1|x)，条件概率值越大，滑坡发生的可能性越大。事件发生的数据π(x)可用于建模，代替直接估算P(y=1|x)。最大熵原理估计的π(x)值等于由指数表示的吉布斯概率分布。如果考虑n个特征(fi，i=1，2，…，n)，则吉布斯的概率分布可定义为

(4)

式中：Zλ是一个归一化常数，可确保qλ(x)之和为1。在qλ(x)的估计中，模型利用正则化I2找到最接近约束条件下的分布，避免过度拟合。因此，MaxEnt模型是最大限度地处理对数似然。如果研究区内事件出现m次，则对数似然与正则化之间的差异应为最大化，表示为

(5)

式中：βj是jth特性fj的正则化参数。

在最大熵模型应用中发现，吉布斯概率分布符合赋存数据，具推广意义。

2.4 滑坡易发性评价

依据Cory Merow,et al[11]设置好训练数据和验证数据分配比例、训练次数、输出类型等内容，即可实现滑坡易发性定量评价。需要设置的主要参数有数据分割比例和训练次数两类，其余为是否生产ROC曲线、输出类型等相关选项。本文根据Du Juan,et al[12]选择设定解译的126个滑坡中80%的滑坡数据用于训练模型，其余的20%作为验证模型，模型训练次数为100次，计算输出类型为逻辑计算、输出格式ASCII型、进行Jackknife分析、绘制变形响应曲线。

3 结果与分析

3.1 模型训练与检验

借鉴受试者工作特征曲线ROC-AUC值对模型精度及分区结果进行检验。由图3可知，训练模型精度达到80.2%，验证精度达到82.1%。依据ROC-AUC值的评价标准[6]，当AUC-ROC的值为0.8～0.9时，预测效果较好(good)。因此，本次模型训练和验证均达到了预测效果，且精度较高，结果具一定的可信度。

3.2 评估因子对模型的贡献度

使用MaxEnt模型中的Jackknife检验模型可掌握不同评价指标对易发性评价结果的影响[6]。由图4可知，所有评价指标对评价结果的贡献率均大于0，表明所有指标均对模型有一定的影响。依据该指标与ROC值的变化可知，坡向、距道路距离、NDVI、高程、地表粗糙度和土地利用类型6个指标对滑坡评价结果的总影响达到了90%，其他指标对滑坡贡献率较小。该分析结果与野外调查及相关经验较为一致。坡向影响岩土体表层风化作用，进而影响雨水入渗后的内部耗损；距道路远近则反映人类活动对当地环境的改造作用；NDVI表示滑坡发生后的生态恢复，滑坡活动区的植被通常比稳定斜坡区稀疏，相应的NDVI值也较小，从而区可分滑坡区与非滑坡区；高程则影响该斜坡的地应力分布、风化等因素；地表粗糙度则表示滑坡发生区与未发生区的地表改造和破坏差异性，DEM精度对其有一定关系；滑坡区常因土体松散而被作为专用土地来利用，未滑坡区多保持原状。

图4 刀切法检测主要环境变量对滑坡分布影响的重要程度

3.3 评估因子对易发性评价结果的影响

图5为MaxEnt模型计算过程中10个评价指标的响应曲线。评估曲线可直接反应出不同指标值对发生滑坡灾害的贡献度，不同指标值对应的“存在概率”越大，则表明该指标值对滑坡发生的贡献概率越大。曲线上升则表示随着该指标值的增加，滑坡发生概率呈递增趋势；曲线下降则表示随着该指标值的增加，滑坡发生概率呈递减趋势。

图5 环境变量响应曲线

由图5可见：①滑坡易发性在0～350 m高程区间呈递增趋势，在350 m高程附近达到峰值，在350～2500 m高程区间，随着高程的增加，“存在概率”缓慢递减。②滑坡易发性随着坡度的增加而逐渐递增。③统计发现，坡向呈西南和东南时，其对滑坡易发性的影响更强烈。④植被归一化指数NDVI越低则滑坡易发性越强，当NDVI值=0.72时，“存在概率”出现最低值。⑤随着地表粗糙度的增加，滑坡易发性呈递增趋势。⑥地形湿度指数对滑坡的影响呈“变速”增加现象，当指数值在0～6之间时，滑坡易发性大幅度增加；当指数值在6～25之间时，滑坡易发性的增加速度趋缓。⑦离道路越近，受人类活动(如切坡、削坡)影响越大，滑坡易发性越强，随着距离的增加，“存在概率”达最大值，又因地处山体顶部，岩石较为破碎，故滑坡易发性大大增加。⑧滑坡面多发生于软岩和较坚硬岩体交界处。⑨土地利用类型主要分为林地、草地和建设用地三类，其中建设用地影响最大。

3.4 滑坡易发性评价结果与分析

MaxEnt模型的计算值在0～1之间，数值越大，表示滑坡易发性越大。采用自然断点法将滑坡易发性分为5类，分别为极低易发区(0～0.144)、低易发区(0.114～0.296)、中易发区(0.296～0.436)、高易发区(0.436～0.584)和极高易发区(0.584～0.993)，具体空间分布见图6。

图6 滑坡易发性分区图

由图6可知，地质灾害极高易发区主要分布于新建公路中段两侧以及东西两侧接近人类活动区域的端部，低易发区主要分布于高程较高、人类活动影响较小区域，中易发区主要分布于两者之间，整体易发区过渡较为自然，符合自然规律。

借助栅格统计分析工具(图7)，滑坡极低易发区面积占比2%，低易发区面积占比10%，中易发区面积占比16%，高易发区面积占比32%，极高易发区面积占比40%。在滑坡易发性分区结果中，126个滑坡中有90个(72%)位于高易发区和极高易发区，利用LR Class指数对本次滑坡易发性进行评价，LR Class指数为2.25，评价结果优秀[13-16]。