基于MaxEnt模型的滑坡易发性评价
——以攀枝花市为例
2021-02-05屈新星李道安何云玲闫文波
屈新星, 李道安, 何云玲, 余 岚, 闫文波
(云南大学 地球科学学院, 昆明 650201)
滑坡是岩土体沿滑坡面迅速发生位移的一种过程,在岩土体变形中规模大、数量多、危害严重、性质比较复杂[1]。滑坡易发性,即滑坡基于当地环境条件在一个地区发生滑坡的概率;易发性不考虑滑坡发生的时间或频率,也不考虑预期滑坡发生的破坏程度[2]。构建科学的预测模型,即依据滑坡灾害潜在区域内各种环境要素的空间分布,预测滑坡的易发程度,可为滑坡防灾减灾提供科学的参考依据[3]。
目前国内应用最为广泛的滑坡易发性评价方法主要有两类[4]:一类是定性分析方法,主要依靠主观经验打分确定因子权重;一类是定量分析方法,通过数理统计建立模型。定量分析方法中的信息量模型是通过计算各个影响因素对地质灾害发生破坏所提供的信息量贡献值,作为定量分区的指标,以信息量的大小来表示各个影响因素与地质灾害的密切程度,灾害发生的概率随信息量值的增大而变大[5-6];这种方法逐渐成为区域地质灾害预测评估的常用方法之一[7]。
国外学者主要是通过概率、二元统计模型、模糊逻辑、AHP(Analytic Hierarchy Process)模型、熵指数模型等进行滑坡易发性研究。如:Mokarram等[8]使用了ROC(Receiver Operating Characteristic Curve)和AUC(Area Under Curve)方法对fuzzy logic(模糊逻辑)和AHP模型产生的滑坡易发性进行验证,最终fuzzy logic模型(89.7%)在研究区域(伊朗)的表现优于AHP(81.1%)模型。Akgun等[9-10]利用Logistic回归方法建立了磁化率模型对土耳其西部滑坡易发性进行评估;并通过似然—频率比和加权线性组合模型评估土耳其东北部滑坡易发性。Pradhan等[11-12]采用了人工神经网络法、GIS和频率比模型、多元回归模型和模糊逻辑法对马来西亚多地进行了滑坡易发性评估。Lee等[13]对韩国龙仁山体滑坡采用了概率和逻辑回归模型进行研究。Pourghasemi等[14]利用GIS中的熵指数和条件概率模型进行滑坡易发性评估,并在结果中表示熵指数(AUC=86.08%)表现略好于条件概率(AUC=82.75%)模型。
maxEnt(maximum Entropy)模型是一个基于最大熵原理的概率模型,即在满足已知约束的条件下,利用目标的存在分布点和环境变量,推算目标的生态需求[15];其表现出较好的分辨变量相互作用能力及抽样偏差处理能力,操作运行简单快捷,对样本量要求较低(>5),建立了一个反映多个影响因子对目标综合影响的评价指标,即存在概率[16]。maxEnt模型和上述以往滑坡易发性研究中常用的信息量模型、熵指数模型、概率模型在理论上有一致的共同性,但是基于maxEnt模型对滑坡易发性的研究鲜有报道。因此,本研究以攀枝花市为研究区域,基于maxEnt模型原理,结合ArcGIS空间分析模块对其滑坡易发性进行定量预测和分析研究,以期为攀枝花市土地利用规划和滑坡防灾减灾工作提供科学参考。
1 研究区概况
攀枝花市地处四川省西南部,地理位置为26°05′—27°21′N,101°08′—102°15′E;是川西南和滇西北区域的中心城市和交通枢纽,也是全国著名的重要矿区;市辖东区、西区和仁和区、米易县和盐边县,总面积7 440 km2。全市属南亚热带季风气候,年降雨量800~1 100 mm,夏季受高温高湿的西南季风影响,92%以上雨量集中于6—10月的雨季;日最低气温为4~8℃,日最高气温为19~23℃[17]。攀枝花市属侵蚀、剥蚀中山丘陵、山原峡谷地貌,地形陡峻,强烈的地质构造活动使岩体破碎;加之特殊的干热河谷及旱、雨季分明的气候环境,使岩体物理、化学风化剧烈,由此形成崩塌堆积物和松散的坡积、残积层稳定性差,易形成滑坡[18-19];其滑坡数量相对较多,而且发生的频率和成灾概率都很大[20],给该区的工农业生产、交通运输和人民生命财产造成了很大的危害。
2 研究方法
2.1 数据来源与预处理
按照前文滑坡易发性的定义,结合滑坡发生主要受河流冲刷、地下水活动、雨水浸泡、地震等自然要素,以及人工切坡等人类活动要素的影响。经过筛选比对,最终确定高程、坡度、坡向、土地利用类型、归一化植被指数(Normalized Difference Vegetation Index,NDVI)和人口密度6项因子作为攀枝花市滑坡易发性的评价指标。
滑坡点数据来源于2016年、2017年的全国矿山环境遥感监测,是中国地质调查局航空物探遥感中心项目下发的土地利用多源遥感数据,分辨率最低为5 m×5 m、最高为1 m×1 m。图1中的滑坡分布点是前期项目组通过室内的遥感影像解译,再经过野外逐一实地调查验证后得到的37个点。高程、坡度、坡向来自于美国国防部国家测绘局公布的SRTM-DEM数据。NDVI数据来自于美国国家航空航天局NASA(National Aeronautics and Space Admini-stration)的Terra遥感卫星的MOD13Q1数据产品。同时通过中国科学院资源环境科学数据中心获取土地利用类型遥感监测数据和人口分布数据。
将所获取的全部数据先进行地理坐标系统和像元大小(30 m×30 m)的统一;然后通过ArcGIS的3D分析模块进行高程、坡度、坡向提取,通过ENVI 5.1软件对NDVI进行MVC(maximum Value Composite)最大值合成平均值[21]。最后将高程、坡度、坡向、土地利用类型、人口密度和NDVI这6个影响因子数据转化成maxEnt 3.4.1软件所要求的ASCII格式文件,将滑坡点的地理位置转成.csv格式文件。
图1 攀枝花市的地理位置及主要滑坡点分布
2.2 模型建立与准确性
将滑坡地理位置和各环境特征变量数据导入maxEnt 3.4.1中,随机选取65%,70%,75%,80%,85%,90%的滑坡点数据作为训练数据集用于建立模型,将剩余的滑坡点用于模型验证。为了避免偶然误差,在模型运行中选择logistic为输出形式,表示某个滑坡在整个模拟区域(攀枝花市)每个栅格上的存在概率(P),取值范围为0~1,勾选随机种子,其他参数不变,在预试验中运行10次,目的是使模拟得到的AUC值较为稳定(±0.001),AUC为模型自带的受试者工作特征曲线ROC下的面积,不同的值代表模型准确度级别。通过运行模型将环境因子中贡献率为0的因子剔除后,再重新输入模型运行10次直至没有贡献率为0的影响因子出现。在正式试验中将筛选后的影响因子再运行10次以得到一个稳定的预测数值。
在建立模型和运行过程中,均采用交叉验证的方式进行模型验证。首先,通过模型Jackknife中的AUC评价指标对模型模拟的滑坡潜在分布点预测效果,这种AUC值的验证是以样本点的形式对模型进行验证。其次,通过Kappa值从整体上检验模拟的准确度,即通过模型模拟完成后的研究区滑坡易发性预测图与已发生的滑坡现状点图进行Kappa一致性检验。AUC值和Kappa值的评估标准见表1[22]。
表1 AUC值和Kappa值及其与模型准确性的关系
本文采用AUC标准差来判断模型模拟值是否稳定,在利用maxEnt处理数据过程中,每个测试百分比数据的运行处理都有很多次重复,计算出的多个AUC值的方差计算公式为:
(1)
3 结果与分析
3.1 maxEnt模型运行的验证
图2为应用maxEnt模型进行攀枝花市滑坡点潜在地理分布模拟的特征曲线,可以看出,训练集AUC值为0.960,验证集AUC值为0.966,适用等级均达到优秀,表明maxEnt模型能够准确地对滑坡点的地理分布与环境影响因子的关系进行模拟。
图2 攀枝花市滑坡地理分布模拟结果的ROC曲线
为了研究maxEnt模型在运行中选取不同现状分布点做样本随机训练比率对maxEnt模型预测拟合准确度的影响,按照上文描述步骤将不同比率的AUC值采用GraphPad Prism软件进行均方差处理得到图3。可以发现AUC值虽然在随机训练比例80%达到最大值,但是AUC的方差值显示当模型随机训练比例75%的时候方差是最小的,表明这个时候的AUC值最稳定,模型模拟所得到的数据最精确。因此,下文的研究结果均基于随机选取75%训练数据比例作为模型运行的基础。
3.2 滑坡易发性的空间分布格局
将模型模拟结果导入到ArcGIS 10.2中,转换成浮点型栅格数据。根据统计学上小概率事件不可能发生的原理,当p<0.1时,认为该栅格内滑坡灾害不可能发生;当p≥0.1时,认为该栅格内滑坡灾害可能在此栅格发生;将滑坡概率0.1~1依次按照自然断点法进行划分0~0.100,0.100~0.156,0.156~0.321,0.321~0.556,0.556~0.980共5段,对应易发性中极低易发生、低易发生、中易发生、高易发生和极高易发生5个等级,空间分布格局见图4。
图3 不同训练比例的AUC值及AUC方差
图4 攀枝花市滑坡易发性等级空间分布
Kappa值为整体上检验模拟的准确度,将模型模拟完成后的研究区滑坡易发性预测图4中滑坡点的潜在地理空间分布,与已发生的滑坡现状点图进行Kappa一致性检验,结果显示Kappa系数为0.86,基于maxEnt模型的模型结果显示与实际滑坡灾害点在空间上的分布十分吻合。从整个市域范围来看,攀枝花市滑坡极低易发生、低易发生和中易发生的面积分别为6 381.96,311.36,380.00 km2,分别占研究区总面积的87.18%,4.25%,5.19%,高易发生和极易发生分别占总面积的2.57%,0.80%;其中高易发生和极易发生区域主要分布在人口比较密集的东区和西区,部分沿着金沙江、雅砻江、巴关河、安宁河和攀枝花市主要道路两边而发育。此研究结果和攀枝花市人民政府在网上公布的部分结论和王喜娜等[20]的研究结果一致。
3.3 滑坡地理分布与环境特征变量的关系
表2为滑坡的各影响因子的百分贡献率和置换重要性,其中百分贡献率是maxEnt模型在训练过程中给出的各影响因子对滑坡地理分布的贡献程度;置换重要性是将训练样点的影响因子随机替换后进行模拟得到的maxEnt模型模拟结果的AUC值减少程度,减少值越大表明模型高度依赖于该变量。由表2可知,NDVI的贡献百分比和置换重要性都占绝对优势。
表2 不同环境影响因子的贡献百分比和置换重要性 %
为进一步分析滑坡地理分布的各个环境特征变量影响的阈值,根据maxEnt模型模拟结果得到的攀枝花市滑坡存在概率与各影响因子的关系(图5),可以得到不同的滑坡易发性等级对应的各影响因子的阈值(表3)。从图5,表3可知,攀枝花市滑坡易发性在高程约1 700 m以下随着高程增加滑坡发生概率增大,而在高程1 700 m以上则表现为随着高程增加滑坡发生概率减小的变化趋势。随着坡度增大滑坡越易发生,坡度大于12.5°表现为滑坡高易发生和极高易发生区。坡向和人口密度两个因子均表现为随着环境变量的增大,滑坡存在概率先增加后减少的变化趋势;其中人口密度在110人/m2及其以上,滑坡灾害等级为高易发生,主要原因为人口密度越大,周边环境越受人类活动的影响。阳坡比阴坡更易发生滑坡,其可能原因为阳坡接受的阳光和降水相对较为充沛,岩体更易风化,形成的松散堆积物比阴坡多。滑坡易发性随着NDVI值的增大而减小,NDVI小于0.5表现为滑坡高易发生区;NDVI主要反映植被覆盖状态,其值越大表明植被覆盖度越好,表明植被覆盖度越好,滑坡越不易发生。不同的土地利用类型对滑坡存在概率的影响表现不同,旱地、疏林地、其他林地、其他建设用地的易发性等级为高易发区,其余为中易发区域。
注:纵坐标存在概率取值范围为0~1,地类代码同表3。
表3 攀枝花市滑坡地理分布不同易发等级的影响因子阈值
4 讨论与结论
4.1 讨 论
maxEnt模型本质上是生物气候包络模型(Bioclimatic Envelope Models,BEMs)的一种,BEMs利用具有地理参考的环境变量和物种分布信息之间的相关性推断物种的生态需求,模拟物种的地理分布,目前已被广泛应用于解决保护生物学、生物地理学、生态学和分类学中的问题。本研究尝试通过maxEnt模型建立环境影响因子与滑坡易发性的关系模型,模拟攀枝花市滑坡地理分布对影响因子的响应,同样取得了较好的模拟效果,这种研究扩展了BEMs的应用范围。
maxEnt模型的一个优势是可以对环境变量的重要性进行评价。NDVI和坡度贡献率最高,表明植被覆盖和坡度是决定攀枝花市滑坡易发性分布格局最重要的因素。坡向和高程的贡献率最低,表明攀枝花市滑坡对坡向和高程的波动并不敏感。当然,滑坡的发生还受地震、降雨等因素的影响。在大量前期已有的文献使用maxEnt模型时,均采用默认参数[23],在默认参数里随机种子不参与模型的构建,这样会导致在不同的随机测试比例,运行10次的情况下,每次运行后结果都会一致,故在构建maxEent模型时应尽量避免选择所有均为默认参数。最后,因数据获取原因,只能解译并实地验证现状37个滑坡点,虽已满足maxEnt模型样本量的最低需求,但在未来的研究可进一步获取更多的样本点以更精确地模拟滑坡易发点。
在研究中发现攀枝花市的滑坡沿河谷集中分布;市内的金沙江、安宁河河谷两岸滑坡集中分布,形成滑坡分布密集带。除地层构造原因之外还发育着第四纪形成的冲、洪积层组成的各级阶地,松散的冲、洪积层力学强度低,稳定性差,易形成滑坡。另外,滑坡与人类工程活动关系密切,易形成滑坡分布密集带。其余零星散落的滑坡主要是因一些自然原因,如攀枝花市为特殊的干热河谷及旱、雨分明的气候环境,且雨季大多暴雨;老滑坡蠕动的影响;岩体中的破碎带或组合结构面等原因。
4.2 结 论
(1) maxEnt模型在研究区滑坡易发性方面适用性等级为优秀(AUC=0.96),Kappa系数为0.86,以37个滑坡点为样本数据,随机选取75%(28个)用于训练模型,其余25%(9个)用于验证模型,得到的AUC值最稳定且精度最高,模型预测可信度最高。
(2) 高易发生和极易发生区分别占研究区总面积的2.57%,0.80%,主要分布在人口比较密集的东部和西部地区,部分沿着金沙江、雅砻江、巴关河、安宁河和攀枝花市主要道路两侧而发育。
(3) 滑坡易发性的影响因素中,植被覆盖和坡度是决定研究区滑坡易发性空间分布格局最重要的地理环境因子;NDVI小于0.5,坡度大于12.5°的地区表现为滑坡高易发生区和极高易发生区。