加权确定性系数模型的滑坡易发性评价
2020-06-16乔德京王念秦郭有金杨盼盼
乔德京 王念秦 郭有金 杨盼盼
摘 要:針对传统的滑坡灾害易发性评价中仅考虑评价因子间的一级指标权重或者因子各分级状态的二级指标权重,未能考虑各评价因子各分级状态的综合权重,从而导致评价结果缺乏一定适应性问题。文中提出了将随机森林模型(Random Forest,RF)和确定性系数模型(Certainty Factor,CF)相耦合的加权确定性系数评价模型(Weighted Certainty Factor,WCF)。该模型通过CF模型计算二级指标因子权重,并利用RF模型计算出一级指标因子权重,然后通过将所有指标因子的易发性指数进行加权求和,获得多种因素耦合下的滑坡灾害易发性程度。以陕西省西安市周至县为研究区,在对研究区的地质环境、人类活动情况、滑坡分布特征及形成条件进行了综合分析的基础上,选取了14类与滑坡发生相关的指示因子,结合GIS的空间分析功能,分别采用CF,RF和WCF模型对研究区内滑坡灾害易发性进行区划,各模型的评价结果采用Kappa系数进行对比验证。研究结果表明:研究区内的滑坡主要受高程、地貌类型、与断层距离因子的影响,各因子所占权重分别为0.27,0.12,0.11;改进后的WCF模型区划结果的准确性相对于RF和CF模型提高了5.2%和9.9%.由此表明,WCF模型更适用于研究区的滑坡易发性评价,评价结果可为研究区的滑坡灾害防治规划提供重要的参考价值。
关键词:滑坡;易发性评价;WCF模型;随机森林;确定性系数
中图分类号:P 642
文献标志码:A
文章编号:1672-9315(2020)02-0259-09
DOI:10.13800/j.cnki.xakjdxxb.2020.0210开放科学(资源服务)标识码(OSID):
Landslide susceptibility assessment based on
weighted certainty factor model
QIAO De-jing,WANG Nian-qin,GUO You-Jin,YANG Pan-pan
(College of Geology and Environment,Xian University of Science and Technology,Xian 710054,China)
Abstract:The susceptibility assessment of landslide hazard is the basis for geological hazard risk assessment.Taking Zhouzhi County of Xian City,Shaanxi Province as an example,based on the analysis of geological environment,landslide distribution characteristics and formation conditions in the area,14 evaluation factors of topography,hydrology,geology and human engineering activities were selected.The random forest(RF)model and the deterministic coefficient(CF)model were used to evaluate the susceptibility of landslides in the area.According this paper combines the weight of the first-level index factor of the random forest model and the weight of the second-level index factor of the deterministic coefficient model and proposes a landslide susceptibility evaluation model based on the weighted deterministic coefficient(WCF),which was use to evaluate the susceptibility of landslides in the study area.The evaluation results of each model were compared and verified by the Kappa coefficient.The results show that the landslides in the study area are mainly affected by elevation,landform type,and fault distance factor,and the weights of each factor are 0.27,0.12,and 0.11,
respectively.The prediction accuracy of the WCF model is 5.2% and 9.9% higher than that of the RF and that ofCF models,respectively.The model turns out to be better for evaluating the susceptibility of landslides in the region.
Key words:landslide;susceptibility assessment;
WCF model;random forest;certainty factor
0 引 言
滑坡是我国常见的地质灾害形式之一,其具有历时短和破坏程度大等特点,对人民生命财产安全和生态环境造成巨大破坏,严重制约着国民经济的发展[1]。因此,对滑坡灾害进行有效的预测和预防具有重要的意义[2]。滑坡灾害易发性评价是根据滑坡灾害发育特征,
并参考其发育现状,应用定性分析结合定量评价的方法对灾害易发性予以确定[3-5]。评价结果能够直观地反映滑坡灾害的空间分布,并且为预防潜在的滑坡灾害提供参考。
目前滑坡的易发性评价过程如下:首先在对区内的地质环境条件、滑坡分布特征、形成条件、影响因素以及滑坡编录库内的滑坡自身特征分析的基础上,选取评价因子指标;然后通过分析各评价因子与滑坡的空间分布关系,进而确定各因子的权重;最后构建评价模型对整个研究区滑坡易发性做出评价,并对评價结果进行检验[6]。如许冲等人针对汶川地震滑坡选取8个影响因子,采用确定性系数模型(Certainty Factor,CF)对其易发性做出评价,结果表明极高与高易发区与实际滑坡之间有着良好的一致性[7]。吴孝情等利用随机森林模型(Random Forest,RF)对东江流域滑坡危险性做出评价,在评价过程中,针对因子提出一种客观赋权方法,为不同类型的评价因子赋权提供新思路[8]。王佳佳等采用信息量模型计算出评价因子各分级状态的信息量值进而对三峡库区万州区滑坡易发性进行研究,得出较好的预测结果[9]。
综上所述,在易发性评价过程中,大多数研究在确定评价因子权重时,仅考虑评价因子的一级指标权重或者各评价因子分级状态的二级指标权重,而忽视了评价因子在各分级状态的综合权重,使得评价结果缺乏一定的适应性。文中提出了基于RF模型与CF模型相耦合的加权确定系数模型(Weighted Certainty Factor,WCF),以陕西省西安市周至县为例,在GIS的支持下,分别利用RF模型、CF模型和改进的WCF模型对研究区进行滑坡灾害易发性区划,并采用Kappa系数对各模型的评价结果进行精度验证。
1 研究方法
1.1 确定性系数模型
确定性系数模型(CF)是一种概率函数,它是一种用来分析影响某一事件发生的各因素分级状态权重的方法[10]。最早在1975年由Shortliffe提出,Heckerman对其进行改进推广,被广泛应用于在权重计算中[11]。该模型结合GIS技术广泛应用滑坡易发性评价区划中,其计算公式为
式中 PPa为某一事件(滑坡灾害)在影响因素分级状态a中发生的条件概率,在实际应用中常表示为在分级状态a中的滑坡点数与分类面积的比值;PPs为历史滑坡在整个研究区中发生的概率,即总滑坡灾害点占研究区面积的百分比。
由公式(1)可知,CF的取值范围为[-1,1],当CF>0时,表示某事件发生的确定性大;CF<0时,表示事件发生的确定性小;当CF=1时,表示事件一定发生;CF=-1时,表示事件一定不发生;CF=0时,表示无法判断事件是否发生。
确定系数模型的优势在于其可以避免专家打分等方法引起的人为因素的影响,能够较好地反映各评价因子内部不同特征变量对滑坡灾害易发性的贡献,然而其忽略了各评价因子对滑坡灾害易发性的影响存在一定的差异。
1.2 随机森林模型
随机森林模型(Random Forest,简称RF)属于集成学习领域中用于对样本进行分类预测的一种方法。它属于一种特殊的自助抽样集成(Bagging)方法,并以决策树作为Bagging中的模型[12]。该模型首先采用自助法(Bootstrap)对大小为N的原始样本进行有放回的随机抽样,得到m个大小为N的新的训练集,然后对每个训练集,构造一棵决策树分类器,在决策树节点处进行特征分裂时,采用随机抽样的方式从全部特征中抽取一部分,从抽取的特征中寻找最优解应用于节点,进行分裂。最后给定任一样本点,可以得到m个决策树分类结果,采用投票方式确定样本最终的分类结果,具体实现过程如图1所示。
该模型在不仅处理大数据、高维度、缺省值问题方面具有明显优势,而且在地质灾害易发性评价过程中,可以评估出各个评价因子的贡献率,避免了人为主观赋权的影响。除此之外,该模型比层次分析法更简单、准确,且模型的稳定性和预测精度较高。
1.3 加权确定系数模型
据上述分析,可以发现传统的CF模型可以准确、客观地获取评价因子内部不同分级对滑坡灾害易发性的影响程度,但是其不能很好确定各因子之间的相对权重。RF模型能够根据确定不同评价因子之间对滑坡灾害易发性的相对权重。因此,为了获得更加准确客观的滑坡灾害易发性区划,文中将CF模型与RF模型相耦合,构建了一种加权确定系数模型(WCF模型),其将RF获得的一级指标因子权重与CF模型计算出的二级指标因子权重分别对应相乘,即得到各评价因子的综合权重,该模型融合RF模型和CF模型的优点,其表达为式中 wp为RF模型获得的评价因子p的一级指标权重;xpq为CF模型计算出的评价因子p的二级指标因子权重。
2 研究区概况
研究区位于陕西省西安市西南部的周至县,地理坐标为东经107°39′~108°31′,北纬33°42′~34°14′,总面积2974 km2,南北长约59.8 km,东西宽约67.3 km(图2)。区内地势北低南高,由3个地貌单元组成,分别为渭河平原、黄土台塬、秦岭剥蚀山地。研究区属暖温带半湿润大陆性季风气候,年平均气温13.2 ℃.降雨量在空间分布上存在明显的差异,平原地区年均降雨量为700.6 mm,山区年均降雨量为865.1 mm.地表水主要为河流,区内共有大小河流15条,均属于渭河水系和汉江水系。区内发育有9条大的断裂带。境内共有地质灾害177处,其中滑坡灾害点145处,占总灾害数的81.9%.
3 评价因子的选取与分级
3.1 评价因子选取
滑坡发生的因素分为主控因素和诱发因素[13]。主控因素主要包括地形地貌因子、水文因子以及地质因子等对滑坡的发生起控制作用的因素;诱发因素主要包括降雨量、人类工程活动等诱发和促进滑坡发生的因素。在收集与分析相关资料(地质图、高程数字模型DEM,路网图、气象站点数据、水系图、滑坡编录数据库,区域滑坡调查报告等)的基础上,选取地质类因子:岩土体类型、与断层距离;地形地貌类因子:高程、坡度、坡向、曲率、地形起伏度、地表切割深度、地表粗糙度、地貌类型;水文类因子:降雨量、与水系距离、地形湿度指数;人类工程活动类因子:与道路距离,共14类。
3.1.1 地质类因子
地质类因子属于滑坡灾害的控制因素,坡体失稳发生的概率与地层岩性有密切关系[14]。岩土体类型决定岩土体的物理和水理性质。根据研究區的岩相、岩体结构、强度和岩性等要素,研究区的岩土体类型可分为:块状坚硬岩、层状较坚硬岩、松散软弱岩和破碎半坚硬岩。此外,离断裂带距离也是诱发滑坡灾害的重要因素。距离断裂带越近,岩土体越破碎,坡体的稳定性越差,滑坡灾害越容易发生,反之,滑坡灾害发生的概率相对较低。离断层距离通过对地质图中断层矢量化,然后采用欧氏距离计算得到。图3展示了研究区内的岩土体类型和断层距离的空间分布情况,可以看出,研究区的岩土体类型大部分为块状坚硬岩、层状较坚硬岩和破碎半坚硬岩,分布较集中,松散软弱岩较少,分布相对零散。断层距离的空间分布表明研究区内部存在着多条断层带。
3.1.2 水文类及人类工程活动类因子
滑坡灾害的发生往往与水有密切关系,其中降雨是诱发滑坡灾害的主要因素,本研究采用克里金插值将收集的气象站站点观测数据,得到研究区的年均降水量格网数据。其次,河流将对坡体坡脚浸湿、冲刷和淘蚀,加速了坡体的失稳,引发滑坡灾害。本次评价以200 m为间隔将研究区距河流的距离分为8个缓冲区,分类结果如图4所示。已有研究发现地形在地表水再分配过程中起到重要作用,因此本研究引入了地形湿度指数(Topographic Wetness Index,TWI)[15],该指数以DEM为基础,能够刻画出地形变化对地表径流的影响,其计算可以利用GIS的水文分析工具获得。
对于人类活动因素,文中选取了离公路距离因子进行分析。离公路距离可反映人类活动程度,距公路的距离越近,人类工程活动相对频繁。此外,公路工程不可避免会出现削坡和坡顶加载等工程,这些都将会改变坡体的自然地貌,破坏了坡体原有的结构,使得滑坡灾害发生的概率增加。
3.1.3 地形地貌因子
地形地貌也是滑坡灾害发生的重要因素,文中综合选取了高程、坡度、坡向、曲率、地表粗糙度、地表切割深度、地形起伏度和地貌类型8类因子。其中,坡体的坡度将直接影响着坡体的应力分布情况,控制着坡体的稳定性。而不同坡向的坡体受太阳辐射强度也不同,这将直接影响坡面的蒸发量、植被覆盖和侵蚀程度,进而影响着坡体地下水空隙压力的分布和岩土体物理力学特征。其次,不同高程的水系发育程度、土壤类型、人类活动存在较大的差异,这也将对坡体的稳定具有间接的关系。曲率将影响着坡面物质的搬运和沉积。各地形地貌因子的空间分布如图5所示。
3.2 评价因子分级
为了分析各评价因子分级状态与滑坡点的空间分布关系,以确定各因子分级状态下的权重,需要对诱发滑坡发生的重要因子(地质因子、水文因子、人类工程活动因子、地形地貌因子)进行分级。具体为高程、坡度、坡向、地表切割深度、与断层距离、与道路距离、与水系距离、降雨量等因素采用等间隔法进行重分类;地形起伏度、地形湿度指数、地形粗糙度按照自然间断法进行分级;其他因子依据本身的不同性质进行量化处理,得到分级结果。研究中应用的评价因子分级标准见表1.
4 滑坡灾害易发性评价
4.1 单元划分与数据库建立
依据汤国安[16]采用DEM试验进行回归分析而得到的经验公式
Gs=7.49+0.000 6S-2.0×10-9S2+2.9×10-15×S3(2)
式中 S为地形图比例尺,将整个研究区划分为30 m×30 m大小的栅格单元,共计3 304 444个。在ArcGIS操作平台下,将滑坡点矢量图层与各因子栅格图层进行叠加,采用空间分析里的多值提取至点工具提取滑坡点属性数据,再将各因子图层通过栅格转点工具提取整个研究区属性数据,最后建立评价因子数据库。
4.2 滑坡灾害易发性评价结果
4.2.1 随机森林模型评价结果
将研究区内145个滑坡灾害点与随机选取的相同数量的非灾害点组成总样本点。从总样本点中随机选取102(70%)个灾害点与相同数量非灾害点组成训练集,剩余样本点组成测试集。借助MATLAB软件平台编写随机森林函数代码,将训练数据集按所需格式带入编写函数中对模型进行训练,得到各评价因子的权重排序如图6所示。可以发现高程、地貌类型、与断层距离等评价因子所占权重较大,说明该区域滑坡灾害的发生主要受高程、地貌类型、与断层距离等因素的影响。将测试集带入训练好的模型,得到模型的预测正确率为86.5%.最后将模型用于整个研究区易发性评价中,得到滑坡易发性评价指数LSI,将其按自然间断点法分为极低易发区、低易发区、中易发区、高易发区、极高易发区5个等级,最后生成易发性评价区划图,如图7所示。
4.2.2 确定性系数模型评价结果
通过对各因子分级状态下滑坡点数与各分级面积的统计分析,得到各因子分级状态下的CF值,将得到的CF值进行归一化后即可得评价因子各分级状态权重,那么滑坡易发性评价指数LSI
式中 p分别为坡度、坡向…断层等14类评价因子;q为对应评价因子的分级状态;xpq为评价因子p的第q级状态的权重。
将每个因子图层进行权重相加,得到最终的滑坡易发性评价结果图,按同一划分标准将其分为5个等级:极低易发区、低易发区、中易发区、高易发区、极高易发区,如图8所示。
4.2.3 加权确定性系数模型评价结果
将随机森林模型确定的一级指标因子权重与确定性系数模型确定的二级指标因子权重分别对应相乘,得到加权确定性系数模型。根据公式(2)得到其易发性指数。然后将计算得到的整个研究区的易发性指数按以上同一划分标准,分为5个等级,分别为:极低易发区、低易发区、中易发区、高易发区、极高易发区,如图9所示。
5 评价模型的检验
文中采用Kappa系数评估WCF模型、RF模型和CF模型的滑坡灾害易发性评价结果的准确度。Kappa系数基于混淆矩阵,常作为衡量分类精度和一致性检验的指标[17]。Kappa系数的取值范围为[0,1],系数越大,代表模型的预测精度越高。假设混淆矩阵见表2.
则 k=po-pe1-pe
文中选取剩余样本点组成的测试集,共43个,通过Kappa系数对RF模型、CF模型以及WCF模型进行检验,得到其预测精度分别为:87.3%,82.6%,92.5%.结果表明WCF模型的预测精度比RF模型、CF模型分别提高了5.2%,9.9%.
6 结 论
在分析资料的基础上,选取14类评价因子指标,分别采用随机森林模型、确定性系数模型以及加权确定性系数模型对研究区开展滑坡易发性评价,
并采用Kappa系数对3种模型的预测精度进行对比检验,取得以下结论
1)依据随机森林的评价结果,可以发现研究区内的滑坡主要受高程、地貌类型、与断层距离因子的影响,所占权重分别为0.27,0.12,0.11.
2)采用Kappa系数对3种模型的预测精度进行对比检验,其检验结果为:RF模型、CF模型以及WCF模型的预测精度分别为87.3%,82.6%,92.5%.WCF模型的预测精度比RF模型、CF模型分别提高了5.2%,9.9%.结果表明文中提出的WCF模型对滑坡易发性评价具有更高的预测精度,该模型对研究区内滑坡灾害易发性评价更加科学。
参考文献(References):
[1] Chen W,Yan X,Zhao Z,et al.Spatial prediction of landslide susceptibility using data mining-based kernel logistic regression,naive Bayes and RBF Network models for the Long County area(China)[J].Bulletin of Engineering Geology and the Environment,2019,78(1):247-266.
[2]赵 洲,侯恩科,王建智.汶川震区陕西省宁强县滑坡灾害危险性分析与评价[J].西安科技大学学报,2012,32(5):548-555.
ZHAO Zhou,HOU En-ke,WANG Jian-zhi.Research on landslide hazard in Ningqiang County of Wenchuan earthquake affected area[J].Journal of Xian University of Science and Technology,2012,32(5):548-555.
[3]王念秦,罗东海,姚 勇.滑坡综治方案的模糊决策[J].西安科技大学学报,2009,29(6):731-736.
WANG Nian-qin,LUO Dong-hai,YAO Yong.Fuzzy decision making in synthetic control of landside[J].Journal of Xian University of Science and Technology,2009,29(6):731-736.
[4]赵 洲,魏江波.基于颗粒流方法的滑坡破坏机理与强度分析[J].西安科技大学学报,2018,38(4):611-619.
ZHAO Zhou,WEI Jiang-bo.Landslide failure mechanism and intensity analysis based on PFC2D[J].Journal of Xian University of Science and Technology,2018,38(4):611-619.
[5]
Dai F C,Lee C F,Ngai Y Y.Landslide risk assessment and management:an overview[J].Engineering Geology,2002,64(1):65-87.
[6]吳赛男,田 毅.我国单体滑坡模拟和区域滑坡易发性评价研究进展[J].中国地质灾害与防治学报,2019,30(3):113-119,128.
WU Sai-nan,TIAN Yi.Review on progress of individual landslide simulation and assessment of regional landslide susceptibility in China[J].The Chinese Journal of Geological Hazard and Control,2019,30(3):113-119,128.
[7]许 冲,戴福初,姚 鑫,等.基于GIS与确定性系数分析方法的汶川地震滑坡易发性评价[J].工程地质学报,2010,18(1):15-26.
XU Chong,DAI Fu-chu,YAO Xin,et al.
GIS platform and certainty factor analysis method based Wenchuan earthquake-induced landslide susceptibility evaluation[J].Journal of Engineering Geology,2010,18(1):15-26.
[8]吴孝情,赖成光,陈晓宏,等.基于随机森林权重的滑坡危险性评价:以东江流域为例[J].自然灾害学报,2017,26(5):119-129.
WU Xiao-qing,LAI Cheng-guang,CHEN Xiao-hong,et al.A landslide hazard assessment based on random forest weight:a case study in the Dongjiang river basin[J].Journal of Natural Disasters,2017,26(5):119-129.
[9]王佳佳,殷坤龙,肖莉丽.基于GIS和信息量的滑坡灾害易发性评价——以三峡库区万州区为例[J].岩石力学与工程学报,2014,33(4):797-808.
WANG Jia-jia,YIN Kun-long,XIAO Li-li.Landslide susceptibility assessment based on GIS and weighted information value:a case study of Wanzhou district,three gorges reservoir[J].Chinese Journal of Rock Mechanics and Engineering,2014,33(4):797-808.
[10]贾 娟.粗糙集与支持向量机耦合模型滑坡易发性评价——以筠连县为例[D].成都:成都理工大学,2018.
JIA Juan.Landslide susceptibility assessment using rough sets and support vector machine:a case of Junlian County[D].Chengdu:Chengdu University of Technology,2018.
[11]
Heckmann T,Becht M. Investigating the transferability of statistical disposition models for slope-type debris flows[J].Erdkunde,2009,63(1):19-33.
[12]劉 坚,李树林,陈 涛.基于优化随机森林模型的滑坡易发性评价[J].武汉大学学报(信息科学版),2018,43(7):1085-1091.
LIU Jian,LI Shu-lin,CHEN Tao.Landslide susceptibility assessment based on optimized random forest model[J].Geomatics and Information Science of Wuhan University,2018,43(7):1085-1091.
[13]段 钊,李文可,王启耀.泾河下游台塬区黄土滑坡类型与时空分布规律[J].西安科技大学学报,2015,35(3):369-375.
DUAN Zhao,LI Wen-ke,WANG Qi-yao.Types and spatial-temporal distribution of loess landslides in the south plateau of lower Jing river[J].Journal of Xian University of Science and Technology,2015,35(3):369-375.
[14]张 丽,黄敬军,武健强,等.江苏省地质灾害区划评价[J].中国地质灾害与防治学报,2015,26(2):81-86.
ZHANG Li,HUANG Jing-jun,WU Jian-qiang,et al.Zonation of geological hazards in Jiangsu province[J].The Chinese Journal of Geological Hazard and Control,2015,26(2):81-86.
[15]Western A W,Grayson R B,Bloschl G,et al.Observed spatial organization of soil moisture and its relation to terrain indices[J].Water Resources Research,1999,35(3):797-810.
[16]汤国安,杨勤科,张 勇,等.不同比例尺DEM提取地面坡度的精度研究——以在黄土丘陵沟壑区的试验为例[J].水土保持通报,2001,21(1):53-56.
TANG Guo-an,YANG Qin-ke,ZHANG Yong,et al.Research on accuracy of slope derived from DEMs of different map scales[J].Bulletin of Soil and Water Conservation,2001,21(1):53-56.
[17]管新邦.云南省滑坡地质灾害危险性评价研究[D].北京:中国矿业大学,2018.
GUAN Xin-bang.Study on risk assessment of landslide in Yunnan Province[D].Beijing:China University of Mining and Technology,2018.