基于证据权和卡方自动交互检测决策树的滑坡易发性预测
2022-06-22黄发明石雨欧阳慰平洪安宇曾子强徐富刚
黄发明 石雨 欧阳慰平 洪安宇 曾子强 徐富刚
摘 要:滑坡與其环境因子间的非线性关联计算影响滑坡易发性预测建模的不确定性。为研究不确定性因素下易发性建模规律,以中国延长县为例,获取82处滑坡和14种环境因子,通过频率比(Frequency Ratio,FR)和证据权(Weight of Evidence,WOE)等关联法与卡方自动交互检测(Chi-squared Automatic Interaction Detector,CHAID)决策树相耦合进行建模,并用原始环境因子(称为“原始因子数据”)作为输入变量的单独CHAID决策树进行对比。使用精度、易发性指数均值、标准差和平均秩等评价易发性建模的不确定性。结果表明:WOE-CHAID模型预测的滑坡易发性不确定性低于FR-CHAID模型,可见WOE具有较优秀的非线性关联性能;单独CHAID决策树预测的易发性精度整体略低于WOE-CHAID和FR-CHAID模型,但其建模效率较高;在体现滑坡与其环境因子空间关联性方面,考虑FR和WOE关联法的CHAID决策树模型优势显著。WOE是更优秀的关联分析法,CHAID决策树预测性能好且预测效率高,WOE-CHAID决策树模型的易发性预测不确定性较低且更符合实际滑坡概率分布特征。
关键词:滑坡易发性预测;关联分析;CHAID决策树;证据权;环境因子
中图分类号:P642.22 文献标志码:A 文章编号:2096-6717(2022)05-0016-13
收稿日期:2021-09-02
基金项目:国家自然科学基金(52109089、41807285)
作者简介:黄发明(1988- ),男,博士,副教授,主要从事地质灾害风险预警研究,E-mail:faminghuang@ncu.edu.cn。
洪安宇(通信作者),女,博士,E-mail:honganyu@ncu.edu.cn。
Received:2021-09-02
Foundation items:National Natural Science Foundation of China (No. 52109089, 41807285)
Author brief:Huang Faming (1988- ), PhD, associate professor, main research interest: geological disaster risk warning, E-mail: faminghuang@ncu.edu.cn.
HONG Anyu (corresponding author), PhD, E-mail: honganyu@ncu.edu.cn.
Landslide susceptibility prediction modeling based on weight of evidence and chi-square automatic interactive detection decision tree
HUANG Faming, SHI Yu, OUYANG Weiping, HONG Anyu, ZENG Ziqiang, XU Fugang
(School of Civil Engineering and Architecture, Nanchang University, Nanchang 330031, P. R. China)
Abstract:
The calculation of the non-linear correlation between the landslide inventories and their environmental factors is an important factor that affects the uncertainty of the landslide susceptibility prediction (LSP) modeling. In order to study the changing patterns of LSP under the influence of the uncertain factors, taking Yanchang County of China as example, 82 landslides and 14 environmental factors are obtained, and the frequency ratio (FR) and weight of evidence (WOE) connection methods are coupled with the chi-squared automatic interaction detector (CHAID) decision tree model to carry out LSP. Then the original environmental factors data (hereinafter referred to as "original data") is used as the input variable to compare the individual CHAID decision tree model to realize the analysis of LSP modeling pattern. ROC accuracy, mean, standard deviation, and average rank are adopted to analyze the uncertainty characteristics in the LSP modeling process. Results show that: 1) LSP uncertainty of the WOE-CHAID model is lower than that of the FR-CHAID model, and WOE has relatively excellent nonlinear correlation performance. 2) The prediction accuracy of individual CHAID decision tree model is slightly lower than that of the WOE-CHAID and FR-CHAID models, but it has higher modeling efficiency. 3) In terms of reflecting the spatial correlation between landslides and its environmental factors, the CHAID decision tree model coupled with FR and WOE connection methods have significant advantages. Generally, WOE is a better connection method and CHAID decision tree model has good prediction performance and high prediction efficiency. Susceptibility prediction by the WOE-CHAID decision tree model is less uncertain and more in line with the actual landslide probability distribution characteristics.
Keywords:landslide susceptibility prediction; connection method; CHAID decision tree; weight of evidence; environmental factor
如何有效开展滑坡易发性预测制图是现阶段全世界范围内区域滑坡研究的重点和难点。通过将GIS与数据驱动模型相结合,以图像和数字的方式可构建出更高效准确的易发性预测模型。该易发性制图的思路对滑坡高发地区的防灾减灾规划具有重要意义。
滑坡易发性可定义为特定地点在环境因子非线性耦合作用下发生滑坡的空间概率。基于地理相似性规律,即“地理环境越相似,地理特征越相近”可知,通过已经发生滑坡的环境因子来建立预测模型,则潜在滑坡的空间位置有可能被预测。很明显,从滑坡样本点中确定滑坡易发性与其环境因子的关系式是易发性预测的关键所在,因此,选择用以获取输入变量的滑坡环境因子关联分析法非常重要。随着遥感和GIS等基础数据源获取技术的进步,易发性建模的空间数据源及其质量有了较大提升。一般而言,具体研究区内的滑坡环境因子类型可通过相关文献综述和研究区的自然地理和地质条件确定。笔者重点关注滑坡易发性建模过程中滑坡与其环境因子的非线性关联分析这一不确定性因素,并进一步研究其对滑坡易发性建模的影响。
启发式模型、数理统计模型和机器学习模型是易发性预测过程中常用的3种类型。启发式模型和数理统计模型被大量使用,主要有确定性因子(Certainty Factors,CF)、层次分析法和多元线性回归等;机器学习相关模型包括逻辑回归(Logistic Regression,LR)、C5.0决策树、人工神经网络、随机森林(Random Forest,RF)、支持向量机(Support Vector Machines,SVM)、卡方自动交互检测(Chi-squared Automatic Interaction Detector,CHAID)决策树和贝叶斯网络等。对于哪种类型的模型最适合易发性预测,现阶段还没有一致的意见,但优秀的机器学习模型能够提高滑坡易发性预测精度,对滑坡易发性区间划分有着显著影响,并可能进一步改变滑坡易发性级别的划分。笔者拟用CHAID决策树这一被广泛应用的典型机器学习方法构建滑坡易发性模型并探索建模不确定性特征。
在将建模预测出的滑坡易发性指数(Landslide Susceptibility Index,LSIs)与各类环境因子开展联系时,需开展滑坡与其基础环境因子(不考虑诱发因子)之间的非线性关联分析,其关联值可直接作为易发性模型的输入变量。目前,常用的关联分析法包括确定系数、频率比(Frequency Ratio,FR)、熵指数(Index of Entropy,IOE)和证据权重(Weight of Evidence,WOE)等。不同关联分析法的内部计算思路具有较大的差异性,导致各方法下的易发性建模存在不确定性。关联分析法太粗糙会导致部分信息丢失,降低模型预测精度;优秀的关联分析法能获取较准确的环境因子影响滑坡发育的信息,进一步提高滑坡环境因子分析及其建模的可靠性。可见,探讨不同关联分析法对易发性预测建模的影响规律具有重要意义。
学者们采用不同关联分析法和模型开展易发性预测建模,例如:Zhang等应用IOE模型、LR-IOE和SVM-IOE模型获得了中国陕西省府谷县滑坡易发性图,结果表明,LR-IOE模型的准确率最高,其次是IOE模型和SVM-IOE模型。李文彬等深入探讨滑坡与其环境因子间的非线性联接以及不同数据驱动模型对滑坡易发性预测建模不确定性的影响规律,结果表明,RF模型预测性能最优,WOE-RF模型預测的滑坡易发性不确定性较低。张钟远等基于地理信息系统平台构建了云南省镇康县滑坡易发性预测指标体系,结果显示,频率比耦合LR模型具有更高的成功率和预测率。但大多数情况下,现有研究使用特定的关联分析法开展易发性预测建模,而较少提供可信的依据和合理的解释,并且较少深入探讨这种不确定性因素对易发性预测建模的影响。通过探讨关联分析法耦合模型下的滑坡易发性结果的不确定性,更能深入理解易发性预测的可靠性和可行性,可降低关联分析法不确定性因素带来的影响。
笔者采用FR和WOE两种非线性关联分析法的计算数据值与原始环境因子数据(以下简称“原始因子数据”)作为CHAID决策树模型的输入变量,以陕西省延长县为例,开展滑坡易发性预测建模的不确定性分析,包括精度评价、LSIs分布规律和平均秩等。
1 滑坡易发性建模分析
FR和WOE两种关联法耦合CHAID决策树模型时的易发性预测建模流程(图1)如下:
1)获取研究区滑坡编录及相关环境因子数据源以便构建易发性建模的空间数据集;
2)将FR、WOE和原始因子数据作为CHAID决策树的输入变量,形成3种耦合模型;
3)分别对3种耦合模型开展易发性预测建模,然后在GIS中绘制滑坡易发性图并划分易发性等级;
4)通过ROC精度、均值、标准差和平均秩等对易发性预测结果进行不确定分析;
5)通过对比分析找到最佳关联分析法,为易发性建模提供指导。
1.1 滑坡与环境因子的关联分析法
1.1.1 频率比
频率比(Frequency Ratio,FR)反映了滑坡在各环境因子类别的分布状况,阐述环境因子各属性区间对滑坡的相对影响度,并且能够很好地解释滑坡与各因子之间的内在联系。FR>1代表在对应的环境因子条件下利于滑坡事件的发生;FR<1表明该环境因子区间的属性与滑坡的发展关系较弱。利用环境因子的FR值作为各模型的输入變量之一,其计算公式如式(1)。
FR=N/NS/S(1)
式中:N为环境因子某区间中出现的滑坡栅格数;N是全区已知滑坡所分布栅格的总数;S是环境因子的单元数;S是全区栅格总数。
1.1.2 证据权
证据权(Weight of Evidence,WOE)法在贝叶斯准则基础上综合各类证据层来实现定量计算某事件的发生概率。WOE法通过将滑坡编录和各类环境因子层进行空间关联,从而得到滑坡处各环境因子的详细分布特征权重因子W+和W-,其在每个环境因子分级中的计算如式(2)、式(3)所示。
W+=lnB/(B+B)D/(D+D)(2)
W-=lnB/(B+B)D/(D+D)(3)
式中:W+和W-分别为环境因子存在区和不存在区的权重值,对于原始因子数据缺失的区域其权重值为0;B和D分别为环境因子存在区的滑坡和非滑坡单元数,B和D分别是环境因子不存在区的滑坡和非滑坡单元数。证据层和滑坡点正相关时,W+>0和W-<0,负相关时,W+<0和W->0,在不相关或数据缺失时,权重为0。进一步利用相对系数C=W+-W-实现证据层和滑坡间相关性的衡量。
1.2 卡方自动交互检测决策树
CHAID决策树以卡方统计量为基础实现最优决策树构建,也就是通过自变量和因变量间的解释性来实现因变量的自动判别。CHAID决策树具有强大的非线性拟合预测性能,能容忍样本数据缺失及样本量不足等缺陷。CHAID模型设定树生长的层数、分裂及聚合阈值等停止标准来构建准确高效的预测或分类模型,同时,为防止过拟合现象而用随机分成的训练样本构建模型;最后再利用随机分成的测试样本对CHAID进行逐步检验,以修正模型参数。
1.3 不确定性分析方法
1.3.1 ROC 曲线精度分析
采用受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(Area Under ROC,AUC)值作为一种量化指标来整体评估建模性能。ROC曲线对测试集中各样例进行排序并依序选择各截断点,再逐个把样例作为正例来进行计算,依据当前分类器的“真阳率”和“假阳率”进行ROC曲线的绘制,相关评价指标如表1所示。AUC值等于随机挑选的正样本的排名高于随机挑选的负样本的概率,AUC值越大,则易发性模型预测性能越好。
1.3.2 易发性指数统计规律分析
均值(Mean)是集中趋势的测量,计算如式(4)所示(式中:X为第n个栅格单元的滑坡易发性指数值),其量化了研究区LSIs分布的整体偏向趋势,反映了LSIs分布的平均水平。标准差(Standard Deviation)是对围绕平均值的离差的测量,计算如式(5)所示(式中:μ为滑坡易发性指数均值;X为第i个栅格单元的滑坡易发性指数值),量化了LSIs分布的离散程度,标准差越小,说明LSIs越接近平均值,反之,则说明其与平均值的差异越大。采用均值和标准差从整体上分析LSIs的分布特征,揭示不同关联分析法和模型耦合模型下的预测性能,为滑坡易发性研究提供理论指导。
Mean=X+X+…+Xn(4)
Standard Deviation=1N∑Ni=1X-μ(5)
1.3.3 易发性指数的差异显著性
采用显著性差异水平进一步分析各耦合模型下易发性建模的不确定性。具体采用Kendall协同系数检验法,对任意两组不同耦合模型下预测出的LSIs进行差异显著性检验。若Kendall秩相关系数W小于1及检验结果的显著性小于0.05,说明这两组耦合模型下LSIs的差异是显著的,拒绝原假设。本文通过成对因子显著性检验发现,W值为0.139,小于1,且P值均小于0.05,可见,各耦合模型下的LSIs间差异显著。
2 延长县简介及环境因子分析
2.1 延长县简介及滑坡编录
延长县位于陕西东部,面积约2 368.7 km,地势从西北向东南方向倾斜。县境内属黄土高原丘陵沟壑区(河谷阶地、黄土沟谷区、黄土沟间区和岩质丘陵区),出露三叠系中上统内陆湖相碎屑沉积岩和第四系风积、冲洪积和堆积黄土等地层,新近系砂砾岩在研究区出露较少(图2)。另外,县境内地质构造活动强度低,属于暖温带干旱大陆性季风气候,年均降雨量约564 mm且集中在7、8、9月份。
根据已有的滑坡野外调查资料和数据库可知,延长县共发生滑坡82处,主要类型为小型浅层覆盖滑坡,主要运动方式为牵引式(59%)和推移式滑动(41%);县境内的小型滑坡45处(占比54.8%),中型滑坡36处(占比43.9%),大型滑坡只有1处。延长县滑坡分布位置如图2所示,滑坡主要分布在县域西部及周边地区,东部和中部较少;大部分发生滑坡的位置地势较高,距离河流水系也较近。延长县滑坡的发生与地层岩性和工程活动密切相关。
2.2 环境因子分析
2.2.1 环境因子介绍
根据延长境内滑坡的特征及相关参考文献的介绍,利用遥感影像和GIS软件系统从数据源中提取14类滑坡环境因子,包括地形、水文、地表覆被和基础地质等。其中,高程、NDVI、NDBI和MNDWI等12个因子为连续型数据,而距河流距离和地层岩性2个因子为离散型数据(表2)。对于连续型环境因子,先通过小间隔对该因子进行等分,再依据FR和WOE值將数值相近的区间合并成一个类别。对于离散型数据类型的环境因子,采用固有的自然分组来进行分级:距河流距离因子按照距河流距离100、300、400、500、800、900、1 000 m和大于1 000 m进行分类;地层岩性因子为三叠系砂岩夹砂质泥岩和油页岩(Tt)、三叠系厚层砂岩夹泥岩(Th)、三叠系细砂层粉砂岩夹与泥岩互层(Ty)、三叠系厚层状长石石英砂岩(Tw)和第四系更新统风积和洪积黄土(Q)。另外,在使用原始因子数据作为CHAID决策树模型的输入变量时,将距河流的距离和地层岩性两种离散型数据类型的环境因子进行了“哑变量”处理。
2.2.2 地形地貌因子
高程、坡度、坡向、剖面曲率、平面曲率、地形起伏度、地形粗糙度、地形切割深度和地形湿度指数等环境因子均从DEM中提取(图3) 。以地形起伏度为例,分析其8个等级区间内的FR和WOE值(表2),发现滑坡发生概率与研究区的地形起伏度大小成正比。在20~4区间内发生滑坡的概率最大,为78.34%;其中,FR值均大于1,WOE值均为正值,35~40区域内FR和WOE值最大,分别为2.843和1.148。FR和WOE值都显示出地形起伏度大小与滑坡发生有着较强的正向相关性,可见关联分析法在表达滑坡与地形起伏度的非线性关联性时具有较为一致的趋势和计算效果。
2.2.3 水文环境因子
由于河流对边坡的浸润和侵蚀作用,越靠近河流的边坡土壤含水量可能越高,导致斜坡体失稳的可能性更高。利用距河流距离和MNDWI来表征水文环境对滑坡发育的影响。以距河流的距离因子为例(表2),当距河流距离小于400 m时,滑坡发育的可能性更高(达74.41%),其中,FR值均大于1,WOE值均为正值;在100~300 m区域内,FR和WOE值最大,分别为1.873和0.992。
2.2.4 地表覆被因子
NDBI和NDVI分别反映了研究区域内的建筑分布和自然植被对滑坡地质灾害发育的影响。从表2可知,当NDVI在0.121~0.424范围内时,其与滑坡有较强的关系,该区间包括了研究区内近年来所有的已发生的滑坡;其中,在0.121~0.182范围内,FR值大于1且WOE值为正数。NDBI能较好地反映研究区域内建筑的分布情况,当NBVI在0.730~0.949范围内时几乎囊括了近年来研究区内所有的滑坡,间接反映了人类工程建设对滑坡发育的影响。
2.2.5 基础地质因子
岩土类型表征滑坡体的物质基础,分析表2可知,Th和Ty岩性区域面积仅占延长县面积的10.6%,而区域内滑坡发生的概率高达23.2%,且FR值均大于1、WOE值均为正值,说明Th和Ty岩性区域内滑坡发生的频率较高;在Q岩性条件下,滑坡发生概率高达76.8%;在Tt岩性区域内,无滑坡分布;Tw岩性区域在研究区内占比比较小,结果不具有研究意义。
3 延长县滑坡易发性预测建模
3.1 数据准备
30 m分辨率的栅格被广泛用作滑坡易发性的制图单元,基于30 m分辨率,整个延长县被划分为2 622 482个栅格,已发生的82处滑坡被划分为3 403个滑坡栅格。通过FR和WOE两种关联法对14个环境因子各属性区间进行重新赋值,作为CHAID决策树开展易发性建模的输入变量;同时,也以原始因子数据作为输入变量开展单独CHAID决策树的滑坡易发性建模。通过SPSS modeler 18.0软件把3 403个滑坡栅格单元赋值为1,同时随机挑选与滑坡单元相同数量的非滑坡单元,并将其易发性赋值为0,作为模型输出变量;然后按7∶3随机划分滑坡和非滑坡栅格单元(6 806个)及其相关属性值,得到模型训练集和测试集。最后将整个研究区栅格单元的FR和WOE关联分析值以及原始因子数据代入训练好的模型中,预测延长县LSIs,并将其按照自然间断点法划分为5个易发性级别。
3.2 延长滑坡易发性预测结果
在SPSS modeler软件中进行CHAID决策树建模。以WOE样本数据为例,首先需从外部源中读取源节点,将6 806个滑坡非滑坡样本数据导入SPSS modeler软件中;接着对字段属性、测量级别及各字段在建模中的角色进行选择或修改;再经由分区选择将样本数据分为训练集(70%)和测试集(30%);然后在CHAID建模节点字段选项卡中使用预定义角色,应用boosting算法创建一个整体,由其生成模型序列以增强模型预测的准确度;选择CHAID树生长算法并定制树的最大深度值为5、父节点的最小記录数为75、子节点的最小记录数为15,以此来限制决策树的增长;CHAID决策树的其他参数使用SPSS modeler中的默认值;最后将整体环境因子的WOE带入训练好的CHAID决策树模型中,实现延长县滑坡LSIs的准确预测。FR-CHAID和单独CHAID决策树模型的建模步骤和参数设置与WOE-CHAID决策树模型基本一致。
3.3 滑坡易发性制图表达
分两步开展滑坡易发性制图,首先将3种耦合模型预测出的LSIs导入GIS软件中,然后依据自然间断点法将延长县滑坡易发性划分为极高、高、中等、低和极低5类等级区间。WOE-CHAID、FR-CHAID和单独CHAID决策树模型下的滑坡易发性结果如图4所示。延长县大部分地区属于低和极低易发区,滑坡高和极高易发区主要位于坡度和高程中等且距离河流较近的山地丘陵地区。但3种耦合模型下得到的滑坡易发性级别存在显著差异,图4中延长县内已发生的82处滑坡几乎都落在WOE-CHAID和FR-CHAID决策树模型预测的极高与高易发性等级区域内,而单独CHAID决策树模型预测的极高与高易发性等级区域与82处滑坡位置存在些许偏差。
4 滑坡易发性预测不确定性分析
4.1 ROC精度评价
采用测试集AUC值作为具体指标量化不同耦合模型的预测性能,AUC值越大,表明耦合模型预测性能越优。WOE-CHAID、FR-CHAID和单独CHAID决策树模型的滑坡易发性结果ROC曲线如图5所示。从图5中可知,3种耦合模型下的结果均较好且相对稳定,表现出良好的滑坡易发性性能。AUC精度从大到小依次为:AUC(WOE-CHAID)>AUC(FR-CHAID)>AUC(单独的CHAID),说明FR和WOE两种关联分析法在CHAID决策树模型中具有比原始因子数据更稳定的易发性预测性能。WOE耦合CHAID决策树模型的易发性预测效果最好且预测效率最高,AUC精度较FR提高了2.1%,较原始因子数据提高了3.1%。
4.2 滑坡易发性指数分布规律
采用均值和标准差分别反映LSIs分布的平均水平和离散程度,并以此分析耦合模型下的易发性预测不确定性。WOE-CHAID、FR-CHAID和单独CHAID决策树模型预测的LSIs分布不确定性规律较为一致,在极低和低易发区分布较集中而在高和极高易发区分布逐渐减少。LSIs平均值从小到大排名为:单独的CHAID (0.364)<FR-CHAID(0.385)<WOE-CHAID(0.399);标准差从小到大排名为:FR-CHAID(0.178)<WOE-CHAID(0.219)<单独的CHAID(0.228)(图6)。其中,WOE-CHAID决策树模型预测的LSIs平均值较小,标准差较大,表明其对研究区内的滑坡均有较好
的识别能力,另外,对滑坡易发性的区分度也较好,能很好地反映出不同栅格单元内LSIs的差异,用较少的高LSIs反映尽可能多的滑坡编录信息。结合AUC精度发现,WOE-CHAID决策树模型预测效果略好于FR-CHAID决策树模型,单独的CHAID决策树模型预测效果最差。
4.3 耦合模型预测易发性指数的差异性分析
采用显著性差异水平来进一步分析各耦合模型下易发性建模的不确定性,通过该试验计算各耦合模型下预测的LSIs的平均秩,以便对易发性模型性能排序。平均秩越小则模型性能越好,最终模型比较结果为:WOE-CHAID决策树模型预测LSIs的平均秩(值为1.85)最小,其次是FR-CHAID(值为2.06) 和单独的CHAID决策树(值为2.09)模型。显著性差异水平和平均秩显示出各耦合模型的易发性建模存在不确定性,如何规避这些不确定性是获得可靠的易发性模型的重要研究内容。
4.4 滑坡环境因子重要性分析
滑坡环境因子的重要性反映了已发生的滑坡事件受该环境因子影响程度的大小。由于原始因子数据和不同的关联分析值在易发性预测建模中有着不同的表现,基于CHAID决策树模型中自带的分类器属性来评估在原始因子数据、FR和WOE等输入变量下各个环境因子的重要性。另外,易发性建模中共使用14个环境因子(原始因子数据含“哑变量”类型,共23个环境因子),排名10名之后的环境因子重要性均小于0.04,因此仅展示重要性排名前10的环境因子。从图7可知,坡度、地形起伏度、距河流的距离(原始因子数据中为100~300 m和500~800 m的两个“哑变量”因子)、地形切割深度和地形粗糙度等5个环境因子在单独CHAID、FR-CHAID和WOE-CHAID决策树易发性预测中有着较大的贡献,占据重要性排名均在前5位,重要性均大于0.08。其次,平面曲率和地形湿度指数在所有决策树模型中也发挥着相对重要的作用,重要性均大于0.04。
4.5 各关联分析法的性能分析
关联分析法通过定量统计可直观表现各环境因
子不同属性区间对滑坡易发性空间的影响性。Li等、Saha等对上述部分关联分析法反映滑坡与其环境因子空间关联的性能进行了对比分析,所得结果与笔者研究基本一致。由上述分析可知,环境因子与滑坡间的空间信息的关联性表达越充分,则LSIs的区分度越大,进一步的易发性预测效果就越佳。在FR和WOE关联分析法的环境因子分级中,WOE更能反映环境因子内部影响滑坡发育的空间信息的差异,具有更优的预测精度(AUC=86.3%);FR相较于WOE法更加简洁高效,在保证易发性精度的同时能有效避免太复杂的统计分析;基于原始因子数据进行的单独CHAID决策树模型易发性预测精度略小于FR-CHAID和WOE-CHAID决策树模型。此外,单独的CHAID、FR-CHAID和WOE-CHAID决策树模型预测的LSIs平均值逐渐减小而标准差逐渐增大,且平均秩也逐渐减小。可见关联分析法的易发性预测建模效果较好,WOE优于FR,而原始因子数据的易发性建模效果较差。
由文献[27,42]可知,滑坡与环境因子(不考虑诱发因子)之间的非线性关联分析法种类繁多。笔者仅使用FR和WOE两种关联分析法耦合CHAID决策树模型进行滑坡易发性的不确定性对比分析而并未考虑其他关联分析法,在下一步研究中可以考虑使用概率法、信息量、确定性系数和熵指数等其他关联分析法,耦合多种不同类型的模型开展更加全面的易发性预测不确定性分析。
5 结论
1)WOE-CHAID决策树模型易发性预测的AUC精度最高,且均值和平均秩较小,标准差较大;FR-CHAID決策树的AUC精度略低于WOE-CHAID,可见WOE具有更优秀的非线性关联性能。
2)将原始因子直接用作输入变量的单独CHAID决策树模型的易发性预测精度整体略低于关联分析法的耦合模型。为了提高滑坡易发性建模效率,可直接使用单独CHAID决策树模型,但要体现滑坡与其环境因子的空间关联性或分析环境因子各子区间对滑坡发育的影响规律,则使用关联分析法和CHAID决策树模型耦合建模的优势显著。
3)总体来说,WOE-CHAID决策树模型的易发性预测结果可靠性最高,预测出的LSIs与实际的滑坡概率分布特征更加相符。
参考文献:
[1] 黄发明, 殷坤龙, 蒋水华, 等. 基于聚类分析和支持向量机的滑坡易发性评价[J]. 岩石力学与工程学报, 2018, 37(1): 156-167.
HUANG F M, YIN K L, JIANG S H, et al. Landslide susceptibility assessment based on clustering analysis and support vector machine [J]. Chinese Journal of Rock Mechanics and Engineering, 2018, 37(1): 156-167. (in Chinese)
[2] 黄发明, 叶舟, 姚池, 等. 滑坡易发性预测不确定性:环境因子不同属性区间划分和不同数据驱动模型的影响[J]. 地球科学, 2020, 45(12): 4535-4549.
HUANG F M, YE Z, YAO C, et al. Uncertainties of landslide susceptibility prediction: Different attribute interval divisions of environmental factors and different data-based models [J]. Earth Science, 2020, 45(12): 4535-4549. (in Chinese)
[3] 李利峰, 张晓虎, 邓慧琳, 等. 基于熵指数与逻辑回归耦合模型的滑坡灾害易发性评价: 以蓝田县为例[J]. 科学技术与工程, 2020, 20(14): 5536-5543.
LI L F, ZHANG X H, DENG H L, et al. Assessment of landslide susceptibility based on coupling model of index of entropy and logistic regression: A case study of Lantian County [J]. Science Technology and Engineering, 2020, 20(14): 5536-5543. (in Chinese)
[4] HUANG F M, CAO Z S, JIANG S H, et al. Landslide susceptibility prediction based on a semi-supervised multiple-layer perceptron model [J]. Landslides, 2020, 17(12): 2919-2930.
[5] HUANG F M, CAO Z S, GUO J F, et al. Comparisons of heuristic, general statistical and machine learning models for landslide susceptibility prediction and mapping [J]. CATENA, 2020, 191: 104580.
[6] 杨光, 徐佩华, 曹琛, 等. 基于确定性系数组合模型的区域滑坡敏感性评价[J]. 工程地质学报, 2019, 27(5): 1153-1163.
YANG G, XU P H, CAO C, et al. Assessment of regional landslide susceptibility based on combined model of certainty factor method [J]. Journal of Engineering Geology, 2019, 27(5): 1153-1163. (in Chinese)
[7] 许嘉慧, 孙德亮, 王月, 等. 基于GIS与改进层次分析法的奉节县滑坡易发性区划[J]. 重庆师范大学学报(自然科学版), 2020, 37(2): 36-44, 2, 142.
XU J H, SUN D L, WANG Y, et al. Landslide susceptibility mapping of Fengjie County based on GIS and improved analytic hierarchy process [J]. Journal of Chongqing Normal University (Natural Science), 2020, 37(2): 36-44, 2, 142. (in Chinese)
[8] 黄发明, 陈佳武, 唐志鹏, 等. 不同空间分辨率和训练测试集比例下的滑坡易发性预测不确定性[J]. 岩石力学与工程学报, 2021, 40(6): 1155-1169.
HUANG F M, CHEN J W, TANG Z P, et al. Uncertainties of landslide susceptibility prediction due to different spatial resolutions and different proportions of training and testing datasets [J]. Chinese Journal of Rock Mechanics and Engineering, 2021, 40(6): 1155-1169. (in Chinese)
[9] 杨永刚, 殷坤龙, 赵海燕, 等. 基于C5.0决策树-快速聚类模型的万州区库岸段乡镇滑坡易发性区划[J]. 地质科技情报, 2019, 38(6): 189-197.
YANG Y G, YIN K L, ZHAO H Y, et al. Landslide susceptibility evaluation for township units of bank section in Wanzhou district based on C5.0 decision tree and K-means cluster model [J]. Geological Science and Technology Information, 2019, 38(6): 189-197. (in Chinese)
[10] 田乃满, 兰恒星, 伍宇明, 等. 人工神经网络和决策树模型在滑坡易发性分析中的性能对比[J]. 地球信息科学学报, 2020, 22(12): 2304-2316.
TIAN N M, LAN H X, WU Y M, et al. Performance comparison of BP artificial neural network and CART decision tree model in landslide susceptibility prediction [J]. Journal of Geo-Information Science, 2020, 22(12): 2304-2316. (in Chinese)
[11] 乔世范, 王超. 基于遗传模拟退火算法的滑坡位移预测方法 [J]. 土木与环境工程学报(中英文), 2021, 43(1): 25-35.
QIAO S F, WANG C. Landslide displacement prediction based on the Genetic Simulated Annealing algorithm[J]. Journal of Civil and Environmental Engineering, 2021, 43(1): 25-35. (in Chinese)
[12] 吳润泽, 胡旭东, 梅红波, 等. 基于随机森林的滑坡空间易发性评价:以三峡库区湖北段为例[J]. 地球科学, 2021, 46(1): 321-330.
WU R Z, HU X D, MEI H B, et al. Spatial susceptibility assessment of landslides based on random forest: A case study from Hubei section in the Three Gorges reservoir area [J]. Earth Science, 2021, 46(1): 321-330. (in Chinese)
[13] 牛瑞卿, 彭令, 叶润青, 等. 基于粗糙集的支持向量机滑坡易发性评价[J]. 吉林大学学报(地球科学版), 2012, 42(2): 430-439.
NIU R Q, PENG L, YE R Q, et al. Landslide susceptibility assessment based on rough sets and support vector machine [J]. Journal of Jilin University (Earth Science Edition), 2012, 42(2): 430-439. (in Chinese)
[14] ALTHUWAYNEE O F, PRADHAN B, AHMAD N. Landslide susceptibility mapping using decision-tree based Chi-squared automatic interaction detection (CHAID) and Logistic regression (LR) integration [J]. IOP Conference Series: Earth and Environmental Science, 2014, 20: 012032.
[15] CHEN W W, ZHANG S. GIS-based comparative study of Bayes network, Hoeffding tree and logistic model tree for landslide susceptibility modeling [J]. CATENA, 2021, 203: 105344.
[16] DEMIR G. GIS-based landslide susceptibility mapping for a part of the North Anatolian Fault Zone between Reșadiye and Koyulhisar (Turkey) [J]. CATENA, 2019, 183: 104211.
[17] 张玘恺, 凌斯祥, 李晓宁, 等. 九寨沟县滑坡灾害易发性快速评估模型对比研究[J]. 岩石力学与工程学报, 2020, 39(8): 1595-1610.
ZHANG Q K, LING S X, LI X N, et al. Comparison of landslide susceptibility mapping rapid assessment models in Jiuzhaigou County, Sichuan Province, China [J]. Chinese Journal of Rock Mechanics and Engineering, 2020, 39(8): 1595-1610. (in Chinese)
[18] HUANG F M, ZHANG J, ZHOU C B, et al. A deep learning algorithm using a fully connected sparse autoencoder neural network for landslide susceptibility prediction [J]. Landslides, 2020, 17(1): 217-229.
[19] 刘璐瑶, 高惠瑛. 基于证据权与Logistic回归模型耦合的滑坡易发性评价[J/OL]. 工程地质学报. https://doi.org/10.13544/j.cnki.jeg.2020-482.
LIU L Y, GAO H Y. Landslide susceptibility assessment based on coupling of WOE model and Logistic regression model [J/OL]. Journal of Engineering Geology. https://doi.org/10.13544/j.cnki.jeg.2020-482. (in Chinese)
[20] 徐胜华, 刘纪平, 王想红, 等. 熵指数融入支持向量机的滑坡灾害易发性评价方法: 以陕西省为例[J]. 武汉大学学报·信息科学版, 2020, 45(8): 1214-1222.
XU S H, LIU J P, WANG X H, et al. Landslide susceptibility assessment method incorporating index of entropy based on support vector machine: A case study of Shaanxi Province [J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1214-1222. (in Chinese)
[21] 楊华阳, 许向宁, 杨鸿发. 基于证据权法的九寨沟地震滑坡危险性评价[J]. 中国地质灾害与防治学报, 2020, 31(3): 20-29.
YANG H Y, XU X N, YANG H F. The Jiuzhaigou co-seismic landslide hazard assessment based on weight of evidence method [J]. The Chinese Journal of Geological Hazard and Control, 2020, 31(3): 20-29. (in Chinese)
[22] ZHANG T Y, HAN L, CHEN W, et al. Hybrid integration approach of entropy with logistic regression and support vector machine for landslide susceptibility modeling [J]. Entropy, 2018, 20(11): 884.
[23] 李文彬, 范宣梅, 黄发明, 等. 不同环境因子联接方法和数据驱动模型对滑坡易发性预测建模的影响规律[J/OL]. 地球科学. https://kns.cnki.net/kcms/detail/42.1874.P.20210506.1457.004.html.
LI W B, FAN X M, HUANG F M, et al. Influence law of different environmental factor connection methods and data-based models on landslide susceptibility prediction modeling [J/OL]. Earth Science. https://kns.cnki.net/kcms/detail/42.1874.P.20210506.1457.004.html. (in Chinese)
[24] 张钟远, 邓明国, 徐世光, 等. 镇康县滑坡易发性评价模型对比研究 [J]. 岩石力学与工程学报, 2022, 41(1):157-171.
ZHANG Z Y, DENG M G, XU S G, et al. Comparison of landslide susceptibility assessment models in Zhenkang County, Yunnan Province, China [J/OL]. Chinese Journal of Rock Mechanics and Engineering. 2022, 41(1):157-171. (in Chinese)
[25] 郭子正, 殷坤龙, 黄发明, 等. 基于滑坡分类和加权频率比模型的滑坡易发性评价[J]. 岩石力学与工程学报, 2019, 38(2): 287-300.
GUO Z Z, YIN K L, HUANG F M, et al. Evaluation of landslide susceptibility based on landslide classification and weighted frequency ratio model [J]. Chinese Journal of Rock Mechanics and Engineering, 2019, 38(2): 287-300. (in Chinese)
[26] KONTOES C, LOUPASAKIS C, PAPOUTSIS I, et al. Landslide susceptibility mapping of central and western Greece, combining NGI and WoE methods, with remote sensing and ground truth data [J]. Land, 2021, 10(4): 402.
[27] LI W B, FAN X M, HUANG F M, et al. Uncertainties analysis of collapse susceptibility prediction based on remote sensing and GIS: Influences of different data-based models and connections between collapses and environmental factors [J]. Remote Sensing, 2020, 12(24): 4134.
[28] 車文超, 秦胜伍, 苗强, 等. 滑坡敏感性评价中因子分类方法的研究 [J]. 工程地质学报, 2020, 28(Sup1): 116-124.
CHE W C, QIN S W, MIAO Q, et al. Research on factor classification method of landslide susceptibility mapping [J]. [J].Journal of Engineering Geology, 2020, 28(Sup1): 116-124. (in Chinese)
[29] 罗路广, 裴向军, 崔圣华, 等. 九寨沟地震滑坡易发性评价因子组合选取研究[J]. 岩石力学与工程学报, 2021, 40(11): 2306-2319.
LUO L G, PEI X J, CUI S H, et al. Combined selection of susceptibility assessment factors for Jiuzhaigou earthquake-induced landslides [J]. Chinese Journal of Rock Mechanics and Engineering, 2021, 40(11): 2306-2319. (in Chinese)
[30] GUO Z Z, SHI Y, HUANG F M, et al. Landslide susceptibility zonation method based on C5.0 decision tree and K-means cluster algorithms to improve the efficiency of risk management [J]. Geoscience Frontiers, 2021, 12(6): 101249.
[31] 郭天颂, 张菊清, 韩煜, 等. 基于粒子群优化支持向量机的延长县滑坡易发性评价[J]. 地质科技情报, 2019, 38(3): 236-243.
GUO T S, ZHANG J Q, HAN Y, et al. Evaluation of landslide susceptibility in Yanchang County based on particle swarm optimization-based support vector machine [J]. Geological Science and Technology Information, 2019, 38(3): 236-243. (in Chinese)
[32] HUANG F M, TAO S Y, CHANG Z L, et al. Efficient and automatic extraction of slope units based on multi-scale segmentation method for landslide assessments [J]. Landslides, 2021, 18(11): 3715-3731.
[33] 沈玲玲, 刘连友, 许冲, 等. 基于多模型的滑坡易发性评价: 以甘肃岷县地震滑坡为例[J]. 工程地质学报, 2016, 24(1): 19-28.
SHEN L L, LIU L Y, XU C, et al. Multi-models based landslide susceptibility evaluation: Illustrated with landslides triggered by Minxian earthquake [J]. Journal of Engineering Geology, 2016, 24(1): 19-28. (in Chinese)
[34] 杨世豪, 苏立君, 张崇磊, 等. 强降雨作用下昔格达边坡渗流特性及稳定性分析[J]. 土木与环境工程学报(中英文), 2020, 42(4): 19-27.
YANG S H, SU L J, ZHANG C L, et al. Analysis of seepage characteristics and stability of Xigeda formation slope under heavy rainfall [J]. Journal of Civil and Environmental Engineering, 2020, 42(4): 19-27. (in Chinese)
[35] 于宪煜, 胡友健, 牛瑞卿. 基于RS-SVM模型的滑坡易发性评价因子选择方法研究[J]. 地理与地理信息科学, 2016, 32(3): 23-28, 2.
YU X Y, HU Y J, NIU R Q. Research on the method to select landslide susceptibility evaluation factors based on RS-SVM model [J]. Geography and Geo-Information Science, 2016, 32(3): 23-28, 2. (in Chinese)
[36] 吴雨辰, 周晗旭, 车爱兰. 基于粗糙集神经网络的IBURI地震滑坡易发性研究[J]. 岩石力学与工程学报, 2021, 40(6): 1226-1235.
WU Y C, ZHOU H X, CHE A L. Susceptibility of landslides caused by IBURI earthquake based on rough set-neural network [J]. Chinese Journal of Rock Mechanics and Engineering, 2021, 40(6): 1226-1235. (in Chinese)
[37] 黄发明, 汪洋, 董志良, 等. 基于灰色关联度模型的区域滑坡敏感性评价[J]. 地球科学, 2019(2): 664-676.
HUANG F M, WANG Y, DONG Z L, et al. Regional landslide susceptibility mapping based on grey relational degree model [J]. Earth Science, 2019(2): 664-676. (in Chinese)
[38] 许英姿, 卢玉南, 李东阳, 等. 基于GIS和信息量模型的广西花岗岩分布区滑坡易发性评价[J]. 工程地质学报, 2016, 24(4): 693-703.
XU Y Z, LU Y N, LI D Y, et al. GIS and information model based landslide susceptibility assessment in granite area of Guangxi Province [J]. Journal of Engineering Geology, 2016, 24(4): 693-703. (in Chinese)
[39] 解明礼, 巨能攀, 赵建军, 等. 区域地质灾害易发性分级方法对比分析研究[J]. 武汉大学学报·信息科学版, 2021, 46(7): 1003-1014.
XIE M L, JU N P, ZHAO J J, et al. Comparative analysis on classification methods of geological disaster susceptibility assessment [J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1003-1014. (in Chinese)
[40] ZHU L, WANG G J, HUANG F M, et al. Landslide susceptibility prediction using sparse feature extraction and machine learning models based on GIS and remote sensing [J]. IEEE Geoscience and Remote Sensing Letters, 4029, PP(99): 1-5.
[41] SAHA A, SAHA S. Comparing the efficiency of weight of evidence, support vector machine and their ensemble approaches in landslide susceptibility modelling: A study on Kurseong region of Darjeeling Himalaya, India [J]. Remote Sensing Applications: Society and Environment, 2020, 19: 100323.
[42] SANDRIC I, IONITA C, CHITU Z, et al. Using CUDA to accelerate uncertainty propagation modelling for landslide susceptibility assessment [J]. Environmental Modelling & Software, 2019, 115: 176-186.
(編辑 胡玲)