APP下载

多因子组合的地质灾害易发性空间精度验证

2023-11-11解明礼巨能攀赵建军范强何朝阳

中国地质灾害与防治学报 2023年5期
关键词:信息量易发成功率

解明礼,巨能攀,赵建军,范强,何朝阳

(地质灾害防治与地质环境保护国家重点实验室(成都理工大学),四川 成都 610059)

0 引言

地质灾害易发性评价是地质灾害风险评价的核心工作内容之一,是通过分析地质灾害位置与其相关因素之间的关系。利用统计、数据挖掘以及地理信息系统在空间上识别地质灾害易发区域,影响因子选取是易发性评价的前提工作[1-3]。因子的正确选择取决于地质灾害的类型、机理、特征、案例区、分析的尺度、数据的可用性和使用的评价模型方法[4-6]。地质灾害影响因子可划分为以下几类:(1)地质因子:岩性、断层距离(密度)、工程地质岩组、斜坡结构类型、向斜与背斜构造、褶皱轨迹等;(2)地形因子:坡度、坡高(地形起伏度)、高程、地形曲率(平面曲率、剖面曲率、标准曲率、坡形)、坡长、坡位、沟谷密度、地形表面纹理、地形位置指数(topographic position index,TRI)、地形耐用指数(terrain ruggedness index,TPI)、粗糙度指数、地表切割度等;(3)水文因子:河流距离(密度)、降雨、地形湿度指数(topographic wetness index,TWI)、水动力指数、地下水高度、有效补给率、侵蚀程度、输沙能力指数、河谷深度、流路长度、径流强度指数、河流流量等;(4)地表覆盖因子:土地利用、植被指数(NDVI)、土壤类型、土壤厚度、森林类型、土壤渗透率、地表太阳辐射强度等;(5)人类活动因子:道路距离(密度)、居民距离(密度)等;(6)地震因子:地震烈度、峰值加速度、地震密度、震中距离等[7-10]。地形因子与地质因子可以表征主导滑坡发生的背景条件,地表覆盖因子、水文因子、人类活动因子与地震因子则反映附加因素加剧滑坡的可能。在已有的研究中,坡度是地质灾害易发性评价工作中最为常用的因素,岩性、高程、坡向、河流距离和断层距离等也是常用的评价因子,而其它因素的适用性因地制宜[11-14]。

对于地质灾害影响因子的选择,目前还没有统一的标准,以往研究工作中地质灾害易发性评价选择的影响因子往往是根据经验选取地质因子、地形因子、水文因子中的部分参数,每项研究选取的因子类型存在一定差异,且因子数量不一致[15-19]。可能存在以下问题:①选择因子较少,预测精度不足;②选择因子过多,叠加部分因子后预测精度可能达到峰值,叠加过多因子增加一定工作量。此外,是否在地质灾害易发性评价中叠加的因子数量越多,模型预测精度越高或者上下大幅度波动?易发性评价中是否存在“最优因子数量”这一概念?这些问题值得探讨。

基于以上提出的问题,本文在以往研究工作基础上,以四川省汶川县作为案例区,选取多个常用地质灾害影响因子,将所选取影响因子按照一定排列组合模式运用信息量法进行案例区地质灾害易发性评价,并采用成功率曲线验证叠加不同数量对地质灾害易发性评价精度的影响[20]。

1 研究方法

本研究选取“5·12”汶川地震后地质灾害频发的汶川县为案例区,案例区共发育有地质灾害690 处,包括崩塌192 处、滑坡351 处、泥石流147 处(图1)。基于所收集资料与已有研究基础[16],选取地质灾害易发性评价常用影响因子11 种:地貌类因子(高程、坡度、起伏度、坡形、起伏度、沟谷密度)、地质类因子(工程岩组、断裂)、水文类(河流)、人类工程活动(道路、植被指数),并对因子进行分级(表1)。运用信息量模型(表1),以案例区70%历史灾害点为训练样本,计算每个影响因子各个分级的信息量,信息量计算方法如式(1)—(2)所示。根据不同排列组合叠加3 到11 个因子信息量获得对应的地质灾害易发性指数分布图,易发性指数越高代表地质灾害易发性越高。以30%历史灾害点和非灾害点为检验样本,本文中非灾害点为历史地质灾害点数据1 km 缓冲区范围外随机生成的点位数据,运用成功率(receiver operating characteristic,ROC)曲线确定线下面积(area under curve,AUC)值对各个结果进行预测精度评价,历史灾害点成功率曲线AUC值越趋近于1 代表其评价精度越高,而非灾害点成功率曲线AUC值越趋近于0 代表其评价精度越高。对比各个组合结果,分析叠加影响因子数量与地质灾害易发性评价精度的关系。研究思路如图2 所示。

表1 因子分级及信息量Table 1 Classification and information value of the factors

图1 案例区基础信息Fig.1 Fundamental information of the case study area

图2 研究技术路线Fig.2 The research methodology flowchart

式中:I——评价区某单元信息量预测值;

Ni——分布在因素Xi内特定类别内的灾害点单元数;

N——案例区含有灾害点分布的单元总数;

Si——案例区内含有评价因素Xi的面积;

S——为案例区总面积;

Yi——致灾因子指标值。

2 因子排序组合

首先采用层次分析法确定每个因子的权重,层次分析法是一种多指标分析评价方法,具有精度高,使用方便等特点。通过专家估计两两影响因子之间的关系构造矩阵对所有影响因子进行两两比较确定各个影响因子的权重,这样避免了个别比较不合理而造成的结果偏差过大。

然而层次分析法带有一定的主观性,为避免主观性,选取8 位从事工程地质研究工作学者对案例区11个因子进行打分,8 位专家打分结果平均值作为因子最终权重值(表2)。最终确定各个因子对地质灾害敏感度从高到低排序为:①断裂②岩性③坡度④河流⑤坡形⑥起伏度⑦沟谷⑧高程⑨公路⑩坡向⑪植被指数。结合汶川县地质灾害发育分布特征及每个因子的信息量综合分析,区内发育汶茂断裂与北川映秀断裂,地质灾害主要集中于河流两岸,受坡度控制明显,且区内地质灾害与构造活动有着高度耦合性,这一结论与已有研究成果是相同的[16]。综上说明通过多位专家打分的汶川县各个因子对地质灾害敏感度排序结果合理性较高。

表2 因子权重Table 2 Factor weights table

为了避免按照某种顺序叠加因子导致结果规律的偶然性,本文将各个因子按照不同排列组合成由3 个因子至11 个因子组成的评价模型,因子组合分为两类:顺序数组与随机数组。顺序数组涵盖两种组合:因子对地质灾害发生的敏感度从高至低排列与从低至高排列模式;随机数据由编程语言随机函数生成1~11 中包含不同个数并且不重复的随机数组。因子排列组合如表3所示。

表3 因子排列组合Table 3 Factor combination table

3 评价精度分析

将各个因子信息量按照表3 中因子组合方式分别叠加,计算出各个组合的案例区地质灾害易发性指数图(图3),运用成功率曲线验证和比较各个组合模型易发性精度。

图3 不同因子组合易发性指数图Fig.3 Geological hazard susceptibility index diagram for different quantitative factor combinations

如图3 所示,为多个组合模型不同数量因子叠加的案例区地质灾害易发性指数图,结果表明当叠加因子数量3~5 个时,易发性指数图受单个因子控制性较为明显,例如组合1A(3)与组合1B(4)中断层控制易发性指数图最为明显、组合2A(3)中道路控制易发性指数图最为明显。而当叠加因子6~7 个时,地质灾害易发性指数图受单个因子控制性不再明显,显现出了多个因子的叠加效应,但不同组合模型的地质灾害易发性指数图图面信息差异性较大,易发性高分布的区域和面积各不相同。当叠加至8 个以上因子后,各个组合模型的易发性指数图相似性较高,显现出的高易发区与实际情况匹配度较高。

对比各类组合模型基于历史地质灾害点验证样本的成功率曲线(图4),统计出随因子数增多成功率曲线下面积(AUC)变化规律(图5)。叠加3 个因子预测精度较差,组合2 和组合4 中AUC值仅在0.65 左右,而组合1 和组合3 相对于组合2 和组合4 同等数量因子组合中叠加预测精度较高。其共同规律为:4 种组合中AUC值随因子数增多而不断增高,即随着叠加因子数量增多预测精度不断增高,但叠加因子数至8 个时,AUC值不再明显上升与下降,其值约为0.9,浮动幅度在0.005左右,说明叠加8 个以上因子时预测精度不再变化。

图4 基于验证样本的不同因子组合成功率曲线Fig.4 Success rate curves of multifactor combination based on validation samples

图5 基于验证样本的AUC 值统计Fig.5 AUC value statistics based on validation samples

对比各类组合基于非地质灾害点样本的成功率曲线,统计出随因子数增多成功率曲线下面积(AUC)变化规律(图6、图7)。由图中可观察出叠加少于8 个因子的组合随叠加因子数增多,AUC值浮动较大,且有着随因子数增多而逐渐下降的趋势。叠加至8 个以上因子的组合模型AUC值相对变化浮动较小,稳定于0.385左右。

图6 基于非灾害点验证样本的不同因子组合成功率曲线Fig.6 Success rate curves of multifactor combinations based on non-hazard validation samples

图7 基于非灾害点验证样本的AUC 值统计Fig.7 AUC value statistics based on non-hazard validation samples

结合两种地质灾害易发性评价精度检验方法,对比分析了按照不同组合方式叠加3 至11 个因子的36 种组合模型,分析结果发现随叠加因子数量增多,组合模型精度不断提升,但叠加至8 个因子后,模型精度不再变化,精度值上下浮动较小,历史灾害点验证样本的AUC值稳定于0.9 左右,非灾害点验证样本的AUC值稳定于0.385 左右,由于所选用的非地质灾害点为历史地质灾害点数据1 km 缓冲区范围外随机生成的点位数据,非地质灾害点又有可能在不久的将来成为新的地质灾害点,AUC难以趋近于0,说明评价模型叠加至8 个因子时模型精度已达到峰值,叠加更多因子不会明显提升或降低其精度。

4 讨论

根据不同因子组合方式可发现,各个因子对于案例区的地质灾害易发性影响存在较大的差异性。由于汶川地区受到2008 年“5·12”Ms8.0 地震的震裂影响,在断裂带区域地质灾害分布较为密集,断层缓冲区因子对于案例区的地质灾害易发性控制性最强。综合图5 和图7中叠加各个因子后AUC值的变化幅度,重新梳理各个影响因子的控制性排序为:断层>河流>道路>岩性>高程>起伏度>坡度>沟谷密度>坡形>坡向>植被指数。这一排序结果与前文通过专家打分确定因子重要性等级排序存在一定差异,分析原因为专家打分存在一定主观性,尽管采用了多个专家打分的平均值,但还是难以消去其主观性。

对比前文四种因子组合模型,它们有着共同的特点,运用验证样本成功率曲线检验各种组合模型评价精度时:模型精度随着叠加因子数增多而提高,叠加至8 个因子时模型精度不再变化,趋于平稳状态,AUC稳定于0.9 左右,上下浮动约0.005;运用非灾害点样本成功率曲线检验各种组合模型评价精度时:模型AUC值随叠加因子数增多而下降,即模型精度随着叠加因子数增多而上升,同样在叠加至8 个因子时模型精度趋于稳定,AUC稳定于0.385。根据这一结果,可以确定当模型选取8 个以上因子时,模型精度将不会改变,8 个因子可能是地质灾害易发性评价叠加最佳因子数。但这一结论是否正确值得再次证明与讨论。

按照前文多次叠加后确定的因子实际控制性从高到低与从低到高两种组合模型再次检验随着因子叠加数量增多易发性评价精度的变化规律。如图8—9所示,按照因子实际控制性从高到低排列组合,叠加断层、河流、道路3 个因子后AUC值已经接近峰值,为0.889,其后再次叠加其它因子,AUC值上下浮动约0.02。而按照实际因子控制性从低到高排列组合,当叠加到最后一个因子(断层)时AUC值才达到峰值。

图8 两种模型成功率曲线Fig.8 Success rate curves of two models

图9 两种模型AUC 值统计Fig.9 AUC value statistics of two models

结合前面的试验研究与后面的验证结果综合分析,造成叠加至8 个因子时易发性指数的AUC值最大的原因在于叠加过程中存在一定偶然性:前期四种组合模型在叠加因子时仅靠个人经验或随机组合,未将关键因子优先组合,AUC值无法快速达不到峰值。而当叠加至7~8 个因子时已经包含了这类关键因子(例如断层、河流、道路),此时达到了评价结果精度的峰值,其AUC值在0.9 上下以0.005 浮动。

综上试验研究表明,开展某地区地质灾害易发性评价时,最先开展的工作应是确定出该区域地质灾害的主控因素,例如构造、水文、岩性、地形等因素,即需要开展的是孕灾条件分析。且对于大区域,例如省级地质灾害易发性评价,应根据地质环境条件与地质灾害发育特征,对研究区开展综合分区,找出各个分区的主控因素,进行分区评价。可采用反演分析模式,综合运用信息量模型与ROC 曲线法,将逐个因子不同等级所对应的信息量作为检验变量,利用ROC 曲线法进行单因子分析,根据AUC值确定各个因子对研究区地质灾害敏感度重要程度排序。

5 结论

本文以四川省汶川县为案例区,选取广泛应用的11 种地质灾害影响因子进行不同排列组合,验证“是否在地质灾害易发性评价中叠加的因子数量越多,模型预测精度越高或者上下波动。”这一问题。经对比试验研究,得出以下结论:

(1)地质灾害影响因子进行随机组合时,叠加因子数量越多,地质灾害易发性评价结果精度越高,但叠加至一定数量因子后评价精度达到峰值,叠加更多因子不会明显提升或降低精度。

(2)地质灾害的发生在不同区域有着不同的主控因子,因子选取原则不仅仅根据个人经验,更应该计算出来每个因子独立的控制性,可采用单因子信息量与ROC 曲线组合模型评价结果确定出主控因子,优先叠加控制性较强的因子,能够快速达到易发性评价精度的最高值。

(3)根据本文有限的多次测试结果表明,地质灾害易发性评价中叠加的因子数量越多,模型预测精度越高,叠加过程中如未加入关键因子,模型预测精度将不会达到峰值,说明地质灾害易发性评价存在关键因子,但不存在 “最优因子数量”。

猜你喜欢

信息量易发成功率
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
夏季羊易发疾病及防治方法
冬季鸡肠炎易发 科学防治有方法
如何提高试管婴儿成功率
基于信息理论的交通信息量度量
如何提高试管婴儿成功率
如何增加地方电视台时政新闻的信息量
基于多尺度互信息量的数字视频帧篡改检测