基于LR-RF模型的滑坡易发性评价*
——以铜川市耀州区为例
2022-09-19谢婉丽刘琦琦李嘉昊朱荣森
穆 柯,谢婉丽,刘琦琦,严 明,杨 惠,李嘉昊,黄 煜,朱荣森
(1.西北大学 地质学系,陕西 西安 710069;2.西北大学 大陆动力学国家重点实验室,陕西 西安 710069)
我国疆域幅员辽阔,山地众多,地形地貌复杂,长期受到滑坡灾害的威胁。据统计,2021年全国共发生滑坡2 335起,占全年发生地质灾害总数的48.93%,为所有地灾种类之最。
耀州区是陕西省中部连接关中与陕北的交通节点,也是重要的矿业基地,长期以来对资源的不合理开发导致滑坡灾害频发,阻碍着当地生产建设与城市发展。针对滑坡的突发性与高危害性,科学的风险评价与防灾管理是减轻其损失的最佳方案,而对滑坡的易发性进行精准的划分是滑坡防治与管理工作的重要一环。
经过国内外学者数十年来的研究,关于滑坡易发性研究的理论与技术日新月异,目前广泛使用的方法主要为三种类型:层次分析(AHP)法[1]、加权线性组合法[2]等定性分析方法;信息量[3]、确定性系数(CF)[4]、模糊信息[5]等统计预测模型方法,BP神经网络[6]、逻辑回归(LR)[7]、支持向量机(SVM)[8-9]、随机森林(RF)[10]等机器学习模型。实例如许冲等基于层次分析法对汶川震区的滑坡进行了易发性评价[11];谢婉丽等引入模糊信息法在大西安地区进行了地质灾害易发性区划[12-13];NHU等人采用逻辑模型树等五种机器学习方法对伊朗库尔德斯坦省的滑坡进行易发性预测,并对结果进行分析比较,最终认为逻辑模型树的评价精度最高[14];BEHNIA等人开发了数据驱动的随机森林模型对育空地区的滑坡进行了易发性评价,认为随机森林在滑坡易发性评价中表现出色[15]。
近年来,随着滑坡易发性研究的深入与实际工作的展开,传统评价方法的精度愈发难以满足实际需求,越来越多的学者将目光转向耦合模型,选择合理的预测模型以提升预测精度是近几年滑坡易发性研究的热点领域。如BINH等人提出了一种径向基函数与旋转森林集成的耦合模型(RFRBF),并在实际案例中与其他五种机器学习模型进行对比,认为RFRBF的预测精度最高[16]。ZHENG等人在对日本山区的滑坡易发性评估中对比了四种集成学习算法(ML),其中SVM-boosting表现最佳,SVM-stacking的性能最低,表明耦合模型不一定会提升预测性能[17]。白志刚等人基于熵指数与随机森林耦合模型对渝东北地区地质灾害易发性评价,认为耦合模型的加入明显提升了预测精度[18]。上述案例表明不同预测模型的耦合不一定会提升滑坡易发性评价的精度,在实际应用中的效果仍然存在争议,尚未形成完整的理论体系。基于上述研究现状,本文尝试将LR-RF耦合模型应用于耀州区的滑坡易发性评价,用于检验与传统LR模型相比,耦合模型在实际评价中的预测精度是否有所提升。
逻辑回归(LR)模型是广泛应用于地质灾害领域的回归分析模型,具有假设简单、数据要求低、输出结果便捷等优点,广泛应用于统计建模领域[19],但是需要大量而准确的数据对数学模型的构建进行支撑,当数据较少时,评价结果不准确[20]。随机森林(RF)模型是一种基于集成学习的算法,它通过随机抽样对多个决策树进行集成,使用投票机制进行预测[21]。因此为了在较少量数据的前提下提高模型的预测精度,本研究将LR模型的空间属性引入随机森林模型中,以耀州区为研究区,选取坡度等八个环境因子,建立二者的耦合模型(LR-RF)对研究区进行滑坡易发性评价,并与传统LR模型评价结果进行对比,以探讨LR-RF耦合模型的预测性能及适用性,研究成果可以为当地的滑坡防治与风险管理工作提供理论支撑。
1 研究区概况
耀州区位于陕西省中部黄土高原与汾渭地堑的过渡地带,处于108.579 0°~109.092 2°E,34.805 7°~35.220 8°N之间,面积1 617 km2,海拔236~1 732 m,气候类型属温带季风气候,年均降水量554.5 mm。区内发育漆水河等五条主要河流,强烈的切割侵蚀作用塑造了区内残塬沟壑密布的地貌特征,全区大部分斜坡表面均为第四系黄土。
区内共有滑坡灾点71处,其分布现状见图1。由图1不难看出,研究区灾点多分布于河谷阶地区与残塬沟壑区;按行政区划则在天宝路街道最多。区内复杂多变的地貌特征为滑坡发生提供了地形基础,遍布全区的湿陷性黄土等脆弱岩土体提供了物源条件,人类工程活动是重要的诱发因素[22-24]。
图1 滑坡点分布图(审图号:陕S(2021)023号,底图无修改,下同)
2 评价因子选取与独立性检验
2.1 数据来源及评价单元划分
耀州区滑坡点数据来源于实地调查,地理环境等数据来源见表1。
表1 评价指标数据来源
根据研究区滑坡分布特征与前人经验,本次易发性评价选择30 m×30 m的栅格单元作为基本评价单元,在ArcGIS中将研究区划分为大约181万个栅格单元。
2.2 评价因子选取
评价因子的选择对评价分析至关重要,综合分析研究区滑坡发育近况和影响要素,这里主要从地理环境、地质环境、人类活动三个方面出发:
2.2.1 地理环境因子
(1)高程。研究区高程范围为536 m~1 732 m,高差较大,不同高程区间对滑坡的作用程度有所不同,在ArcGIS中将其分为7级(图2a)。
(2)坡度。研究区坡度分布范围为0°~73°,坡度跨度区间较大,在ArcGIS中将其分为7级(图2b)。
(3)坡向。研究区的坡向为-1°~360°,以45°为间隔对其进行等距分级(图2c)。
(4)距河流距离。距河流距离的大小对滑坡的发生影响较大,区内五条河流及其支流均为渭河水系,多为NW-SE向。使用ArcGIS的欧式距离分析,以500 m为间隔将其划分为5级(图2d)。
(5)植被指数(NDVI)。植被指数由landsat8遥感影像通过软件进行地理校正、大气辐射校正后计算获取,其取值在[-1,1],NDVI与植被发育程度呈正相关。在ArcGIS中将其分为5级(图2e)。
2.2.2 地质环境因子
(1)工程地质岩组。不同地层岩性的物理力学性质对滑坡的诱发程度有显著差异,强度较小的岩层对滑坡的诱发程度较高。根据研究区的地质资料,研究区的地层岩性可分为五类岩组(图2f)。
(2)距构造距离。研究区地质构造主要为北部山区的三条背斜。使用ArcGIS的欧氏距离分析,以500 m为间隔将其划分为5级(图2g)。
2.2.3 人类活动因子
(1)距道路距离。距道路距离的远近会对滑坡产生不同的影响,利用ArcGIS的欧氏距离算法,以200 m为间距对其进行分级(图2h)。
图2 评价因子分级图
表2 因子间相关系数表
2.3 评价因子的独立性检验
进行评价前需要评估选取的评价因子的相关性,以保证因子间相互独立不互相干涉。借助皮尔森系数(PCC)对各个因子进行独立性检验[25]。假设样本数据集(Ai,Bj)=(a1,b1),(a2,b2),…,(an,bn),则PCC计算公式如下:
(1)
当0≤|PCC|<0.3时,表明因子间线性不相关;当|PCC|≥0.3时,表明因子间线性相关。计算结果显示评价因子间的|PCC|均比0.3小,证明各因子之间线性不相关。
3 滑坡易发性评价方法
3.1 逻辑回归(LR)模型
逻辑回归(LR)模型可以在多组数据中构建目标数据的回归关系,从而对目标数据发生的概率进行预测[26]。在滑坡易发性评价中,对滑坡发生赋值为1,滑坡未发生赋值为0,并将其作为逻辑回归模型的目标变量。记滑坡发生的概率为P,其计算公式为:
(2)
式中:β0,β1,β2,…,βn为逻辑回归系数;X1,X2,…,Xn为自变量;P为评估结果,即发生滑坡的概率。
3.2 随机森林模型
随机森林(RF)模型是一种最早由LEO Breiman提出的集成学习算法。其工作原理为:首先从建模数据中随机抽取部分样本,并生成对应的样本集和决策树;接着借助决策树对抽取样本集进行训练,每棵决策树都能独立地得出预测结论;随后汇总全部决策树,组成RF算法,对新数据进行分类和预测。模型输出结果由全部决策树的独立结果投票产生,获得票数最多的即为预测结果[27],其运行结构见图3。
4 滑坡易发性评价
4.1 基于LR模型易发性评价
在进行LR模型构建之前,首先需要选取样本数据构建正负样本集,正样本为研究区的滑坡点,即滑坡发生的样本点;负样本为非滑坡点,即滑坡不发生的样本点。
采样方法为:以研究区的71个滑坡点为建模正样本,在其周围建立1 000 m的缓冲区,在缓冲区外以1:3的比例随机生成213个点作为非滑坡点(负样本)。71个正样本与213个负样本共同组成训练样本,标记滑坡点为1,非滑坡点为0。使用各因子的归一化值作为模型指标:
(3)
(4)
式中:Sij为i因子j分级下的滑坡灾害影响面积,Sij′为该分级的总面积,Rij为求取归一化指数Xn的中间变量,Rn为Rij的合集,Xn为归一化指数。
将数据样本导入R语言软件中,使用glm函数构建LR模型,运算结果见表3。
表3 LR模型详情表
由表3可知,各因子的显著系数值均小于0.05,满足独立性条件,其预测发生滑坡的概率P为:
(5)
式中:X1j,X2j,X3j,…,X8j为单元格对应的高程、坡度等8个评价因子通过式(3)和式(4)计算的归一化值。在ArcGIS中完成式(5)的计算,得到研究区的滑坡发生概率,将其划分为五级,得到基于LR模型的滑坡易发性分区图(图4)。
图4 基于LR模型的滑坡易发性分区图
4.2 基于LR-RF耦合模型易发性评价
(1)样本选取。与LR模型构建类似,建立正负样本集是RF模型构建之前的首要步骤。因为对研究区进行预测之前不能确定滑坡易发区的空间位置,为了避免影响模型预测精度,非滑坡点的选取需要避开滑坡易发区。在传统的建模过程中,大多是通过在滑坡周围建立缓冲区,在缓冲区外选取非滑坡点作为负样本[28]。鉴于滑坡发育的随机性与地质环境的复杂性,极大增加了负样本的获取难度。此处结合前文中获得的LR模型易发性分区,在其去除高易发区的剩余区域内作为非滑坡点选取区,以提升其为非滑坡点的概率,从而提升模型的预测精度。
根据前人经验,在构建模型之前,采用1∶3的比例选取负样本点[29]。在LR模型去除高易发区的区域选取非滑坡点213个,与滑坡点71个共同组合为模型的正负样本集,随后以7∶3的比例将284个正负样本划分为201个训练样本数据与83个测试样本数据。
(2)参数选取。随机森林模型只有在最优参数组合下,才能发挥最理想的性能,预测效果才能达到最佳。在模型建立过程中,对预测精度影响最大的参数有两个:最大特征数(简称mtry),其含义为组成随机森林的每棵决策树建立过程中可以使用的最大特征数量,其取值与参与模型构建的因子数量有关,本文选取了8种因子参与模型构建,故最大特征数取值范围为1~8的自然数;决策树数量(简称ntree),即随机森林算法中的决策树数量[27],决策树数量越多,模型误差会趋于稳定,计算量也会增加。因此,对选取最大特征数与决策树数量的取值是建模的关键所在。
通过在R语言中进行循环迭代,可得不同最大特征数下的OOB袋外误差(图5)。图中OOB袋外误差含义为随机森林模型分类错误的样本占总样本的比例,其值越小,即表明模型预测效果越好。由图5可知,当最大特征数取值为4时,误差最小,因此本次建模mtry取值为4。
图5 特征数与袋外误差关系图
取最大特征数为4,在R语言中进行迭代,获得不同决策树下的袋外误差(图6)。图中1线是指在循环迭代中,样本1(滑坡点)被误分类为0(非滑坡点)的误差,同理0线是指样本0(非滑坡点)被误分类为1(滑坡点)的误差。由图6可知,模型中三条曲线的预测误差在决策树数量取值为200时趋于稳定,故在本此建模中ntree取值为200。
最终确定ntree取值为200,mtry取值为4进行LR-RF模型的构建。
图6 OOB误差迭代图
(3)模型建立。使用上一步获得的201个训练样本数据,在R语言中基于randomforest函数构建RF模型,并将83个测试数据集代入以进行精度测试。测试结果显示,模型的预测准确率为91.24%,kappa值为0.838 1,误差为5.53%,表明模型预测精度较高[24]。混淆矩阵通过统计实际与模型预测结果的不一致性来评估模型精度,LR-RF模型的测试混淆矩阵如表4所示,在测试样本中,62个非滑坡点预测成功60个,预测失败2个,错误率为3.2%;21个滑坡点预测成功18个,预测失败3个,成功率为85.71%。
表4 混淆矩阵
(4)模型预测。经过上述模型参数优化,选取mtry为4,ntree为200,建立LR-RF模型,并将研究区全部181万个评价栅格数据导入训练好的模型中,输出结果为模型预测研究区发生滑坡的概率。在ArcGIS中将其分为5级,绘制基于LR-RF模型的滑坡易发性分区图(图7)。
图7 基于LR-RF模型的滑坡易发性分区图
5 滑坡易发性评价结果验证
将耀州区的滑坡点与两种模型的滑坡易发性评价结果进行叠加,从灾点密度和ROC曲线两个方面对LR-RF模型与LR模型的滑坡易发性评价结果进行验证。
5.1 易发性分区结果对比与分析
滑坡密度是各滑坡易发等级滑坡数量与该等级面积的比值,可以直观地反应不同的滑坡密度的差异[25]。在上文中已经获得LR模型与LR-RF模型的易发性分区结果,将已发生的地质灾害点与获得的易发性分区进行统计,统计结果见表5。从表5中可以清晰的看出,LR-RF模型的高易发区包含了42.35%的滑坡点,高于LR模型的35.21%;在滑坡密度方面,LR-RF模型的滑坡密度为0.57处/ km2,也高于LR模型的0.34处/km2。由此可以说明LR-RF模型的预测结果中易发性较高的地方滑坡点更密集,与实际灾点分布更贴合,有更高的预测成功率。
表5 滑坡易发性分区统计表
5.2 精度验证
在研究区已发生的滑坡中随机选择30%作为精度测试样本,并建立500 m的缓冲区,随后在缓冲区外随机生成相同数量的非滑坡点,二者共同组成测试正负样本,用于对上述两种模型获得的易发性评价结果精度的进行对比分析。
ROC曲线是一种反映模型预测精度的经典方法,其横轴为特异性,纵轴为灵敏度,AUC值(ROC曲线下面积)的大小用于评判模型的预测精度,其值越接近1,表明测试模型预测精度越高[26]。LR-RF和LR模型的ROC曲线见图8,LR-RF模型的AUC值为0.912 3,与LR模型的0.889 5有较大提升。这是因为LR模型在样本数据较少时缺少有力的数据支撑,在局部预测不精确。LR-RF模型在选取非滑坡样本时吸收了LR模型的空间属性,同时RF模型在分类预测中可以很好地反应样本数据间的非线性关系,因而表现出较强的预测精度。而且LR-RF模型在滑坡密度方面也有很好地适配性,说明该模型从适应性和准确度上都很适合对研究区进行滑坡易发性评价。
图8 不同模型预测结果的ROC曲线
5.3 讨论
精确而及时的滑坡易发性评价在滑坡防治工作中有着至关重要的作用,也是经久不衰的研究热点。近年来集成学习算法在滑坡易发性评价研究中展示了丰富的发展潜力,可以反映滑坡与评价因子间的非线性关系。本项研究为了解决LR模型在数据源较少时的精度下降问题,在LR模型的评价基础上引入集成学习算法中的RF模型进行耦合来对研究区展开滑坡易发性评价。借助滑坡密度与ROC曲线可以看出,与传统的LR模型相比,LR-RF模型可以有效减少偏差和错误分类,有效提升了预测准确率与精度。
6 结论
本文以耀州区为研究区,分别建立了传统逻辑回归(LR)模型与逻辑回归-随机森林(LR-RF)的耦合模型对研究区进行滑坡易发性评价,并与传统LR模型评价结果进行对比,对LR-RF耦合模型与LR模型在研究区滑坡易发性评价中的预测性能及适用性进行了探讨,主要结论如下:
(1)基于耀州区的地质环境条件与滑坡分布特征,选取高程、坡度、坡向等八个地质环境因子,采用皮尔森相关性系数验证了各个评价因子间的独立性,确立了八个评价因子构成的研究区滑坡易发性评价体系。
(2)使用在逻辑回归(LR)模型分区基础上选取非滑坡点作为负样本的采样方法,在R语言中构建耀州区LR-RF滑坡易发性评价模型,对该区进行了滑坡易发性评价和区划。评价结果表明,高、较高及中易发区覆盖了研究区东南部的漆水河等河谷和中部残塬边缘区域,包含了73.23%的滑坡点,预测效果较好。
(3)分别从滑坡密度和ROC曲线两项指标对两种模型结果精度进行验证:从滑坡密度来看,LR-RF模型高易发区的滑坡密度为0.57处/ km2,高于LR模型的0.34处/ km2;从ROC曲线来看,LR-RF模型的AUC值为0.912 3,也大于LR模型的0.889 5。LR-RF模型的两项精度验证指标均优于LR模型,表明耦合模型的预测结果优于传统模型。在研究区采用LR-RF模型进行滑坡易发性评价拥有更好的评价精度和预测能力,可为研究区的防灾减灾工作提供一定理论参考和技术指导。