APP下载

滑坡易发性预测线性致灾因子最佳缓冲距离分析
——以江西省瑞金市为例

2022-06-19周晓亭吴伟成皇甫文超欧鹏辉

关键词:易发断层线性

周晓亭, 吴伟成, 皇甫文超, 欧鹏辉, 张 阳

(东华理工大学 江西省数字国土重点实验室,江西 南昌 330013 )

滑坡是我国主要地质灾害之一,尤其对山区的社会经济发展造成了严重的威胁(黄润秋,2007;许冲等,2019)。在地质灾害高发区,进行滑坡易发性预测,分析滑坡灾害发生概率与空间分布规律,对滑坡的预测预警、土地利用规划、城市建设和乡村发展有着重要的指导意义。滑坡的复杂性以及致灾因子的多样性使得滑坡灾害易发性预测一直是国内外研究的热点和难点。

随着人工智能的快速发展,机器学习算法在滑坡易发性预测中得到了有效的应用(林齐根等,2017;Huang et al.,2018;张向营等,2018;Zhu et al.,2018;Achour et al.,2020;Dou et al.,2019;Sameen et al.,2020)。基于机器学习算法的滑坡易发性评价是利用历史滑坡数据和与滑坡发生相关的环境因子进行训练拟合,进而预测其他区域的滑坡易发程度(Guzzetti et al.,1999;Zhu et al.,2018)。在众多环境因子中,岩性地质界线、断层、河流和道路等线性致灾因子,对滑坡的发生有着不同程度的影响。如断层造成的岩石破碎为滑坡发生提供了结构和物质基础;道路建设过程中,工程切坡会产生凌空面,导致坡脚失稳。在近几年兴起的机器学习模型中,线性致灾因子的处理均采用GIS技术做缓冲分析,并以单独的因子与其他因子进行叠加,作为输入变量。不同学者对线性致灾因子处理的单环缓冲距离从几十到几百米不等,主要依靠经验和专家知识,存在一定的主观不确定性。如线性因子的缓冲距离设置未充分考虑不同线性致灾因子影响程度和范围的差异性(张庭瑜等,2020;罗路广等,2020;王兆华等,2020),而这是影响滑坡易发性预测模型精度的主要因素(Guzzetti et al.,1999;王佳佳等,2014)。

本研究以江西省瑞金市为例,利用遥感和地理信息技术,提取环境因子层,基于Pearson相关性分析,探讨不同单环缓冲距离下,线性致灾因子距离与对应缓冲带内滑坡密度的相关关系,确定线性致灾因子最佳缓冲距离,设置差异性缓冲,建立随机森林滑坡易发性预测模型,并进行精度验证,为基于机器学习的滑坡易发性评估工作中线性致灾因子的处理提供思路。

1 数据源

1.1 研究区概况

瑞金市位于江西省赣州市中部,武夷山脉南西侧的宁于坳陷和武夷隆起带,构造变形强烈,岩浆活动频繁,以强烈的断裂活动为特色。境内属于贡江水系,主要河流有梅江、绵江和九堡河(图1)。交通以公路为主,有206、323、319国道,辅以纵横交错的县乡(镇)、村公路,构成了以市区为中心的“三纵四横”公路交通网络。然而,由于区内公路的建设依山傍水,尤其是公路的改建、扩建,使公路两侧山体因人为削坡而失稳,已造成多处崩塌、滑坡等工程地质灾害,同时部分地段还存在着严重的地质灾害隐患。

1.2 指标选取及数据来源

滑坡灾害的准确评估需要正确选取环境因子,结合瑞金市环境地质特征及滑坡灾害发生规律,基于GIS技术,结合遥感影像,选取地质、地形地貌、植被覆盖、土地利用、岩石风化特征、土壤类型结构、降雨量等包括岩性地质界线、断层、河流、道路4个线性致灾因子在内的19个环境因子。基础数据源主要来自1∶5万地质图、Landsant4-5 TM遥感影像(地理空间数据云http://www.gscloud.cn/)、空间分辨率为30 m的ASTER GDEM数据(地理空间数据云http://www.gscloud.cn/)、江西省土壤类型结构数据(中国土壤数据库http://vdb3.soil.csdb.cn/)和江西省气象站点降水量数据。Google Earth高分辨率的遥感影像可作为历史滑坡灾害和道路、河流等基础地理环境数据的重要补充来源。

瑞金市1∶5万地质灾害调查资料显示,1970—2013年,研究区共发生滑坡155处,位置如图1所示。在随机森林分类问题中,非滑坡稳定点的选择也非常重要(罗路广等,2020)。在本区Google Earth中,从城市、农田和水体等低坡度的平坦区域选择与滑坡数据等量的非滑坡稳定点,与历史滑坡样本共同组成滑坡易发性预测模型的样本集。选取70%的数据作为训练集,用来建立模型;选取30%的数据作为验证集,用来验证模型精度。

2 基于Pearson模型的缓冲距离分析

2.1 滑坡密度

结合前人滑坡易发性评估工作中线性致灾因子的选择和分析(Huang et al.,2018;Zhu et al.,2018;张向营等,2018;吴常润等,2019;黄发明等,2019),本研究根据瑞金市滑坡灾害的实际情况,选择岩性地质界线、断层、道路和河流因子作为分析对象,利用滑坡密度与线性因子距离的关系,评价各因子在不同分级范围对于滑坡的影响程度。滑坡密度越高,表示在该分级状态内滑坡发生的可能性越大。

如图2可知,滑坡的易发性与线性因子距离的远近密切相关。线性因子距离越近滑坡越容易发生,尤其是岩性地质界线距离表现更加明显,这是由于不同的地层接触带极易产生不稳定面,在多种因子的触发下,导致沿接触面滑动。断层距离除了表现出近断层易滑的特征,滑坡密度在距断层240~300 m时出现峰值,甚至高于近断层区,主要是由于断层会造成周围岩体破碎,增加断层附近滑坡发生的可能性,但受断层面产状和延伸距离影响,在距断层较远的距离也会受到很大的影响(范强等,2015;赵冬梅等,2020)。

当缓冲界线距地质界线、断层和河流因子大于300 m时、距道路因子大于120 m时,滑坡密度最低,对滑坡的影响较小(图2)。

2.2 Pearson模型建立及分析

滑坡易发性预测模型建立过程中,线性致灾因子的处理主要是建立多环缓冲区。多环缓冲区的要素包括缓冲带和单环缓冲距离,如图3所示。

Pearson相关系数被广泛用于分析变量间的相关性,具体为两变量间的协方差cov(X,Y)除以它们各自标准差的乘积(σX·σY):

P(x,y)=∑Ni=1(xi-)(yi-)∑Ni=1(xi-)2∑Ni=1(yi-)212

式中,P(x,y)为待分析变量间的相关性系数;xi是多环缓冲区的每个缓冲带外边界线性因子距离(m);是每个缓冲带外边界线性因子距离的平均值(m);yi是缓冲带内的滑坡密度(个/m2);是缓冲带内的滑坡密度的平均值(个/m2);N表示缓冲带的总个数。P(x,y)系数取值为-1.0~1.0,绝对值越大表明相关性越强。

前人对滑坡易发性预测的研究表明,线性致灾因子的缓冲距离为50~500 m(Dou et al.,2019;张庭瑜等,2020;武雪玲等,2020)。为了更好体现线性致灾因子对滑坡的影响,最小单环缓冲距离设置为30 m,共缓冲10环,以覆盖到线性因子的影响范围;单环缓冲距离最大设置为150 m,超过这个范围将不能很好体现线性致灾因子对滑坡的影响,造成预测的偏差。本研究分别对岩性地质界线、断层、道路和河流线性致灾因子做单环缓冲距离为30 m、50 m、80 m、100 m和150 m的缓冲区共10环。在不同单环缓冲距离下,利用Spass10.0软件建立线性因子距离和对应缓冲带内滑坡密度的Pearson相关性模型。通过Pearson相关系数绝对值大小体现相关程度,分析不同单环缓冲距离下滑坡密度和线性因子距离的相关关系。

如图4所示,岩性地质界线、断层、河流和道路因子的单环缓冲距离分别为50 m、100 m、30 m和30 m时,线性致灾因子距离和对应缓冲带内滑坡密度的相关性最大,分别为0.776、0.906、0.838和0.834。由于断层对滑坡的影响范围较大,设置较大的单环缓冲区为最佳。河流和道路对滑坡的影响范围有限,尤其对于道路建设来说,影响范围很小,主要体现在道路两侧的切坡失稳区域。岩性地质界线因子距离与滑坡密度整体上并未体现极强相关关系。野外调查中,发现滑坡主要发生在第四系与其他地层的交界处,主要受到修路和建房等人类工程活动影响。

3 最佳距离验证

随机森林模型是由多个决策树组成的集成分类器,模型最终结果由所有决策树的投票决定。集合中每个决策树所用的训练样本,通过Bootstrapping采样获得,即随机有放回地抽取与原训练集样本数量相同的训练样本。假设原始训练集中含有N个训练样本,每个样本未被抽取的概率为(1-1/N)N。当N足够大时,(1-1/N)N将收敛于1/e≈0.368,这表明原始样本集有近37%的样本不会出现在Bootstrapping采样的训练样本中,这些数据称为袋外数据,使用这些数据来估计模型性能的指标称为袋外误差。与交叉验证相比,袋外误差是内部估计,是无偏的,并且随着树数目的增加,袋外误差由开始的波动到逐渐减小并收敛到一个阈值。袋外误差有助于理解模型分类精度以及如何提高精度。

本研究重点讨论基于缓冲分析的线性致灾因子最佳单环缓冲距离选择。通过随机森林袋外误差精度和基于混淆矩阵的精度指标来验证单环缓冲距离设置的合理性,此处不重点介绍随机森林建模过程及其他因子处理方法。单环缓冲距离分别为50 m、100 m、30 m和30 m的岩性地质界线、断层、道路和河流因子,作为最相关单环缓冲距离组合与其他15个环境因子组成滑坡致灾因子集,建立随机森林模型。作为对比,将相同单环缓冲距离的线性致灾因子组合,也分别进行随机森林滑坡易发性预测建模。如图5所示,计算获得线性致灾因子在不同单环缓冲距离下随机森林滑坡易发性预测模型的袋外误差随决策树个数增加的变化趋势。最相关单环缓冲距离组合模型袋外误差随着决策树个数变化曲线呈现最低趋势,其模型精度最高。

基于混淆矩阵的精度指标中精确率代表模型预测出的滑坡点有多少是正确的,召回率代表滑坡样本有多少是被模型预测出来的,Kappa系数代表模型的可靠程度,准确率代表模型的整体精度。如表1所示,最相关单环缓冲距离组合模型验证集的精确率、召回率、Kappa系数和准确率分别为96.65%、88.67%、83.17%和91.58%,整体精度优于相同单环缓冲距离组合的模型精度。从滑坡易发性预测精度角度进一步印证了最相关缓冲的合理性。

表1 基于混淆矩阵的验证集精度

4 结论

以瑞金为研究区,利用Pearson相关性分析不同单环缓冲距离下滑坡密度与线性致灾因子距离的相关性,并建立随机森林模型,验证最相关单环缓冲距离和线性致灾因子组合用于滑坡易发性预测的合理性。

(1)瑞金地区岩性地质界线、断层、道路和河流因子的单环缓冲距离分别为50 m、100 m、30 m和30 m时,滑坡密度与线性致灾因子距离的相关性最大,体现不同因子对滑坡的影响范围不同。其他地区在建立滑坡易发性预测模型时,应充分考虑不同线性因子的影响范围差异。

(2)最相关单环缓冲距离线性致灾因子组合建立的滑坡易发性预测模型,袋外误差曲线趋势最低,验证集精度指数整体上高于相同单环缓冲距离的线性致灾因子组合。从模型精度和预测精度上均印证了最相关缓冲方法的合理性。

猜你喜欢

易发断层线性
页岩断层滑移量计算模型及影响因素研究*
如何跨越假分数的思维断层
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
嘛甸油田喇北西块一区断层修正研究
夏季羊易发疾病及防治方法
二阶整线性递归数列的性质及应用
X油田断裂系统演化及低序级断层刻画研究
冬季鸡肠炎易发 科学防治有方法
线性回归方程的求解与应用