基于频率比联接法和支持向量机的滑坡易发性预测
2021-09-26盛明强刘梓轩张晓晴胡松雁郭子正黄发明
盛明强,刘梓轩,张晓晴,胡松雁,郭子正,黄发明*
(1.南昌大学建筑工程学院,南昌 330031;2.中国地质大学工程学院,武汉 430074)
滑坡是造成重大人类生命财产损失和环境破坏的地质灾害之一,滑坡易发性研究是区域滑坡地灾评估和防治的热点技术。滑坡易发性可定义为区域滑坡发生的空间概率,如何有效开展滑坡易发性建模值得深入探讨[1-3]。
滑坡易发性预测包括建模前期处理、获取数据源、划分评价单元、选取基础环境因子、创建计算模型、绘制成功率曲线等过程[4-5]。其中滑坡编录与环境因子的联接方法与不同的模型耦合在滑坡易发性预测过程中尤为重要。现有的预测滑坡易发性相关研究中大量借鉴了机器学习、数理统计和启发式模型等数据驱动模型[6],其中机器学习通常是指支持向量机 (support vector machine,SVM)[7]、决策树[8]、随机森林[9]、逻辑回归[10]、人工神经网络[11]、灰色关联度[12]等。以往研究表明,上述模型大多具有较高的易发性预测精度,可得到较为可靠的易发性指数分布特征[6,13]。近年来,比较分析多种不同的评价模型从而找到适用于特定地区的评价模型,已成为当前研究热点[14]。SVM模型的预测精度较高,在易发性预测中取得了成功的应用。
对于上述SVM等机器学习,需要选取更加恰当的模型输入变量才能有效保证高质量的易发性预测制图。这些输入变量可以通过建立滑坡编录与相关基础环境因子之间的非线性响应关系来实现。目前常用于构建这种非线性关系的方法包括证据权[15],信息量[4]和频率比值(frequency ratio,FR)[16]。其中频率比联结法结构简洁,能有效解决各个基础环境因子之间量纲不统一的问题,并且能将各基础环境因子内的滑坡面积与研究区总面积之间的非线性相关性进行深入讨论以反映基础环境因子对滑坡发生概率的影响程度[5]。因此,现借鉴频率比联接法概念简明、操作性强且计算结果通俗易懂的优势,将环境因子的频率比值作为SVM模型的输入变量[17]。以此进一步建立滑坡易发性预测的FR-SVM模型,期望从模型输入变量和滑坡-输入变量的非线性拟合两方面出发实现准确的易发性预测制图。
以位于江西南部的上犹县作为研究区域,基于遥感(remote sensing,RS)和ArcGIS平台获取地形地貌、水文环境、基础地质及地表覆盖等因子,再开发出FR-SVM模型以实现上犹县滑坡易发性预测建模。同时将其预测结果和以原始因子作为输入变量的单独SVM模型进行对比研究。最后用受试者工作特征曲线下的面积 (area under receiver operating characteristic curve,AUC)[18]对易发性结果进行精度评估和检验,以期获得准确、有效的滑坡评价结果及与实际地区情况更加接近的滑坡易发性图。
1 滑坡易发性建模评价分析
滑坡易发性模型评价分析过程主要包含4个步骤。
(1)对滑坡编录展开预处理并采集环境因子。
(2)基于频率比联结法来揭示出对滑坡发育具有较大影响的各类基础环境因子,并实现影响程度的定量化表征。
(3)将采用频率比联接法的计算结果和原始数据作为SVM模型的输入变量,进行建模并进一步绘制得到上犹县滑坡易发性图。
(4)基于AUC值开展FR-SVM和单独SVM模型的预测精度评估,以便为易发性建模的进一步改进提供参考。
1.1 频率比分析
滑坡易发性的评价常使用频率比联接法来实现滑坡编录与其环境因子间的非线性联接[16]。其基本思路是通过计算环境因子各子区间对滑坡发育的影响程度来间接实现模型输入变量的确定。频率比FR是滑坡发生地区在整个区域内的平均值,表征环境因子各区间对滑坡发生的相对影响程度。FR>1 时表明该环境因子区间与滑坡相关性较强,则滑坡发生概率较大;FR<1 时表明该环境因子区间与滑坡相关性较弱,滑坡发生概率较小。频率比的计算公式为
(1)
式(1)中:Aj为环境因子在区间内出现滑坡的栅格数;A为研究区内已知崩塌所分布栅格的总数;Bj为环境因子的单元数;B为研究区栅格总数。
考虑不同环境因子Fi,令其所属的区间为Fij;通过不同环境因子的频率比值相加,进而获得该空间位置滑坡灾害L的易发性指数LSI,表达式为
LSI=∑Fij
(2)
1.2 支持向量机
SVM模型是对线性分类器的另一种优化设计标准,也是对多层感知器在线性可分问题上的改进。SVM可利用非线性映射函数将模型输入变量转换成高维变量,以便可以用线性方式来准确地回归拟合高维变量。SVM适用于样本较小、非线性及高维空间问题,可突出其特有的优势且可结合其他机器学习进而联合分析问题中。超平面是模型中使类之间边距达最大值的面,其中,在超平面上的点称为支持向量,而之外的点并不影响构建模型。
基于一组线性可分的向量xi(i=1,2,…,n),其中包括11个环境因子及其对应输出类yi,并通过n维超平面的最大间隙来区分滑坡类别。其表达式为
s.t.yi(ωxi)+b≥1
(3)
式(3)中:||ω||为正常超平面的范数;b为常数。
通过引入拉格朗日函数来解决凸二次优化问题,Lagrange函数表达式为
(4)
式(4)中:λi为拉格朗日乘数。
对于线性不可分离情况,增加松弛变量来控制类别的划分误差。正确分类的约束条件更改为
yi(ωxi)+b≥1
(5)
2 上犹县简介及基础环境因子分析
2.1 上犹县简介
位于江西南部的上犹县总面积约为1 543 km2(图1)。上犹县地形呈东南低西北高的特点,区内有盆地、丘陵和山地3种地貌。同时孕育规模不等的山间盆地,地势低洼,大多沿水系呈带状分布。该区域属于亚热带季风气候,其年均降雨达到1 497 mm。上犹地区毗邻赣江,以章江为主要水系。上犹地区的岩石岩性以岩浆岩岩类、碳酸岩岩类、碎屑岩岩类为主,因地形地貌而异。该区域岩石风化程度严重,断层褶皱发育。以上复杂的地质地貌条件,共同孕育了上犹地区滑坡灾害频发的自然环境。
从上犹县自然资源部门的2015年调查中总共获取滑坡点338个,这些滑坡和潜在滑坡分布的总面积高达8.38 km2,共被划分9 312个滑坡栅格。上犹县南部滑坡相对较少,中上部滑坡相对集中,且滑坡多出现于地势较低处并呈现沿水系分布的特征。滑坡体多为第四纪红色黏土,以牵引式滑坡为主要运动方式,伴有平移式滑坡。滑坡发育特征显示高强度的降雨过程与不合理人类活动是导致滑坡发生的重要外部触发因素。
图1 上犹县高程及滑坡编录Fig.1 The evolution and landslide catalog in Shangyou area
2.2 滑坡数据源及其预测单元划分
滑坡相关数据来源主要包括:①上犹县滑坡的地理位置和边界等编录信息的采集管理;②野外勘察验证的滑坡灾害和环境因子信息;③从中科院对地观测中心免费下载的分辨率为30 m的数字高程模型(digital elevation model,DEM)数据,以便提取地形和水文等基础环境因子;④1∶100 000比例尺的上犹县岩土类型分布图;⑤从中科院对地观测中心免费下载的30 m分辨率的Landsat TM 8遥感影像,用于获取植被、建筑和湿度等地表覆被类型的环境因子。
滑坡易发性预测过程中划分预测单元是一个重要环节,常用的单元划分方式有栅格和自然斜坡[19]。其中自然斜坡单元可在一定程度上较好地表现地质特征,但斜坡提取的自动化程度和准确性较低,导致其在实际应用中受到较多限制。而栅格单元应用范围较广,表达地貌较为通俗且模型计算高效[20]。以往研究表明栅格单元更加适宜在中、小比例尺等地形图中的易发性建模[4,6]。此外栅格尺寸选择也一定程度上影响研究的精准度。根据上犹地区滑坡实际情况和基础数据源选择30 m空间分辨率栅格进行建模分析,因此在GIS软件中研究区内共划分为1 687 179个栅格。
2.3 上犹县基础环境因子选取
基础环境因子和诱发环境因子相互作用导致滑坡的发生[21-22]。通过研究历史滑坡的发育特征、上犹县滑坡易发性的相关文献资料以及上犹县的自然地理特征,选取11个环境因子作为FR-SVM和单独SVM模型的输入变量,如表1所示。这些因子主要有地形、水文、地质和地表覆盖因子等几个类别,以此实现建模评价指标体系的完整构建。
2.3.1 基础环境因子频率比分析
以往研究表明滑坡更易发生于地质环境条件与已知滑坡相似的地区。基础环境因子与滑坡空间分布之间的关系是研究重点,而频率比联接法适用于研究二者之间的非线性相关性[23]。因此频率比联接法被用于分析环境因子对滑坡发育的影响并进一步作为模型输入变量。通过ArcGIS软件,采用自然间断点分级法将连续型的基础环境因子分为5个等级:极高、高、中等、低和极低;岩土岩性因子根据其地层组合性质进行划分,其中岩浆岩通常分布于地壳薄弱、开裂地带,以岩基、岩床、岩脉等不同产状分布于不同地层中;碎屑岩是机械破碎的岩石残余物,分布于地表或接近地表的地层中;碳酸岩的分布与深层断裂有关,主要产于古老地台边缘断裂系及褶皱带内中间地块断裂带;变质岩主要分布在各个地质时期的地壳活动带(如地槽区),在一些侵入体的周围以及断裂带内,也均有变质岩的分布。距水系距离通过对DEM数据进行填洼、流量提取、栅格河网矢量化等操作,得到水系分布;并根据其汇流累积量进行划分。
表1 各环境因子频率比值Table 1 Frequency ratios of various environmental factor
续表
2.3.2 地形地貌因子
从表1和图1可以看出,当高程在122~386 m时,FR >1表明该区域有利于滑坡的发育;当高程高于386 m时,FR均小于或接近于1,表明不利于滑坡的发育。坡向和坡度均由DEM数据提取而来。其中斜坡坡度与滑坡的关系通过坡度FR来表示,斜坡坡向与滑坡的关系通过坡向FR来表示。如表1和图2 (a)所示,当坡度在9.8°~22.8° (约占总栅格百分比48.5%)时,FR>1存在65.5%的滑坡发生在该区域内,表明中等坡度条件下更有利于滑坡的发展。
平面曲率由坡向的坡度计算而来,于水平方向上表述地形的特征情况;剖面曲率由坡度的坡度计算而来,于垂直方向表述斜面斜率的坡度情况,二者从纵横方向上综合反映了地形复杂性[24-25]。地形起伏度在数值上由区域内高程的最大值与最小值之差计算而来,表述区域地形表面的起伏情况。如表1和图2所示,剖面曲率在-0.5~-0.2 m-1和0.1~4.5 m-1范围内和平面曲率在-19.9~18.7 m-1时,其FR >1表明该范围内滑坡较容易FR>1发生;当地形起伏度值处于38.2~94.9 m时,其表明该范围内滑坡较容易发生。
2.3.3 水文环境因子
水系作用于边坡导致其岩土被冲刷、磨蚀的同时碎屑物被搬运带走,导致土层间相对错动。通过GIS软件对DEM数据进行流向分析、洼地判定、填充洼地、汇流分析、河网分析得到水系分布,再进行栅格河网矢量化、缓冲区分析研究区栅格单元距水系距离。MNDWI反映该区域地表的湿度分布特征,可有效反映水体等信息对滑坡发育的影响规律。由表1和图2(e)、图2(f)可以发现,约有68.1%的单元发生于距水系250 m的范围内;MNDWI在0~129时FR >1;在整体上FR值随着MNDWI的增大而逐渐减小,呈负相关表明水系对滑坡分布范围影响有一定限度。
2.3.4 基础地质因子和地表覆盖因子
岩土对滑坡发育至关重要,其是影响基岩的力学性质的内在因素。通过地质调查,上犹县的岩类主要为变质岩、碳酸盐岩以及碎屑岩岩类。位于中部地区和偏南部区域的变质岩类和位于西部地区和北部地区的碳酸盐岩类,其FR均大于1显示这两种岩类是滑坡发育的重要影响因子。NDVI和NDBI综合表明滑坡发育受植被覆盖程度及人类活动的深远影响。表1和图2(g)、图2(h)、图2(i)表明,当NDVI在0.187~0.553时,FR >1;当NDBI值0.419~0.847时,FR >1,表明在该范围内有利于滑坡发育。
图2 上犹县环境因子分析Fig.2 Environmental factor analysis of Shangyou County
3 上犹县滑坡易发性预测建模
3.1 基于FR-SVM模型的滑坡易发性预测
基于2.3节中的滑坡环境因子分析结果,共利用了岩性、距水系距离和地形等等11个环境因子的频率比值作为SVM模型的输入变量。在开展SVM模型的训练之前有必要将所有环境因子的频率比值进行归一化处理,以便提高SVM建模准确性。
模型输入变量为各9 312个滑坡和非滑坡栅格单元,其中滑坡栅格单元是上述已知的滑坡编录信息而非滑坡单元主要通过随机的方式在整个上犹县采集获取。之后在SPSS软件中将上述18 624个滑坡-非滑坡栅格单元随机划分为两部分,一部分是其中的70%用以SVM模型训练,另外一部分是其中的30%用以SVM模型测试。在模型的训练、测试的过程中,在SPSS软件中分别将滑坡、非滑坡栅格单元分别标记为1和0。
将上述训练测试好的SVM模型应用于11个归一化的环境因子频率比值中,即可得到整个上犹县的滑坡易发性空间分布。进一步利用目前最常用的自然间断点分级法来将滑坡易发性分布图分级成极高、高、中等、低和极低5个易发区[4-5]。5个易发区各占总面积的8.95%、13.65%、17.26%、24.07%、36.07%,结果如表2和图3所示。从表2中可知,极高和高易发性分区中约有49.495%为滑坡栅格,而极低易发区中仅有15.08%的滑坡栅格。在上犹县总面积中极高和高滑坡易发区的频率比值占总频率比值的66.81%,可见FR-SVM模型预测的滑坡易发性结果总体而言是准确可信的。
3.2 基于单独SVM模型的滑坡易发性预测
为验证使用频率比法计算SVM模型输入变量的必要性和可行性,利用原始环境因子数据在无频率比分析的基础上再次进行上述建模操作。将3.1节中利用过的9 312个滑坡和随机采集的9 312个非滑坡栅格单元作为单独SVM模型的输入变量,并对单独SVM模型按7∶3的比例进行训练和测试。
将训练测试好的单独SVM模型应用于原始环境因子数据可得到上犹县的滑坡易发性,同样采用自然间断点分级法将易发性分布图划分为极高、高、中等、低、极低5个易发区。5个易发区各占总面积的18.64%、14.2%、13.58%、27.55%、26.04%,结果如表3和图3所示。从表3可知,极高和高易发性区中约有77.62%为滑坡栅格,而极低易发区仅有1.83%的滑坡栅格,显示单独SVM在整体上预测出的上犹县滑坡易发性也具有较高的可靠性。从在单独SVM和FR-SVM模型预测的滑坡易发性中可知,极高和高易发区均较好地涵盖了已知的滑坡栅格信息。
表2 基于FR-SVM模型评价滑坡易发性等级的频率比Table 2 SVM model is used to evaluate the frequency ratio of landslide susceptibility grade
表3 基于单独SVM模型评价滑坡易发性等级的频率比值Table 3 Frequency ratios of landslide susceptibility levels predicted by the single SVM model
4 讨论
4.1 FR-SVM和单独SVM的精度评价
将各模型的训练样本的预测结果值和测试样本的预测结果值(即滑坡易发性指数值)分别按从小到大的顺序排列,依次将其作为滑坡预测的阈值。预测大于或等于该阈值的样本点为滑坡点。预测结果中以正确的滑坡预测点数与滑坡总点数的比值作为纵坐标,称为敏感性;以对应滑坡预测结果错误点数与样本中非滑坡点总数的比值作为横坐标,称为特异性[26]。
通过平滑曲线连接坐标系中的每个点,得到每个模型基于训练集的成功率曲线和基于测试集的测试率曲线,即可组成ROC曲线。而ROC曲线下的面积即AUC表示具体模型预测精度值。AUC越大(其取值范围为0~1)时模型的预测性能越优秀[27]。精度评价结果如图4所示,可以看出,FR-SVM模型预测滑坡易发性的AUC达到0.893,而单独SVM模型的AUC只是0.798。表明FR-SVM模型在描述易发性指数分布方面要优于单独SVM模型,能更加有效反映上犹县滑坡灾害的分布特征和发育规律。
图3 基于FR-SVM模型和单独SVM模型预测得到的易发性发布图Fig.3 Vulnerability distribution graph predicted based on FR-SVM model and individual SVM model
图4 各模型的ROC曲线图Fig.4 ROC curves of all models
4.2 上犹县滑坡易发性图分析
在ArcGIS 10.2软件中对两模型预测的上犹县滑坡易发性图进行对比分析,可知上犹县的滑坡易发性级别和易发性指数等信息与该区域内各种自然环境因子较为吻合。其中上犹县极高和高滑坡易发区主要集中分布在海拔约低于386 m、较低坡度10°~22°、沿着沟谷水系分布、地形起伏度38~100 m、碎屑岩以及人类工程活动较密集的区域。上犹县低和极低滑坡易发区主要分布在海拔约高于500 m、坡度小于10°或大于22°、远离沟谷水系、地形起伏度很低或非常高、变质岩以及人类工程活动较少的区域。在FR-SVM模型预测精度高于单独SVM模型的同时,FR-SVM模型和单独SVM模型计算得到上犹县的极高和高易发区的FR占总FR的百分比均非常高,且通过随机选取并放大研究区内一些典型的极高和高易发区,观察得到FR-SVM模型和单独SVM模型的易发性图中滑坡面均较好地分布于极高和高易发区内,可见两种模型的预测在实际中能够得到验证,预测的滑坡易发性级别分布结果也能得到互相检验。
4.3 频率比联接方法的结果讨论
由图4可知,FR-SVM和单独SVM模型预测滑坡易发性的AUC分别为0.893、0.798,表明FR-SVM模型在描述易发性指数分布方面要优于单独SVM模型。这是因为频率比值很好地将环境因子对滑坡发育的非线性作用规律揭示了出来,初步的将滑坡和其环境因子联接在了一起。用能直观反映滑坡发育特征的输入变量进行模型训练测试,其效果会优于用原始环境因子数据作为模型输入变量。尽管单独SVM的建模流程简单且其效率优于FR-SVM模型,但是显然FR-SVM模型揭示滑坡影响因素和分布规律的工程实用性更强。
5 结论
为了探究基于频率比值的机器学习模型预测滑坡易发性的有效性,以江西上犹县滑坡为例开展易发性建模研究,分别建立基于FR-SVM和单独SVM模型的上犹县滑坡易发性预测模型并得出建模结果。
(1)SVM模型是一种简单、高效且精度较高的滑坡易发性预测模型,且FR-SVM和单独SVM模型均能准确预测出上犹县的滑坡易发性空间分布规律。
(2)通过ROC曲线分析可知FR-SVM模型的AUC远高于单独SVM模型,表明FR-SVM模型在描述易发性指数分布方面要优于单独SVM模型,能有效反映上犹县滑坡发育规律及其发育概率的空间分布。