基于支持向量机的滑坡易发性评价
2021-01-22龙岳红周松林
王 倩 ,薛 云,张 维,龙岳红,周松林
(1. 湖南城市学院 市政与测绘工程学院,湖南 益阳 413000;2. 长沙理工大学 交通运输工程学院,长沙 410114;3. 湖南城市学院设计研究院有限公司,湖南 益阳 413000)
滑坡是世界范围内造成经济损失和人员伤亡最严重的地质灾害之一[1].滑坡易发性评价的目的是识别出极易发生滑坡的危险区域,减少滑坡的不利影响[2-3].
目前地质灾害危险性评价常采用层次分析[4]、信息量[5-6]、证据权重[7-8]、趋势面分析[9]、模糊数学[10]、灰色聚类[11]等方法.这些方法都从不同方面反映了地质灾害危险性及其影响因素的不确定性,为地质灾害的防治起到了一定的作用.近年来,随着新理论、新技术发展,许多新模型被应用于滑坡易发性评价中[12-16].支持向量机(SVM)是20 世纪90 年代由Vapnik 提出,建立在统计学习理论基础上的一种新型机器学习算法,在滑坡易发评价中有些成功的应用[17-21].但 SVM 中参数和核函数的选择对SVM 的性能有重要影响.为了研究不同参数及核函数对 SVM 在滑坡易发评价中的影响,本研究应用不同参数及核函数的支持向量机算法进行湖南省靖州县的滑坡易发性评价,以期为 SVM 算法成功应用到滑坡易发评价提供理论依据.
1 研究区概况与数据预处理
1.1 研究区概况
图1 靖州县区位及滑坡点位
靖州县位于湖南省西南边陲(见图1),怀化市南部,湘、黔两省交界地区,具体地理位置为111°16′~112°56′E,26°15′~26°47′N 之间,地处云贵高原东缘斜坡的山岳地带,既多崇山峻岭,又有丘陵,盆地交错,地貌多样.亚热带季风湿润气候,雨量充沛,四季分明,春夏多雨,秋季少雨.县内年平均降水量1 146.3~1 611.4 mm.境内溪河密布,地表水系发育.其大地构造位置为江南地轴雪峰山褶皱隆起带西南端,呈平缓褶曲和排列整齐的北东向构造带的基本地貌,为洪江―黎平中潮大断裂的中南部,断裂发育.境内大面积新构造上升运动和断裂运动均有明显的表现.随着社会经济发展,修建了大量的公路和水利设施,形成了水库密布和渠道纵横,公路四通八达的局面.
1.2 数据及预处理
1.2.1 滑坡现状
滑坡现状数据来源于湖南省地质环境监测总站的实地调查、卫片判译及滑坡历史记录,共发现滑坡102 处及非滑坡点100 处(见图1).随机用70%数据来训练模型,30%数据来验证模型.
1.2.2 滑坡影响因子
根据实地调查及综合分析各影响因子与地质灾害点分布空间位置关系,本文选取坡度、坡向、高度、河流距离、断层距离、公路距离、土地利用和人类活动强度8 个地质灾害影响因子作为地质灾害易发性评价指标.
在地理空间数据云下载 DEM(Digital Elevation Model,数字高程模型),利用DEM 分别提取坡度、高度、坡向等不同条件因子;距河流距离、距道路距离、距断层距离3 个因子是分别用 ArcGIS 对河流、道路、断层做缓冲,根据远近来分级;利用Landsat8 影像对研究区土地覆盖分类,划分4 种不同的土地利用类型;利用武汉珞珈灯光数据,在 ArcGIS 中用自然断点法将人类活动强度划分为4 个不同的等级.具体分级分类结果见表1 和图2.
2 支持向量机概述
图2 滑坡影响因子
支持向量机(SVM)是在统计学习理论的基础上发展起来的一种新型机器学习算法.SVM 通过最优分类超平面,不但能将2 类样本正确分开,而且能使 2 类的分类间隔最大,VC 维最小,从而使真实风险最小.SVM 包括线性支持向量机和非线性支持向量机.在线性可分的情况下,通过求解一个约束条件下的极值问题,然后转化成它的对偶问题,就会得到简化的不等式约束极值问题,最终得到最优分类函数.而在实际分类问题中,分类问题往往是非线性的问题,即理想的分类面是非线性的.对非线性问题,可以通过非线性变换,将非线性问题转化为某个高维空间中的线性问题,在变换后的高维空间中求其最优分类面.支持向量机通过引入核函数巧妙地解决了低维输入空间向高维特征空间映射的问题.常用的核函数主要有:线性核函数、多项式核函数、RBF径向基函数及Sigmoid核函数等.SVM 中有2个参数(c和g)对其性能有重要的影响.c是惩罚系数,是对误差的宽容度,c 越大,越不能容忍出现误差,容易导致过度拟合;反之,容易欠拟合.g 是选择RBF 函数作为核函数后,该函数自带的一个参数,g 越大,支持向量越少,反之越多.支持向量的个数影响训练与预测的速度.
3 结果与讨论
3.1 频率比分析
频率比(Frequency Ratio,FR)是描述灾点与条件因子间关系的一种定量分析方法[22],是各级别灾点数百分比与各级别面积百分比的比值.频率比分析结果见表 1.滑坡在坡度 7°~15°类中 FR值最高(4.27),表明在这一类别中发生滑坡的概率最高,其次是 15°~25°类;在坡向方面,东坡频率比最高(FR 值为1.60),平坡频率比最低(0.00);在高程方面,500~800 m 的频率比最高(1.05),其次是小于500 m(0.98);滑坡与断层、河流、道路距离的关系表明,当与断层、河流或道路的距离增大时,滑坡发生的概率就越小;滑坡发生与地貌频数比表明,植被区的FR 最高值为1.09,居民地为最低值(0.26);在人类活动强度方面,活动弱的地方频率值最高(1.02),在强和较强地区为0.00.
表1 基于频率比模型的滑坡调节因子与滑坡的空间关系
3.2 滑坡易发性制图
1)支持向量机输入.通过 ENVI5.3,将各影响因子图层组合成1 个组合图;在组合图上,将先前选择的102 处滑坡点及100 处非滑坡点进行标注;随机用 70%数据来训练模型,30%数据来验证模型,并导出4 个txt 文件,即滑坡点训练样本、滑坡点测试样本、非滑坡点训练样本及非滑坡点测试样本;将4 个txt 文件和组合图的txt 文件转换为SVM 支持的格式并用于SVM 的输入.
2)支持向量机的参数(c 和g)及核函数.这些参数影响 SVM 的性能,可分别用遗传算法、灰狼算法、模拟退火算法和粒子群算法来优化该参数,其中,粒子群优化算法寻优精度最高(74%),耗时最少(63.5 s),残差最小(0.025 0)(见表2).
表2 智能算法参数优化结果
3)用ENVI5.3 软件和粒子群算法优化后的参数(c=92.79, g=71.61),训练4 种核函数分类器模型:线性核函数分类器(LN-SVM);多项式核函数分类器(PL-SVM);径向基函数分类器(RBF-SVM);Sigmoid 核函数分类器(SIG-SVM).
图3 各模型滑坡易发性指数
4)通过ArcGIS10.0 软件,利用训练好的4 个模型计算滑坡易发性指数(LSI),见图 3.由图 3可知,整个研究区发生滑坡的概率为0~1.其中,LN-SVM 支持向量机为 0.199 6~0.757 5;PL-SVM为 0.131 6~0.787 7;RBF-SVM 为 0.144 4~0.779 2;SIG-SVM 为 0.261 3~0.813 1.
5)使用ArcGIS 中自然间断点分类方法将LSI值划分为高、中、低3 个易发等级,见图4.由图4 可知,LN-SVM 的高、中、低易发等级分别占 37.20%,36.13%和 26.67%;PL-SVM 分别占36.74%,36.22%和 27.04%;RBF-SVM 分别占37.14%,36.21%和 26.65%;SIG-SVM 分别占36.49%,35.69%和27.82%.
3.3 验证与讨论
信息量法由信息理论发展而来,是一种成熟的统计预测方法,其物理意义明确,易建模,实现方便快捷,在地质灾害评价中运用广泛.本文以信息量法与支持向量机算法对比来验证算法的优劣[23-24].采用接收-运行特性曲线(Receiver-Operating Characteristic Curve, ROC)和曲线下面积(Area Under the Curve, AUC)评价比较滑坡模型的性能和预测能力.ROC 曲线是基于敏感性和 1-特异度构建的.AUC 从 0.5 到 1.0 不等,AUC越高的模型越好.本文利用SPSS 制作ROC 曲线,将滑坡点与非滑坡点数据导入SPSS,再进行ROC曲线分析.成功率和预测率由ROC 曲线得出.成功率由滑坡训练数据获得,见图5.由图5 知,LN-SVM,PL-SVM,SIG-SVM 和 RBF-SVM 模型的ROC曲线的AUC值分别为81.53%,82.61%,79.98%和83.12%;信息量法的AUC 值为78.56%.预测率由滑坡的验证数据获得,见图 6.由图 6可知,LN-SVM,PL-SVM,SIG-SVM 和 RBF-SVM模型的 ROC 曲线的 AUC 值分别为 76.89%,77.34%,76.01%和77.87%;信息量法的AUC 值为75.76%.
图4 各模型滑坡易发评价等级
图5 成功率ROC 曲线
图6 预测率ROC 曲线
进一步的,计算各滑坡易发区面积百分比及滑坡数目百分比;同时,用面积百分比与数目百分比的比值计算滑坡易发频率比(FR),见表3.
表3 各模型滑坡易发区域与滑坡点的关系
由表3 可知,4 个支持向量机模型的高易发区滑坡频率比都在 1.5 左右,数值越高,发生滑坡的概率就越大;中易发区滑坡频率比在 1.1 左右;低易发区滑坡频率比在 0.6 左右,其数值最低,滑坡发生的概率最小.
4 结论
滑坡易发性评价是搞好地质灾害防治工作,为政府部门提供决策的关键手段.本研究将支持向量机算法应用到湖南省靖州县的滑坡易发性评价中,结果表明:1)LN-SVM 的高、中、低易发等级分别占37.20%,36.13%和26.67%;PL-SVM分别占36.74%,36.22%和27.04%;RBF-SVM 分别占37.14%,36.21%和26.65%;SIG-SVM 分别占36.49%,35.69%和27.82%.2)4 种支持向量机模型的成功率分别为 83.12%(RBF-SVM),82.61%(PL-SVM),81.53%(LN-SVM)和 79.98%(SIG-SVM);预测率分别为 77.87%(RBF-SVM),77.34%(PL-SVM),76.89%(LN-SVM)和 76.01%(SIG-SVM),而信量法的成功率和预测率分别为78.56%和75.76%.由此证明,支持向量机算法可应用于滑坡易发性评价.