信息量支持下SVM模型滑坡灾害易发性评价
2016-09-18安凯强牛瑞卿
安凯强,牛瑞卿
(1.武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079;2.中国地质大学(武汉)地球物理与空间信息学院,武汉 430074)
信息量支持下SVM模型滑坡灾害易发性评价
安凯强1,牛瑞卿2
(1.武汉大学 测绘遥感信息工程国家重点实验室,武汉430079;2.中国地质大学(武汉)地球物理与空间信息学院,武汉430074)
三峡库区是我国滑坡灾害广泛发育的地区之一,滑坡灾害易发性评价对库区的防灾减灾有重要意义。在滑坡灾害易发性指标信息量的基础上,构建了信息量支持下的SVM模型,并对滑坡灾害易发性进行了评价。该模型根据地层岩性、地质构造、坡度、坡向、坡型结构、土地利用类型、水、归一化植被指数,以及上述指标的总信息量,共9类指标组成的数据集进行SVM训练,得到评价模型;运用该评价模型对研究区全区滑坡灾害易发性进行评价,并以模型决策值的零点和突变点确定易发性等级划分标准。并以三峡库区万州主城区为研究区验证模型,研究表明:信息量支持下SVM模型的训练样本精度为81.41%,验证样本精度为91.11%,优于常用的信息量模型,滑坡的高易发区和较高易发区占研究区总面积的47.05%,主要集中在人类工程活动强烈的长江干支流两侧,结果与已知滑坡分布基本一致,表明该模型在研究区具备较好的适用性。
滑坡灾害;信息量;支持向量机;易发性评价;三峡库区
1 研究背景
中国是世界上滑坡灾害最严重的地区之一,全国至少有400多个市、县、区、镇,10 000多个村庄受到滑坡灾害严重侵害,有证可查的滑坡灾害点为41×104多处,总面积为173.52×104km2,占国土总面积的18.10%[1],其中三峡库区是滑坡灾害发育最为集中的地区之一,严重威胁居民的生命财产安全,因而,在研究滑坡灾害发生机理的基础上,进行区域性滑坡灾害易发性评价,对减灾防灾具有重要意义。
目前,滑坡灾害易发性评价模型主要有以下2类:一是基于确定性模型,该方法虽然有明确的物理数学含义,但是需要具备大量详细的地质勘查资料,不适用于较大区域的易发性评价研究[2-3];二是基于统计分析理论,认为具备某些地质因素和非地质因素条件组合,对于滑坡灾害的发生有一定影响,此类方法基于地质类比思想,常用的有信息量法、聚类分析、判别式分析、逻辑回归模型、人工智能模型等。殷坤龙等[4]利用信息量模型对滑坡灾害预测预报进行了深入研究,并取得了较好的结果;彭令等[5]利用逻辑回归模型对三峡库区秭归县境内滑坡进行空间预测,并对易发性指标进行了评价。近年来,滑坡灾害的智能预测和灾害分析逐渐成为新的研究方向之一[6],尤其是Vapnik等[7-8]提出的基于统计学习理论的支持向量机(SVM)算法,采取结构化风险最小和求解受限的二次型保证了支持向量机的性能。支持向量机对样本要求低,预测结果精确,在滑坡灾害空间预测与稳定性评价方面也得到了很广泛的应用[9-11]。
上述单一固定模型对滑坡灾害易发性评价虽然可以取得较好的结果,但存在一定不足。如信息量模型仅对滑坡灾害易发性指标信息熵进行线性叠加求和,BP神经网络模型受收敛性以及掩藏结点个数的制约,结果精度不够稳定。因而不断有学者提出使用多模型耦合进行优化以提高易发性评价精度,如陈玉萍等[12]利用遗传算法优化BP神经网络对陕西长寿沟地区进行了滑坡灾害的预测。
本文在已知滑坡灾害易发性指标信息量的基础上,考虑易发性与各类指标间非线性关系,引入SVM模型对滑坡灾害易发性进行评价。该模型以信息量为载体,考虑了不同诱灾因子在区域地质环境稳定性上的差异性,同时也对信息量计算结果进行良好的训练和分级。以三峡库区滑坡灾害相对集中的重庆市万州区主城区为研究区,利用信息量支持下的SVM模型对滑坡易发性进行研究。
2 模型理论分析
信息量代表着研究区域地质环境差异性因子对于地质灾害稳定性的影响,在进行SVM模型训练时,以不同因素的信息量为基本输入参数,充分考虑了地质环境因子的差异性。因此,本文提出采用信息量-支持向量机的耦合模型进行滑坡灾害易发性评价,其基本步骤如下(见图1):
图1 信息量支持下SVM模型滑坡灾害易发性评价流程Fig.1 Flow chart of the WI(weighted information)- SVM model of landslide susceptibility assessment
(1)对易发性指标进行分类,并计算其信息量。滑坡灾害的发生受到内外地质力作用的影响,大致可以将影响滑坡灾害易发性的指标分为地质作用,主要包括基础地质和工程地质、构造发育状况等;地形作用,主要包括高程、坡度、坡向、地表粗糙度等;水的作用,主要包括降水、地表径流等;人类活动,主要为工程建设;植被状况,主要包括植被发育以及植被种类等。
(2)根据指标信息量曲线突变点确定不同等级划分的临界值。指标等级划分的临界值的确定是进行指标分级的基础,根据指标信息量曲线突变点确定临界值体现了评价单元预测值的相对集中性,也体现了预测单元空间上各等级之间的差异性[13]。
(3)根据步骤(2)得到的分级临界值对各个指标进行分级。由于不同等级的指标对于滑坡灾害发生的影响权值存在差异,因而对指标进行合理的分级、归类合并是提高滑坡灾害易发性评价精度的重要方法之一。
(4)根据步骤(3)得到的分级结果,计算分级指标信息量。
(5)在灾害点500 m缓冲区外选择均匀分布全区的非灾害点,和已有的灾害点的所有指标信息量集合共同组成训练样本集。滑坡周界以外的地质体在稳定状态和滑坡体之间存在一定的差异,因而选择滑坡灾害点一定距离之外的地质体作为非滑坡点样本具备合理性,将灾害点与非灾害点的指标数据进行整合,构建支持向量机训练的样本集合。
(6)利用样本集合进行2类支持向量机模型训练。由滑坡点与非滑坡点和各个指标数据组成的支持向量机训练样本集合中,以1、0标记滑坡状态,1代表滑坡点,0代表非滑坡点。
(7)对研究区进行预测,得到决策值并进行滑坡易发性等级的划分。根据步骤(6)训练得到的模型,对区域评价单元计算决策值,并利用自然断点法进行等级划分。
3 模型应用分析
3.1研究区概况及数据
重庆市万州区位于三峡库区的腹心地段,属于亚热带湿润季风气候,温热多雨,且降雨时空不均,万州主体地貌上属于构造-河流侵蚀地貌,以及低山丘陵剥蚀地貌。万州主城区主要位于万县向斜附近,地层多为近水平产出,且多为顺向坡,受河流冲刷侵蚀作用强烈,可引发后果严重的地质灾害[13]。本文以万州区人类工程活动最为频繁的主城区为研究对象,探究信息量支持下SVM模型对滑坡灾害易发性评价的适用性。
研究数据包括万州区主城区1∶50 000地形图、1∶100 000地质图、1∶100 000滑坡灾害分布图、1∶100 000土地利用类型图以及Landsat8 OLI遥感影像(行号127,列号039,获取时间为2013年2月8日)。其中,1∶100 000滑坡灾害分布数据为点状数据,综合考虑滑坡面积和范围属性,将滑坡点状数据进行空间范围的扩充,使得统计结果更加合理。
研究区灾害点数据为点状数据,并且研究区域较大,因而选择栅格单元作为评价单元,栅格大小为30 m×30 m。研究区内共统计发育的滑坡74个,根据1∶50 000地形图内插生成30 m分辨率DEM,并作为基础数据的控制图层,对已有的数据图层进行配准,使其误差控制在1个像元以内。
3.2模型指标分析
3.2.1工程岩土类型及地质构造
万州区城内出露地层均为沉积岩,除第四系有小片或零星分布外,其余皆为中生界地层。沙溪庙组岩层构成了研究区的主要地层,其岩性为易滑的细砂岩、粉砂岩、粉砂质黏土岩及泥岩等。在天子城、太子城部分区域发育侏罗系上统遂宁组,泥岩、泥质粉砂岩、褐红色粉砂岩不等厚互层,夹紫色细粒长石砂岩。地层的工程岩土性质因成分不同而变化,主体为层状碎屑岩,部分为呈散体状态。研究区内软硬岩互层广泛发育,主要为泥砂岩互层,是该地区区域地质环境不稳定的主要因素之一。
研究区处于万县复向斜核部,北西向发育黄百溪向斜,且研究区河网发育,易受河流侵蚀冲刷,发生地质灾害。部分滑坡点集中发育在万县向斜一定缓冲区内,由研究区构造区域滑坡数量分布和空间分布情况加以修正构造影响范围[14],同时根据第2节中的步骤2,3确定缓冲区距离为<200 m,200~400 m,400~800 m,>800 m的4个不同的2级指标。
3.2.2地形
通过对DEM空间分析,确定坡度、坡向、高程以及斜坡结构4类地形指标。
统计不同坡度内滑坡灾害面积,根据坡度-灾害点信息量分布,发现滑坡点多发育在坡度较小的高程较低的地形中,尤其是集中发育在 坡度10°~40°区间内。在变化较大的区段进行详细划分区段,其他部分可稍微粗略。坡向分布可以由ArcGIS坡度计算模块直接得出统计结果,北向坡发生滑坡的概率相对于其他坡向较大。
三峡地区地形地貌单元的划分与高程之间有着紧密的联系,万州区总体属于构造-侵蚀、剥蚀低山丘陵地貌,地貌形态总体呈台阶状。殷坤龙[15]对万州龙宝区、五桥区实测5个典型阶梯状地形剖面,划分了河流一级阶地120~140 m平台、河流二级阶地140~160 m平台、河流三级阶地175~190 m平台、220~250 m侵蚀平台、陡崖前280~300 m侵蚀平台、以及440~621 m构造剥蚀低山丘陵地带。因此,根据前人研究以及研究区DEM值分布进行如上分级。斜坡结构反映了地层产状与地形的空间关系,王佳佳等[13]根据坡度和地层倾向之间的关系,提出了用坡向与倾向间夹角表示斜坡结构。根据这种表示方法,统计发现,研究区滑坡点多发于坡度0°~45°及90°~162°区间内。
3.2.3水的作用
水对斜坡稳定性的影响主要体现在以下3个方面:水的浸润软化以及冲刷侵蚀作用、地下水静水压力、以及地下水的动水压力。尤其是水的软化冲刷作用,在三峡库区蓄水后体现得尤为明显,不同等级河流受库水位变化影响反应不同,同时其对于滑坡灾害发生的影响范围也不同,滑坡点多集中在距灾害点0~650 m的缓冲区之间。
3.2.4土地利用类型
万州主城区是万州区人类工程建设最为强烈的地区,其中交通建设和房屋建设主要集中在河流的阶地上,并且阶地内地质环境脆弱,人类工程活动使得该地区地质灾害的发生变得频繁。同时,研究区存在部分林牧业用地和农业用地,主要集中在城郊,部分滑坡点发生在其他用地中。
3.2.5归一化植被指数
植被归一化指数(NDVI)可以反映地表植被覆盖情况。植被茂盛区域,由于植被根系对于土壤的固结能力增强,并且有水土保持功效,有利于控制斜坡灾害的发生。王坚[16]通过研究表明经过辐射校正和大气校正之后的遥感影像进行NDVI分析能够更加真实地反映地表植被的发育情况。因此,对Landsat8影像进行辐射校正和大气校正,得到NDVI分析图,灾害点多分布在NDVI值在0~0.6的区域。
3.3相关性分析及信息量计算
考虑的9个一级指标间并非绝对相互独立,而是在空间分布规律上具备一定的相关性,如果只是将各个一级指标信息量进行简单叠加运算,会带来信息冗余度增加,精度降低等问题。因此,对这些指标进行相关性分析。相关性大于0.2的有构造作用与水的作用以及高程、水的作用与高程、NDVI与坡向以及高程、坡度与坡向、坡向与高程5类。由于坡度、坡向都是根据高程数据进行处理分析而来,并且NDVI、河流与高程分布相关性较大,所以综合考虑,去除高程指标。构造作用、水的作用、NDVI、斜坡类型、坡度、坡向、土地利用类型、地层共8个一级指标,37个二级指标共同组成最终的评价体系(见表1)。
3.4信息量-支持向量机模型训练与分类
根据选取的8个一级指标,计算每个评价单元的总信息量,总信息量大于0,说明各级影响因子的线性叠加结果是有利于滑坡灾害发生。反之,则不利于滑坡灾害发生。2类SVM的决策值大于0,说明各级影响因子的非线性组合结果是有利于滑坡灾害发生。反之,则不利于滑坡灾害发生。因此,根据2种方法得到最终总信息量和决策值的零点以及突变点确定易发性的不同等级。
表1 指标分级以及信息量表
在区域内灾害点200 m缓冲区外选取35个非滑坡点。然后在74个滑坡点中随机选取15 765个面状数据,在35个非滑坡点中随机选取4 787个面状数据,共20 552个训练样本,8个一级指标以及计算得到的总信息量共同组成2类SVM模型训练和分类特征集合,即一张20 553×9的二维初始表。
根据总信息量分布直方图,将易发性划分为低易发区(<-1.0)、较低易发区([-1.0,0])、较高易发区((0,2.1])、高易发区(>2.1)4个等级;根据信息量支持下SVM决策值分布直方图,将易发性划分为低易发区(<-1.1)、较低易发区([-1.1,0])、较高易发区((0,1.3])、高易发区(>1.3)4个等级。
图2 两种不同模型易发性评价结果Fig.2 Assessment results of the two landslide susceptibility models
3.5精度评价
为了验证信息量支持下SVM模型对于研究区滑坡灾害空间易发性的有效性和精确性,将图层转化为栅格文件,便于统计分析并且考虑以下3种评价指标:训练样本中滑坡点落入较高易发区与高易发区占总面积或者总栅格个数的比例;训练样本中非滑坡点落入低易发区和较低易发区占总面积或者总栅格个数的比例;城区主要滑坡体面状矢量文件(见图2)落入较高易发区与高易发区占总面积或者总栅格个数的比例。
由表2可知,信息量模型对于训练样本中滑坡点处于较高易发区的比例为57.18%,处于高易发区比例为26.35%,精度高达83.53%。信息量支持下SVM模型对于训练样本中滑坡点处于较高易发性区的比例为47.58%,处于高易发区比例为33.83%,精度为81.41%,该模型将研究区全区47.05%预测为易发性高的区域。
表2 训练样本与验证样本在不同易发性等级区所占比例
但根据表3可知,信息量模型易发性评价的结果将研究区全区56.79%预测为易发性高的区域;根据表2,信息量模型中训练样本中仅有50.52%非滑坡点落入易发性低的区域,而信息量支持下SVM模型中训练样本中有75.21%的非滑坡点落入易发性低的区域。在验证样本的检验中,信息量模型将85.46%滑坡预测为易发性高的区域,而信息量支持下SVM模型将91.11%滑坡预测为易发性高的区域。试验表明,信息量模型与信息量支持下SVM模型在以零点和突变点为易发性等级划分的情况下,均能够对滑坡灾害的空间易发性进行很好的预测,但信息量支持下SVM模型具备相对较高的预测能力和精度。
表3 研究区不同等级滑坡灾害易发性占比例
4 结 论
通过对三峡库区万州城区滑坡灾害应用信息量模型和信息量支持下SVM模型进行易发性评价,得出结论如下:
(1)三峡库区万州城区滑坡灾害易发性高的区域多沿水系分布,表明库水的侧向侵蚀冲刷以及库水位的升降对该地区滑坡稳定性有着深远影响,此外,万州城区是人类工程建设强烈的区域,在建设用地中,多发滑坡灾害,人类工程建设应当充分考虑区域地质环境系统的稳定性与承载力。三峡库区万州城区滑坡灾害多发于易滑的褐红、紫红杂灰黄、灰绿色细砂岩、粉砂岩、粉砂质黏土岩及泥岩沙溪庙组岩层,软硬岩相夹,倾角较小;且构造活动对本地区滑坡灾害的发生具有较强的影响作用。
(2)信息量模型与信息量支持下SVM模型在以信息量值与SVM决策值的零点和突变点为易发性等级划分的情况下,能够对滑坡灾害的空间易发性进行很好的预测,但信息量支持下SVM模型具备相对较高的预测能力和精度,能够对研究区滑坡灾害的易发性进行有效预测。
[1]黄润秋.20世纪以来中国的大型滑坡及其发生机制[J].岩石力学与工程学报,2007,26(3):433-453.
[2]兰恒星,周成虎,王苓涓,等.地理信息系统支持下的滑坡-水文耦合模型研究[J].岩石力学与工程学报,2003,22(8):1309-1314.
[3]王佳佳,殷坤龙,杜娟,等.基于GIS考虑准动态湿度指数的滑坡危险性预测水文-力学耦合模型研究[J].岩石力学与工程学报,2013,32(2):1309-1314.
[4]殷坤龙.滑坡灾害预测预报[M].武汉:中国地质大学出版社,2004:12-26.
[5]彭令,牛瑞卿,陈丽霞.GIS支持下三峡库区秭归县滑坡灾害空间预测[J].地理研究,2010,29(10):1889-1898.
[6]张永兴,文海家,欧 敏.滑坡灾害智能预测理论及其应用[M].北京:科学出版社,2005.
[7]VAPNIK V.Natural of Statistical Learning Theory[M].New York:John Wiley and Sons,1995.
[8]TAX D M J,DUIN R P W.Support Vector Domain Description[J].Pattern Recognition Letters,1999,20(11/12/13):1191-1199.
[10]李秀珍,孔纪明,王成华.多分类支持向量机在滑坡稳定性判识中的应用[J].吉林大学学报·地球科学版,2010,40(3):631-637.
[11]武雪玲,任福,牛瑞卿.斜坡单元支持下的滑坡易发性评价支持向量机模型[J].武汉大学学报,2013,38(12):1499-1503.
[12]陈玉萍,袁志强,周博,等.遗传算法优化BP网络在滑坡灾害预测中的应用研究[J].水文地质工程地质,2012,39(1):114-118.
[13]王佳佳,殷坤龙,肖莉丽.基于GIS和信息量的滑坡灾害易发性评价——以三峡库区万州区为例[J].岩石力学与工程学报,2014,33(4):797-808.
[14]刘雪梅.三峡库区万州区地貌特征及滑坡演化过程研究[D].武汉:中国地质大学,2010.
[15]殷坤龙.三峡库区万州区近水平地层滑坡成因机制与防治工程研究[M].武汉:中国地质大学出版社,2007:1-28.
[16]王坚.滑坡灾害遥感遥测预警理论及方法[M].徐州:中国矿业大学出版社,2010:67-77.
(编辑:陈敏)
(Weighted-Information)-SVM(Support Vector Machine)model was adopted to assess the landslide susceptibility on the basis of entropy and SVM models.The SVM’s training dataset was comprised by the entropy of nine influence factors,including the stratum lithology,the geological structure,the slope gradient,the direction and structure of slope,the land use,the influence of water,and the NDVI (Normalized Difference Vegetation Index),together with the sum of them.The landslide susceptibility of the whole study area was evaluated,and the result of landslide susceptibility was ranked according to the zero value and abrupt change value of the decision value of model.The landslide susceptibility in Wanzhou district was assessed as an example to validate the WI-SVM model.The research result showed that the accuracy of the training dataset was 81.41% and verification dataset 91.11%,superior to commonly used models.Area with high and relatively high susceptibility accounts for 47.05% of the entire area,mainly in the mainstream and tributaries of the Yangtze River with strong human activities.The results are consistent with the distribution of landslides which has been known,indicating that the WI-SVM model has good applicability for the study area.
Landslide Susceptibility Assessment Using Support Vector MachineBased on Weighted-information Model
AN Kai-qiang1,NIU Rui-qing2
(1.State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing, Wuhan University,Wuhan430079,China; 2.Institute of Geophysics and Geomatics, China University of Geosciences,Wuhan430074,China)
Three Gorges Reservoir is one of the landslide disaster-prone areas in China,and it is meaningful to as-sess the landslides susceptibility of Three Gorges Reservoir both for disaster prevention and reduction.The WI
landslide hazards; weighted-information; support vector machine; susceptibility assessment; Three Gorges Reservoir area
2015-04-15;
2015-05-11
国家高技术研究发展计划(863)项目(2012AA121303)
安凯强(1992-),男,河北石家庄人,硕士研究生,研究方向为灾害遥感变化检测与评估,(电话)027-68778880(电子信箱)kaiqiaAN@163.com。
牛瑞卿(1969-),男,河南南阳人,教授,博士,从事3S与地质灾害研究,(电话)027-67883425(电子信箱)rqniu@163.com。
10.11988/ckyyb.201503112016,33(08):47-51,58
P642-23
A
1001-5485(2016)08-0047-05