基于ANN和LR的远安县滑坡易发性评价★
2018-08-16闫举生谭建民
闫举生 谭建民
(武汉地质调查中心,湖北 武汉 430205)
0 引言
滑坡危险性分析是滑坡灾害风险评价和管理的基础工作,而易发性评价(Susceptibility Assessment)是滑坡危险性分析的基础,是研究某一特定范围内的所有斜坡体与基础地质环境条件之间的相关性,并分析研究区域滑坡在相对稳定的孕灾环境下发生可能性的大小、在何处可能发生等问题,是对滑坡在区域空间尺度发生的可能性大小进行定量估算的过程。目前,随着大数据和GIS技术的飞速发展和进步,基于GIS平台的滑坡区域易发性评价应用越来越多,其中的空间预测模型也不断丰富,主要有:逻辑回归模型[1]、人工神经网络[2]、支持向量机[3]、证据权[4]、层次分析法[5]等。在以前易发性的工作中,多是基于简单的统计模型进行易发性评价。因此,本文选取了传统的逻辑回归模型(Logistic Regression)和人工智能算法的人工神经网络模型(Artificial Neural Network),并综合考虑多类滑坡易发性指标,通过相关性分析剔除相关性较高的因子,最后得到研究区的滑坡灾害易发性区划图,并利用ROC曲线对两个模型的成功率进行了评价。
1 滑坡易发性模型
1.1 人工神经网络模型
B-P神经网络模型是人工神经网络模型中广泛应用的模型之一。假设神经网络中输入xi,i=1,2,…,n(滑坡易发性分析中的指标因子),ωi表示其对应的权重(每个指标因子的权重),表示每个输入神经元与输出神经元的连接强度。取其特征函数为双曲正切函数,如式(1),式(2):
(1)
(2)
式中:S——激活函数,表示神经元的输入总和;
θ——神经元的阈值;
y——神经元的输出。
1.2 逻辑回归模型
逻辑回归模型(Logistic Regression Model,LR)是滑坡易发性评价应用最广泛地一种数学方法。如果某一事件或现象,其发生的可能性或概率设为P,取值范围为0~1,那么事件不发生的概率则为1-P。当P的取值越接近于0或者1时,P值的变化就很难捕捉,因此需要对P值进行变换[6]。一般取P/(1-P)的自然对数,即用ln(P/(1-P))对P的变化进行量度。将P进行Logit变换,记为LogitP,此时LogitP变化范围就为(-∞,+∞)。若有:
LogitP=Z
(3)
(4)
其中,Z=β0+β1I1j+β2I2j+L+βnInj+ε,则代入式(4)中得:
(5)
其中,Z为事件的效用函数,表达为自变量I1j,I2j,L,Inj(j为各个自变量的状态分级序列)的线性组合,βn为变量Inj的估计参数。模型中βn是逻辑回归系数,ε是常数。那么:
(6)
其中,如果β是正数,则eβ>1,该指标因子与滑坡发生呈正相关关系,如果β是负数,则eβ在0~1之间。
2 研究区概况
远安县位于湖北省鄂西山区,属宜昌市辖区。地势西高东低,范围为东径110°13′~111°55′,北纬30°52′~31°22′。全区县域总面积1 752 km2,东邻荆门市,西、西南和宜昌市夷陵区接壤,北邻南漳、保康。远安县属长江中游亚热带湿润季风气候,具有气候宜人、四季分明的特点。县区大的地质构造自西向东分别为黄陵背斜、石桥坪向斜、远安地堑和当阳向斜。境内地层自前震旦系至第四系(除第三系外)均有出露,地层分布自西向东由老渐新。
远安县地处鄂西山区,在地形地貌、地层岩性、地质构造、水文气象等自然环境和采矿、修路等人类活动作用下,县内滑坡、崩塌等地质灾害广泛发育,严重威胁着人类生命财产安全。其中,滑坡是远安县最主要的地质灾害,全县有滑坡177处,占灾害点总数的62.11%。
3 指标因子选取与相关性分析
单元网格的划分是否恰当,对地质灾害易发性评价结果的可靠性影响较大,也影响着评价过程中各因素获取的难易程度。小比例尺如1∶5万以下,一般采用栅格单元进行滑坡易发性评价。结合远安县地形地貌,以及该县有5%的滑坡规模小于0.01×104m3,本文采用10 m×10 m分辨率的栅格作为滑坡易发性评价的基本单元,统计得该县共计有17 462 719个栅格单元。
滑坡受斜坡地质条件与环境因素共同影响,因此,本文基于收集到的资料选取了9个指标因子:高程、坡度、坡向、地层岩性、斜坡结构、断层距离、水系距离、地形湿度指数、公路距离(如图1所示)。
影响滑坡形成的各个指标因子之间存在一定的相关性,因此,必须对因子进行处理,以减少因子之间的叠加影响。本文利用SPSS软件对各致灾因子进行了相关性分析(如表1所示),相关性系数大于0.5,表明因子间相关性较强。高程与水系为0.54,两者相关性较高,为确定该剔除某个因子,通过其他因子间的相关性确定除坡度和高程的相关性系数为0.31外,其他因子间的相关性系数均小于0.3,确定在该研究区,若相关性系数大于0.3,则排除共同相关的因子。故在滑坡易发性评价的指标中去除高程,选择剩下的8类指标因子。
表1 指标因子相关性分析表
4 滑坡易发性评价结果
4.1 基于人工神经网络模型的滑坡易发性评价
利用SPSS Modeler软件内置的人工神经网络模块,将提取的数据导入软件,神经网络模型设置为多层传感器,终止规则为是否能进一步降低误差。运行软件得到两层神经网络模型,隐藏层有12个神经元。
将模型计算得到的每个栅格的滑坡易发性指数值导入ArcGIS,然后利用自然断点分级法,进行滑坡易发性的划分,将研究区分为5个等级,从而得到基于人工神经网络的滑坡易发性区划图(见图2a))。
4.2 基于逻辑回归的滑坡易发性评价
利用ArcGIS栅格转点工具,提取出各个指标因子每个栅格值,得到17 462 719×9的数据矩阵,其中包含57 311个滑坡点,加上随机提取的等量非滑坡点,得到114 622×9的数据矩阵作为样本数据。将数据{Y,X1j,…,X8j}导入SPSS Modeler数据处理软件得到逻辑回归方程为:
Y=-0.04X1j+0.024X2j+0.057X3j-0.121X4j+
0.345X5j-0.489X6j-0.40X7j-0.583X8j+1.324
(7)
其中,Y为滑坡易发性指数;X1j,…,X8j均为自变量,即各致灾指标因子。
将该回归方程代入总数据矩阵中计算得到每个栅格点的易发性指数,进行归一化处理。利用自然断点分级法,将易发性指数分为5个等级,从而得到基于逻辑回归的滑坡易发性分布图(见图2b))。
5 评价结果和精度分析
5.1 评价结果分析
根据基于人工神经网络模型和逻辑回归的滑坡易发性评价区划图,可以得到,虽然两个模型的结果存在一定的差异,但区划结果的基本趋势相同。研究区极高易发区和高易发区主要分布在东部软硬相间的碎屑岩地区,极低易发区主要为中部地势平坦的区域,滑坡发生的可能性较小。西部地势相对复杂,在水系、构造发育,地层岩性为软硬相间的碎屑岩类的区域分布有极高和高易发区,而在相对平坦,水系、构造相对不发育,出露其他岩性的地区,则主要为极低、低和中易发区。
5.2 精度分析
为了评价两个模型在滑坡易发性评价中的精度,本文采用了ROC曲线对评价结果进行成功率分析,在滑坡易发性评价中ROC曲线即易发区面积百分比累加与实际滑坡面积百分比累加形成的曲线[7](如图3所示)。其中,AUC值为曲线下的面积,代表了成功率的大小。AUC值越接近于1,代表该模型的预测成功率越高,预测效果越好。根据图3可以得到,ANN模型和LR模型的AUC值分别为0.864和0.809,说明人工神经网络模型在该研究区具有更好的预测能力。
6 结语
本文在通过实地调查收集到大量数据的基础下,利用人工神经模型和逻辑回归模型对湖北远安县进行了滑坡易发性评价,得到了以下主要结论:
1)研究区因子间相关性系数大于0.3的因子,应排除共同相关性较高的因子。
2)根据易发性区划图得到,极高和高易发区主要分布在研究区东部软硬相间的碎屑岩地区;研究区中部地势相对较为平坦,主要为极低和低易发区;研究区西部地质环境复杂,从极低到极高易发区均有分布,但极高和高易发区主要分布在地层岩性为软硬相间的碎屑岩类,以及近水系和断层的区域。结果与历史滑坡灾害点分布相对一致。
3)利用ROC曲线,得到人工神经网络和逻辑回归模型的AUC值分别为0.864和0.809,说明人工神经网络模型在该研究区的预测能力更好。相对于较为原始的逻辑回归型的机器学习模型,更为现代化的神经网络型的人工智能模型具有更好的预测能力。