APP下载

基于PCA和SVM算法的滑坡稳定性分析研究

2015-04-18蒋廷耀

科技视界 2015年14期
关键词:滑坡稳定性因素

雷 鹏 蒋廷耀

(三峡大学计算机与信息学院,湖北 宜昌 443002)

0 引言

由于滑坡地质条件形成过程、诱发因素的多样性及其变化的随机性和复杂性,导致滑坡运动信息极难预测,加之滑坡动态监测技术的不完整、不成熟和滑坡预报理论的不完善,滑坡灾害严重威胁与危害人民群众的生命财产安全。因而科学、准确的进行滑坡稳定性研究,及时预测预报滑坡对减灾防灾具有重要意义。

从人们意识到滑坡的危害开始,地质学研究人员就一直试图建立一种预报准确、可操作性强的滑坡预报模型[1-6],总结前人的滑坡预报模型的主要类型及对应的预报方法,可把滑坡的预报模型分为定性和定量两大类[7]。

定性分析方法能综合考虑影响边坡稳定性的各种因子,并可快速地对边坡的稳定状况和发展趋势做出综合评价,主要方法有:工程地质分析法、边坡稳定性分析数据库和专家系统法及图解法等。定量分析方法是想通过力学原理对滑坡的稳定性进行分析,但严格地讲,滑坡稳定性分析还没有达到完全的定量这一阶段,目前只能算是一种半定量半定性的分析方法。滑坡稳定性定量分析目前大概可以分成三种方法:解析法,数值方法和概率法。

国内外学者利用多种方法对滑坡稳定性做了研究。例如:意大利学者 Carrara[8]、西班牙学者 Jiménez-Perálvarez[9],利用地理信息系统及空间分析进行过滑坡易发性评价与制图;美国学者Nandi[10]、中国学者李雪平和唐辉明等[11]利用统计模型进行过滑坡易发性评价。但是,这些方法都需要地形、地质、水文和人类工程活动等多种数据,涉及到的评价指标从几个到几十个不等,而要在这众多的评价指标中科学、合理地确定模型评价指标体系是一个非常棘手的问题,也是在许多相关研究中没有解决的关键问题。

1 影响滑坡稳定性的因素分析

影响滑坡稳定性因素有很多,主要包括滑坡岩性、地质结构、软弱地层状况、河流作用等。除此以外,还有岩石风化状况、地面变形情况、降雨、地震、植被覆盖率及人类工程活动等[12]。这些因素综合起来可分为两大类,即内在因素和外在因素。内在因素包括:滑坡岩性,岩土体结构、滑坡软弱地层等。外在因素包括:水文地质条件及降雨,岩石风化状况,地面变形情况,植被覆盖率,地震以及人为因素等。内在因素是主要因素,对滑坡稳定性起决定性作用,它们决定滑坡变形破坏的形式和规模的大小。外在因素则是辅助因素,只有通过内在因素才能对滑坡的稳定性起到促进作用,导致滑坡变形破坏的发生。但是外在因素如果变化频繁,其作用有时不可小视,甚至能成为滑坡破坏的直接原因。

目前所拥有的212组实际滑坡数据,每组数据有24个属性,并运用SVM算法对提取主成分前后的数据进行检验,比较两种数据的算法准确度。本文根据滑坡稳定状况,将滑坡分为三类:滑坡、易滑坡和稳定。

滑坡稳定状态的分类依据现场的影响因素所计算出的稳定系数,按照稳定系数的大小分为四类,结果见表1[13]。

表1 滑坡稳定状况分类

2 PCA和SVM方法介绍

2.1 主成分分析

主成分分析(Principal Component Analysis,PCA)于1933年由Karl.Pension提出的,他是在研究非随机变量引入的,随后Harold Hotelling将此方法推广到随机向量的情形。PCA的主要思想是降维,在保留大部分原始数据信息的前提下,将多个冗余的指标转换为少数几个综合指标,称为主成分[14]。

2.1.1 主成分分析的基本原理

主成分分析是将含有多种指标的问题在准确度不大幅降低的情况下,转化为少数几个关键指标的一种重要的统计方法,它是一种将高维空间运算的问题降低到低维空间中运算的方法,从而简化运算的复杂度,使问题变得简介、直观。提取的少数几个关键指标之间互不相关且包含原有指标大部分的信息。

运用PCA对数据进行降维,不仅降低数据系统的维度,还能使数据的数字特征简化。PCA在对数据简化的同时,还能提供很多数据的特征,比如数据的重心位置,数据变化的最大方向,以及数据点群的分布情况。

2.1.2 主成分分析的主要步骤

PCA有如下五个步骤:

(1)将原始数据标准化;

(2)计算相关系数矩阵;

其中rij(i,j=1,2,…,p)是原始数据变量xi和xj的相关系数,其表达式为

(3)求出特征值和特征向量;

(4)求出每个主成分的贡献率及主成分的累积贡献率;

(5)计算主成分;

PCA不需要附加信息或者先验知识,就能有效地分析和处理不精确、不完整和不一致等各种不完备数据,将含有多种指标的问题在准确度不大幅降低的情况下,转化为少数几个关键指标。它最大的特点是可对数据进行信息约简,获得数据的核心知识,以降低人们对复杂系统的空间认知复杂性,为研究滑坡等复杂系统提供有力工具。

2.2 支持向量机

支持向量机(SVM)是基于VC理论的机器学习方法,是继神经网络之后的新一代学习算法,它利用核函数将原始线性不可分数据转换为高维空间线性可分的数据模式,既能有效地处理非线性数据,又能限制过学习,特别适合于小样本集的数据处理。

SVM两个突出的优点是:一是基于结构风险最小原则,这优于传统的经验风险最小原则;二是通过求解受限的二次型保证了其性能。但同时发现,SVM在对数据处理中的优势也是其劣势所在。假如小样本集合中存在异常点或数据属性众多且相互影响,则对小样本预测的结果会产生很大影响。因为支持向量机不能确定数据中哪些是重要的、核心的,哪些数据是冗余的、干扰的。而PCA所具有的特点正好能够解决这些问题,若将二者相结合应用于滑坡分析,寻找区域滑坡灾害发生的内在规律应该是完全有效的。

3 PCA和SVM在滑坡稳定性分析中的应用

3.1 数据的采集

本文利用了200多组边坡稳定性的实际情况数据。在这些数据中,影响边坡稳定性的因素包括斜坡类型、地层时代、容量、地层倾向、内摩擦角、地震烈度、微地貌、地下水类型、相对河流位置、坡高、坡宽、坡长、坡角、坡向、土地利用、坡面形态、裂隙组数、斜坡结构类型、全风化带深度、土质名称、粘聚力、下伏基岩埋深、伏基岩倾角、伏基岩倾向等,通过计算边坡的稳定系数,按照表1的数据,将滑坡稳定状况分为三类:滑坡、易破坏和稳定。

3.2 数据的标准化

由于24个属性的取值不属于同一个数量级,输入变量差异较大,因此,在建立模型之前,先对输入的数据进行归一化处理,将同一属性的数据归一到-1至1的范围之内。

3.3 PCA 提取主成分

主成分的数目可以根据相关系数矩阵的特征根来判定,而方差是变量数据蕴涵信息的重要判据之一。根据λ值决定主成分数目的准则有三条:

(1)只取λ>1的特征根对应的主成分

取主成分特征值对应的λ值都大于1,这意味着这三个主成分得分的方差都大于1。在实际情况中,可以将方差值减小为0.8,本例正是根据这条准则提取主成分的。

(2)前q个主成分的累计百分比达到80%左右的的λ值对应的主成分

所选取的主成分对应的λ值累计百分比达到80%,这表明目前所选取的主成分信息量已经够了。

(3)根据特征根变化的突变点决定主成分的数量。

运用PCA提取主成分后的数据见表2。

表2 全部解释方差

在表2的初始特征根中,给出了按顺序排列的主成分得分的方差,在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比。由于全部特征根的总和等于变量数目,即有m=∑λi=24,故第一个特征根的方差百分比为λ1/m=3.949/24=16.445%, 第二个特征根的百分比为 λ2/m=2.719/24=11.329%,其余依此类推。然后可以算出方差累计值。

按照上文提及的三个提取主成分的条件,在λ>1的情况下,主成分的累积贡献率只有61.095%,达不到80%左右的条件,故将λ的值减小到0.8,此时主成分的累积贡献率达到79.455%,基本满足前两个条件。而第3个条件,根据特征根变化的突变点决定主成分的数量如图1所示:

图1 特征根数值衰减折线图

为了找出选取的前12个主成分和具体影响因素之间的关系,将各主成分所对的特征向量分别与滑坡影响因素进行相关分析,找出与该主成分相关性最大的影响因素。为了能够准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。相关系数是衡量变量之间相关程度的一个统计量。相关系数的取值范围为[-1,1],用r来表示相关系数,如果大于 0.5,则两个变量相关性很强。现采用Pearson简单相关系数计算变量之间的相关性:

表3是个主成分分别于滑坡影响因素进行相关分析得到的相关系数,与该主成分相关系数大的即可认为是该主成分所对应的影响因素。

表3 主成分与滑坡影响因素相关系数表

由表中Z1,Z2,…… ,Z12为前12个主成分,可以看出第一主成分与内摩擦角、裂隙组数和伏基岩倾角的相关系数为0.868、0.724和0.881,即第一主成分为内摩擦角、裂隙组数和伏基岩倾角有较强的正相关,同理提取的其它9个最强相关的因素为地层年代、容量、相对河流位置、坡高、坡宽、坡角、坡面形态、粘聚力和伏基岩倾向。所以认为这12分影响因素可以代替原始的24个影响因素进行滑坡稳定性的分析。

3.4 SVM核函数的选取

在训练SVM时应该考虑核函数及相关参数对模型性能的影响,这里采用高斯径向基函数(RBF)核函数:

首先利用交叉验证方法寻找最佳的参数C(惩罚因子)和参数σ2(RBF核函数中的方差),选择最佳的参数训练模型。当模型的性能相同时,为了减少计算时间,优先选择惩罚因子C比较小的参数组合,这是因为惩罚因子C越大,最终得到的支持向量数越多,计算量越大。通过实验选择参数后,选取核函数中的参数C=64,RBF核函数中的方差σ2=0.012。

4 结果分析

所拥有的212组数据中,滑坡类型数据有22个,易滑坡类型数据有155个,稳定类型数据有35个。利用5折交叉检验的方式对212组数据分别进行分析。采用5折交叉验证来测试分类结果和验证模型的正确性:将初始数据集随机划分成5个互不相交的子集,即,每个子集的大小基本相同。学习和测试分别进行5次。在第i次迭代,用作测试集,其余的子集都用于训练分类器。取5次迭代正确分类数除以初始数据中的样本总数的平均准确率作为最终评估的结果。

为了与其他预测方法进行对比,实验中采用了相同的样本数量和分析变量,利用Matlab和libsvm支持向量机方法,抽取其中1/5的数据进行预测,其余的数据进行支持向量机模型训练。如此进行5次迭代,得到的提取主成分前后的对比结果如表4和表5所示。

表4 提取主成分前滑坡稳定性分析结果

表5 提取主成分后滑坡稳定性分析结果

将SVM分类算法运用在PCA降维前后,由表4和表5可得到如下结论:

(1)运用PCA提取主成分后滑坡稳定性分析的结果较提取之前有小幅度的上升;

(2)降维前变量之间的关系有24*24=576组,而将为后只有12*12=144组,且提取的12个主成分之间互不相关,从而避免了影响滑坡稳定性的因素之间的相互影响;

(3)运用PCA提取主成分之后,SVM算法在滑坡稳定性分析的精确度只有2.5%的上升,但是在提取12个主成分之后,滑坡监测的工作量将大大降低,运用在滑坡监测的成本也会大幅度减少,这在经济上还是有积极意义的。

5 结论

为了对滑坡稳定性进行分析,并实现实际滑坡预警,运用了PCA和SVM算法对实际采集到的数据进行分析,实验结果证明两种算法结合之后的算法精确度有所提高,可以在判断滑坡的稳定性上得出比较可靠的结论。在条件允许的情况下,可以考虑用多种分类算法来进行综合评价,以减小损失,提高准确度。

[1]曾凡雷.滑坡地质灾害变形预测及同步性预警机制研究[D].河北工程大学,2012.

[2]贺小黑,王思敬,肖锐铧,等.Verhulst滑坡预测预报模型的改进及其应用[J].Rock and Soil Mechanics,2013.

[3]付杰.卡尔曼滤波在滑坡变形预测中的应用研究[D].中国地质大学,2013.

[4]李炯.基于马尔可夫链模型的滑坡位移预测研究[D].中国地质大学,2012.

[5]Khai-Wern L,Tien T L,Lateh H.Landslide hazard mapping of Penang island using probabilistic methods and logistic regression [C]//Imaging Systems and Techniques(IST),2011 IEEE International Conference on.IEEE,2011:273-278.

[6]Gao W.Predication of Landslide Based on Grey System and Evolutionary Artificial Neural Networks[C]//System Science,Engineering Design and Manufacturing Informatization(ICSEM),2010 International Conference on.IEEE,2010,2:64-67.

[7]黄光东.基于智能算法的滑坡稳定性建模与分析[D].北京:中国地质大学,2011.

[8]Carrara A,Pike R J.GIS technology and models for assessing landslide hazard and risk[J].Geomorphology,2008,94(3):257-260.

[9]Jiménez-Perálvarez J D,Irigaray C,El Hamdouni R,et al.Building models for automatic landslide-susceptibility analysis,mapping and validation in ArcGIS[J].Natural hazards,2009,50(3):571-590.

[10]Nandi A,Shakoor A.A GIS-based landslide susceptibility evaluation using bivariate and multivariate statistical analyses[J].Engineering Geology,2010,110(1):11-20.

[11]李雪平,唐辉明.基于 GIS的分组数据 Logistic模型在斜坡稳定性评价中的应用[J].吉林大学学报:地球科学版,2005,35(3):361-365.

[12]黄光东.基于智能算法的滑坡稳定性建模与分析[D].北京:中国地质大学,2011.

[13]郭社锋.基于范例推理的黄土高边坡稳定性评价方法研究[D].西安:长安大学,2006.

[14]张鹏.基于主成分分析的综合评价研究[D].中国优秀硕士学位论文全文数据库,2004.

猜你喜欢

滑坡稳定性因素
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
解石三大因素
非线性中立型变延迟微分方程的长时间稳定性
浅谈公路滑坡治理
半动力系统中闭集的稳定性和极限集映射的连续性
基于Fluent的滑坡入水过程数值模拟
短道速滑运动员非智力因素的培养
模糊微分方程的一致稳定性
一类离散非线性切换系统的稳定性
怎样理解人是战争的决定因素?