基于主元分析和信息量模型的滑坡易发性评价
——以丹凤县为例
2021-08-27田凡凡薛喜成郭有金
田凡凡,薛喜成,郭有金
(西安科技大学 地质与环境学院,陕西 西安 710054)
滑坡易发性评价是滑坡灾害风险管理的基础性工作[1]。众多学者在此方向做了大量的研究工作,并取得了丰硕成果,但也遇到一些亟待解决的难点问题,大致可概括为以下几点:①滑坡属性数据的获取。滑坡属性数据是评价因子选取分析以及评价模型建立的基础支撑。目前获取滑坡属性数据的方法主要有实地调查与影像提取2种。实地调查工作量繁琐,工作精度较差,获取的滑坡属性数据与实际情况有一定差异;影像提取主要借助GIS技术从遥感影像、数字高程模型、地质图等影像中提取滑坡属性数据,提取数据与真实值的偏差受影像精度的影响。②评价因子的选取。评价因子的选取是确定滑坡主要影响因素,舍去无关因素、次要因素以及冗余因素的过程。高效的评价因子可以提高模型运算速率,大大简化评价模型,从而提升预测结果的精度[2]。③评价单元的划分。滑坡易发性评价区划结果是建立在评价单元划分的基础上完成的。评价单元是进行滑坡易发性评价最小的不可分割的单元,不同区域地质环境条件的差异,导致其评价单元的划分方式不同。因此,评价单元选取的合适与否直接影响评价结果的准确性。④评价模型的建立。评价模型的建立是进行区域滑坡易发性评价的核心内容与难点所在,是将各评价因子所提供的离散数据、连续数据经分析计算,揭露评价因子数据与滑坡灾害发生的内在联系,综合来判断区域评价结果[3]。
针对以上难点问题,学者们已经做了大量的研究。例如,于宪煜[4]强调要对评价因子的相关性进行研究,他采用皮尔森相关系数法对初步选取的58个与滑坡发生有关的影响因素进行分析处理,最终确定剩余18个相对独立的影响因素作为评价因子。牛瑞卿等[5]采用遥感理论对初始评价因子进行相关约简处理,剔出了冗余与干扰评价因子,最后得到了主要评价因子。杨盼盼等[6]采用网格单元作为最小评价单元,对西安临潼区滑坡灾害易发性进行预测研究,取得了较可靠的结果。尚慧等[7]根据水文学原理对DEM影像进行斜坡单元划分,并将其用于彭阳县滑坡易发性研究中。Milo Marjanovi等[8]采用多种机器学习算法对塞尔维亚的Fruka Gora区滑坡易发性进行评价。许冲等[9-11]采用多种二元统计学模型对多个区域滑坡进行预测。
上述学者在进行滑坡易发性评价研究时,存在以下2个方面的问题:①针对评价因子的选取,未考虑评价因子之间的相关性,或虽然考虑了因子间相关性,但未考虑因子的冗余度;②将历史滑坡点与滑坡隐患点属性数据统一用作评价因子的选取分析与评价模型的建立,并未考虑在滑坡隐患点判别过程中,可能会因为人的主观认知缺陷,将非滑坡点错误地识别为滑坡隐患点,进而对评价因子的分析与模型的建立形成干扰,最终影响评价结果的准确性。因此,本文分别采用主成分分析法与皮尔森相关系数法对评价因子的冗余问题以及相关性问题进行分析。此外,根据野外实地调查,将研究区滑坡分为历史滑坡与潜在滑坡2类,用历史滑坡数据建立评价模型,用潜在滑坡数据验证评价结果的准确性,进一步提高评价结果的预测精度。
1 研究区概况
丹凤县位于陕西省商洛东部,属亚热带半湿润—季风暖温带气候区,年降雨量为760 mm,多年平均气温13.8 ℃。总面积2 438 km2,区内地貌属秦岭山地,海拔为+385~+2 021 m。区内主要为元古界、泥盆系地层,沉积岩、火山岩及变质岩均有发育。研究区处于秦岭纬向构造带北亚带之南缘,长期在南北应力作用下形成东西向压性断裂为主的构造体系。区内地下水主要类型有松散岩层孔隙水、基岩裂隙水以及岩溶水3类。由于境内山高沟深,坡度陡峻,地质构造复杂,岩体破碎,滑坡时有发生,呈现分布面广、危害性大的特点,开展区内滑坡易发性评价研究势在必行。区内历史滑坡有150处,滑坡隐患有121处。滑坡主要以小型浅层堆积层滑坡为主。研究区所处地理位置以及滑坡分布如图1所示。
图1 研究区地理位置以及滑坡点分布Fig.1 Geographical location and landslide points distribution of the study area
2 信息量模型的建立
2.1 信息量模型的理论基础
信息量模型是通过计算各评价因子对滑坡发生提供的信息量值,作为预测滑坡发生概率的定量指标。在进行滑坡易发性评价预测时,遵循如下基本观点:预测或判断滑坡发生概率与获取的评价因子以及滑坡的数量和质量有关[12],以信息量值为判定标准,信息量计算公式:
(1)
式中,I(Y,x1,x2,…,xn)为评价因子组合x1,x2,…,xn对滑坡发生所提供的信息量值;P(Y,x1,x2,…,xn)为评价因子组合x1,x2,…,xn对滑坡发生的概率。
2.2 信息量模型的建立
信息量模型的实现过程如下:
(1)计算评价因子xi对滑坡发生事件(K)所提供的信息量值I(xi,K):
(2)
式中,P(xi|K)为滑坡发生条件下,出现xi的先验概率;P(xi)为研究区内出现xi的概率。
式(2)求得的信息量值是理论解,而实际中多采用样本的发生频率代替概率来计算信息量值,如式(3):
(3)
式中,Ni为分布在评价因子xi内的滑坡评价单元数;N为滑坡所占评价单元数;Si为包含评价因子xi的评价单元数;S为研究区总评价单元数。
(2)计算评价单元内n类评价因子叠加后对滑坡发生提供的总信息量值:
(4)
(3)某评价单元内滑坡发生的概率值用总信息量指标Ii表示,Ii值越大,代表该单元内滑坡发生概率越大,滑坡易发性越高。
3 评价因子的选取与分析
3.1 评价因子的初步选取
根据丹凤县地质环境条件分析以及区内典型滑坡的详细勘查,初步选取高程、坡度、坡向、曲率、地形起伏度、高程变异系数、地表粗糙度、水系、断层、年降雨量、地层年代、归一化植被指数(Normalized Differential Vegetation Index,NDVI)、河流动能指数(Stream Power Index,SPI)以及地形湿度指数(Topographic Wetness Index,TWI)14类影响因子作为滑坡易发性评价因子。采用ArcGIS技术,分别从数字高程模型(DEM)、1∶5万地质图、遥感影像图等提取各评价因子图层,如图2所示。
图2 滑坡评价因子图层Fig.2 Landslide evaluation factor layer
3.2 评价因子的分析
本文根据野外实地调查,将滑坡分为历史滑坡与滑坡隐患2类,提取滑坡评价因子属性数据,分别建立滑坡属性数据库。将历史滑坡属性数据库作为评价因子分析的基础数据,分别采用主成分分析法与皮尔森相关系数法,分析评价因子的权重大小以及相关性。
3.2.1 主成分分析法
利用主成分分析法求得评价因子权重的实现流程如图3所示。本文利用SPSS数学分析软件主成分分析法对研究区历史滑坡点的14类评价因子属性数据进行分析处理,得到评价因子的解释总方差及权重大小(图4、表1)。
图3 基于主成分分析法的评价因子权重实现流程Fig.3 Implementation process of evaluation factor weight based on principal component analysis
图4 评价因子权重Fig.4 Weight of evaluation factors
表1 评价因子总方差解释Tab.1 Interpretation of the total variance of the evaluation factor
主成分分析法是将多个线性相关的评价因子所构成的特征空间通过数学线性变换的方法进行降维处理,得到含有少数几个各自独立的综合指标的低维空间,这些综合指标被称为主成分。在得到主成分后,通过建立成分矩阵求得各主成分线性组合中的系数的加权平均值,经归一化处理后,可以定量求得各原始变量的权重大小。从表1解释总方差可以看出,初始特征值λi>1的成分有5个,这5个成分的累积方差占总方差的69.06%。因此,可以将这5个成分确定为原始变量的主成分,初始14类评价因子的信息可以综合地利用这5个主成分变量来反映。从图4中可以反映出14类评价因子的权重大小关系,其中TWI、地层年代、坡向、SPI所占权重分别为0.002、0.013、0.029及0.047,权重值均小于0.050。因此,剔除这4类评价因子,对剩余的10类评价因子做进一步处理。
3.2.2 皮尔森相关系数法
皮尔森相关系数法是用来衡量2个变量之间的线性相关程度的,通常用r表示,r的取值为-1~1。当r<0时,表示两变量之间有负相关关系;当r=0时,表示两变量之间无相关性,即变量间独立;当r>0时,表示两变量间有正相关关系。当|r|<0.3时,变量间呈微弱相关;当0.3≤|r|<0.5时,变量间呈低度相关;当0.5≤|r|<0.8时,变量间呈显著相关;当|r|≥0.8时,变量间呈强相关。皮尔森相关系数计算公式如下:
(5)
本文将历史滑坡作为样本点,将以上剩余的10类评价因子作为样本变量。将样本点属性数据代入SPSS软件皮尔森相关性分析工具,得到各影响因素之间的相关性系数见表2。从表2可知,地表粗糙度、高程变异系数、地形起伏度与坡度之间的相关系数r的绝对值大于0.5,呈显著相关或强相关。因此,剔除地表粗糙度、高程变异系数、地形起伏度3类评价因子,最终确定曲率、坡度、高程、至断层距离、年降雨量、至水系距离、NDVI共7类评价因子作为研究区滑坡易发性评价指标。
表2 滑坡评价因子间相关系数Tab.2 Correlation coefficient among landslide evaluation factors
3.3 评价因子指标分级体系的建立
结合研究区滑坡发育特征,对选取的7类滑坡评价因子进行子类划分,建立研究区滑坡评价因子指标分级体系,见表3。
表3 评价因子指标分级体系Tab.3 Correlation coefficient among landslide conditioning factors
4 基于信息量模型的滑坡易发性评价
4.1 评价单元的确定
评价单元的大小由多种因素决定,一般情况下,主要取决于专家系统。本文结合研究区面积、地形地貌以及原始数据等客观情况,选取30 m×30 m的栅格单元作为评价单元。
4.2 评价因子的信息量值计算
根据以下公式计算评价因子的信息量值:
(6)
式中,Ni/Si为评价因子分级内滑坡点的密度;N/S为研究区内滑坡点的平均密度。
本文以丹凤县历史滑坡数据为基础,对各评价因子分级的信息量值进行计算,得到各评价因子分级的信息量值见表3。
4.3 评价结果与分析
采用ArcGIS重分类工具将研究区各评价因子图层划分为不同的分级分区,然后将计算所得的分级信息量值赋值到对应分区,再将各评价因子图层进行栅格叠加计算,生成最终的研究区滑坡综合信息量图层,其信息量值为-5.99~3.11。采用自然间断点法将其划分为5个易发区,分别为极低易发区(-5.99~-2.74)、低易发区(-2.74~-1.39)、中易发区(-1.39~0.24)、高易发区(0.24~0.90)、极高易发区(0.90~3.11),最终得到基于信息量模型的丹凤县滑坡易发性评价区划图,如图5所示。
图5 基于信息量模型的丹凤县滑坡易发性区划Fig.5 Zoning of landslide susceptibility based on information model in Danfeng County
由图5可知,丹凤县滑坡的分布特征如下:①滑坡的极高—高易发区主要分布于丹凤县南部山区,面积为1 177.01 km2,占总面积的48.27%,历史滑坡共发育有121处,占比为80.67%;②滑坡的中易发区面积为618.24 km2,占总面积的25.36%,历史滑坡共发育有24处,占比为16.00%;③滑坡的极低—低易发区主要分布于丹凤县北部山区,面积为642.75 km2,占总面积的26.36%,历史滑坡共发育5处,占比为3.33%。
4.4 评价结果的检验
本文采用滑坡隐患点分布状况对评价结果区划图进行检验。检验结果表明:在121处滑坡隐患点分布中,有93处落入极高—高易发区,占比为76.85%;有23处落入中易发区,占比为19.01%;有5处落入极低—低易发区,占比为4.14%,检验结果较为满意。
此外,针对极低—低易发区分布的5处滑坡隐患点,重点进行了野外实地考察,发现其中有4处滑坡发育特征并不明显,可能存在识别错误。
5 结论
本文以丹凤县滑坡为研究对象,以GIS技术为实现手段,以信息量作为评价模型,开展丹凤县滑坡易发性评价研究。
(1)采用主成分分析法与皮尔森相关系数法对滑坡评价因子的权重以及相关性进行分析,结果表明:① TWI、地层年代、坡向、SPI所占权重分别为0.002、0.013、0.029及0.047,权重值均小于0.050,剔除这4类评价因子;②地表粗糙度、高程变异系数、地形起伏度与坡度之间呈显著相关或强相关,剔除地表粗糙度、高程变异系数、地形起伏度3类评价因子,确定最终评价因子为曲率、坡度、高程、至断层距离、年降雨量、至水系距离、NDVI共7类。
(2)建立信息量模型,利用自然间断点法将丹凤县划分为5个易发区,分别为极低易发区(-5.99~-2.74)、低易发区(-2.74~-1.39)、中易发区(-1.39~0.24)、高易发区(0.24~0.90)、极高易发区(0.90~3.11),生成最终的丹凤县滑坡易发性评价区划图。
(3)丹凤县历史滑坡的分布特征如下:①滑坡的极高—高易发区主要分布于丹凤县南部山区,面积为1 177.01 km2,占总面积的48.27%,历史滑坡共发育有121处,占比为80.67%;②滑坡的中易发区面积为618.24 km2,占总面积的25.36%,历史滑坡共发育有24处,占比为16.00%;③滑坡的极低—低易发区主要分布于丹凤县北部山区,面积为642.75 km2,占总面积的26.36%,历史滑坡共发育5处,占比为3.33%。
(4)采用滑坡隐患点分布状况对评价结果区划图进行检验。检验结果表明:在121处滑坡隐患点分布中,有93处落入极高—高易发区,占比为76.85%;有23处落入中易发区,占比为19.01%;有5处落入极低—低易发区,占比为4.14%,检验结果较为满意。
(5)针对极低—低易发区分布的5处滑坡隐患点,本文重点进行了野外实地考察,发现其中有4处滑坡发育特征并不明显,可能存在识别错误。研究可以为滑坡易发性评价提供一定的参考。