基于BP 神经网络和决策树的昆明市东川区滑坡空间易发性评价
2023-02-20张越宋炜炜
张越,宋炜炜
(昆明理工大学 国土资源工程学院,云南 昆明 650031)
0 引言
滑坡是一种危害性高、易发性难以评估的地质灾害。我国滑坡发生十分频繁,每年由于滑坡导致死亡的人数近百人,直接经济损失达到10亿,云南省昆明市东川区尤为明显,该区域海拔高,地形起伏大,自然环境复杂多变,滑坡灾害经常发生,对国家和个人都造成了严重损失[1]。目前国内外学者常用的滑坡易发性评价模型就是机器学习模型(BP 神经网络、决策树)。在滑坡易发性评价中,机器学习算法客观高效,在滑坡灾害易发性评价中具有良好的适用性[2]。各个国家和地区都开展过或正在开展地质灾害的早期预测工作和减少灾害危害工作,我国在区域滑坡空间易发性分析上取得了很好的成效[3]。武雪玲等[4]通过支持向量机的方式对三峡库区长江干流岸滑坡易发性进行精度预测;郭子正等[5]通过证据权法和BP 神经网络相结合对三峡库区万州区滑坡进行易发性评价。云南省昆明市东川区是滑坡频发地区,2020 年东川区滑坡隐患点153处,潜在经济损失达8 000 万元,精准地对云南省昆明市东川区滑坡进行易发性评价对当地预防灾害发生有重要意义。
本文基于地理信息技术,根据BP 神经网络和决策树算法对云南省昆明市东川区滑坡地区进行研究,进而实现对云南省昆明市东川区滑坡的易发性评价。
1 研究区概况及数据准备
1.1 研究区概况
自然资源部发布最新自然灾害报告,报告显示在2020 年全国共发生地质灾害7 840起,地裂缝143起,地面坍塌183起,崩塌1 797起,山体滑坡4 810起,滑坡占全部地质灾害比例最大。云南省昆明市东川区,坐落于云南省东北部和昆明市最北端,距离昆明150 公里,东川区地处云贵高原北部边缘,境内最高海拔为4 344.1米,最低海拔为695米,最高最低相差3 649.1米[6]。由于地形特殊,海拔差异大,地质构造复杂,在降雨和气温的共同作用下,地质灾害频发,滑坡频繁发生。本文以云南省昆明市东川区为研究区域,对其进行滑坡易发性评价。通过两种机器学习方法(BP 神经网络和决策树)对云南省昆明市东川区滑坡进行研究,进行昆明市东川区滑坡易发性评价,辅助决策部门对滑坡灾害隐患点分级分类管理,针对不同易发性的灾害隐患点进行监控及防控。
1.2 数据准备及评价因子选取
1.2.1 研究区滑坡易发性评价多源数据。基于地质灾害的调查资料和遥感影像以及GIS 工具,建立一个研究区滑坡空间数据集。主要数据来源为:
(1)研究区空间分辨率为30 米的数字高程数据,通过ArcGIS 软件获得高程、坡度、坡向等地形数据。
(2)云南省昆明市行政区图,获得研究区行政区数据。
(3)第三次全国土地调查数据,获得研究区内道路、水系等数据。
(4)东川区滑坡灾害隐患点数据,我国地质灾害管理部门通过多年工作,结合实际灾害发生的历史情况,记录了东川区的滑坡灾害隐患点数据,作为地质灾害监测管理的本底数据,滑坡隐患点为126处,分布情况如图1 所示。
图1 东川区滑坡隐患点图
1.2.2 滑坡易发性评价影响因子。滑坡是在地形地貌、地质、降水以及人为条件共同作用下形成的现象。因此滑坡评价影响因子的选择是在滑坡预测中的关键一步[7]。地形因子能对斜坡进行控制,能在很大程度上决定滑坡发育情况和分布情况,高程、坡度、坡向成为不可缺少的因素。人类活动频繁的区域也是滑坡灾害易发地,道路、水系是诱发地质灾害的重要因素。结合研究区的地质灾害报告相关资料,研究区内滑坡受地形地貌控制,由于斜坡高陡、海拔差异以及人类活动为滑坡的发生提供条件。因此本文选择高程、坡向、坡度、道路、水系5 种影响因子作为东川区滑坡地质灾害发生的评价影响因子。
本文结合每个评价因子的特点,采用多种分级标准,对评价因子进行分级。高程和坡度坡向为连续型因子,道路水系为离散型因子。高程和坡度按照自然间断点方法进行分级,按照方向将坡向进行分级。考虑到人类活动的相关因素,道路按照1 000 米为步长进行分级,水系按照2 000 米为步长进行分级。
2 研究方法
BP 神经网络和决策树模型被广泛地应用在滑坡预测上,S.Lee 等人[8]基于GIS 平台,将统计学和神经网络作为基础对滑坡敏感性进行研究;Rohan Kumar 等[9]基于地势、曲率、坡度角和排水距离等因素采用神经网络进行训练和预测,实现山区滑坡的易发性评价;黄发明等人[10]用决策树模型对江西省寻乌县滑坡进行危险性预测;朱清华[11]基于RF 模型和SVM 模型对陕西省灞桥区地质灾害进行易发性评价。
BP 网络通过训练样本数据,不断修正网络权值和阈值使误差函数沿负梯度方向下降,逼近期望输出。它是一种应用较为广泛的神经网络模型,多用于函数逼近、模型识别分类、数据压缩和时间序列预测等。决策树算法是一种比较典型的预测方法,它是逼近离散函数值的一种算法,决策树预测易于理解和实现,数据准备比较简单,在相对短的时间内能对大型数据源做出可行且良好的效果。
2.1 BP 神经网络
BP 神经网络是一种按照误差逆向传播算法训练的传递非线性函数的前馈型神经网络。BP 神经网络模型的拓扑结构由三部分组成,主要包括输入层、隐含层和输出层,是一种多层前馈神经网络。神经网络中的每个神经元都是相互独立的,不会相互影响,层与层之间通过信号传递建立联系。BP 神经网络有工作阶段和学习阶段两个部分,正向传播信号即为工作阶段,误差反向传播信号即为学习阶段。将信号从输入层输入,再经过隐藏层计算,最后在输出层输出信号的过程被称为正向传播。输出层输出的信号与期望不一样,误差的结果会沿着能减小的方向传播,反复训练来减小误差被称为误差反向传播。
2.2 决策树
决策树模型数据集是由带属性的实例组成,分成两个样本,即训练样本和测试样本。决策树模型从原始节点开始进行测试,会把样本数据划分到不同的样本集里,这些子集就是新的子节点。决策树算法处理的样本属性都为离散性的,而且决策树的结果是否足够好,对于测试属性的选择,修剪节点参考的原则和对树本身的参数控制上都有一定的关系。综上,决策树算法的实现主要包括以下过程。首先,选择训练样本,构造决策树,选择标准的测试属性,按照其标准从上向下搭建决策树的模型。其次,选择测试集样本,进行枝叶修剪,对开始的决策树进行优化,先进行修剪再进行测试和先进行测试在进行修剪视情况而定,遵循一定的原则,其原则是最小描述长度或期望错误率最小原则。决策树算法比较经典,算法复杂度较低,分类速度快,可以用于数据量大的快速检索分类。决策树算法分为两种,包括ID3、C4.5 算法,决策树C4.5 算法是在ID3 算法的基础上优化得来,C4.5 算法比ID3 分类速度和效率上有着明显的提升。
2.3 滑坡易发性评价模型建立
2.3.1 基于BP 神经网络的滑坡空间易发性模型。本文建立了一个3 层的BP 神经网络。该模型以5 个评价影响因子作为输入,所以输入节点数为5,以发生滑坡为输出,输出节点数为1。研究表明,有一个隐层节点的神经网络,只要隐层节点足够多,就可以任意精度逼近一个非线性函数。因此本文建立含有一个隐藏层的多输入单输出的BP 神经网络预测模型。该BP 神经网络由一个输入层、一个隐藏层和一个输出层组成。将筛选出的影响因子作为输入层(x1,…,x5),将识别的滑坡发生概率(y)作为输出层。构建的BP 神经网络结构如图2 所示。
图2 BP 神经网络模型图
2.3.2 基于决策树的滑坡空间易发性模型。决策树模型的建立是将滑坡地质灾害点数据集划分为训练集和测试集,训练集占样本数据的80%,测试集占样本数据的20%。训练数据基于决策树模型进行模型计算。训练样本集大约在20~30 个之间,测试样本集在5~10 个之间,足以包含所有数据分布情况,明显避开了误认为非滑坡区域的问题。最后通过正负样本数据测试集进行模型试验,得到样本最优比例构建的决策树模型如图3 所示。
图3 决策树模型图
3 模型比较
模型精度的验证和比较是对滑坡易发性分区的可靠验证的重要步骤。本文采用了接受者工作特性曲线(ROC)与其下面积(AUC)对BP 神经网络模型和决策数模型进行评估。ROC 曲线广泛地应用于机器学习分类模型的评估,它以敏感度为纵坐标,1-特异性为横坐标[12]。AUC 取值范围为[0,1],AUC 值越大代表分类效果越好,通常认为AUC>0.7,表示分类预测能力较强[13]。本论文使用两种机器学习算法,通过构建BP神经网络和构建决策树来对模型进行训练。两种模型的精度对比,检验模型训练效果的好坏,将精度较高的模型用来进行滑坡易发性评价。本论文通过对模型进行计算,得出BP 神经网络模型预测精度为79%,决策树模型预测精度为85%。图4 和图5 表明决策树模型的正确率(85%)比BP 神经网络模型(79%)更高。结果表明,采用决策树模型对滑坡分布更敏感,预测结果更可靠,进行滑坡灾害易发性评价更好。
图4 BP 神经网络ROC 图
图5 决策树ROC 图
4 滑坡易发性评价
本文将滑坡隐患点数据集划分为训练集和测试集,训练集占样本数据的80%,测试集占样本数据的20%[14]。训练数据基于决策树模型进行模型计算。训练样本集24个,测试样本6个,并提取5 种影响因子的属性值。将整个研究区的属性集带入到决策树模型中,通过ArcGIS 将研究区预测的易发性分为5 个等级,分别对应极低易发区、较低易发区、中等易发区、较高易发区、极高易发区,易发性等级越高越容易发生滑坡灾害,得到了东川区滑坡易发性区划图,如图6 所示,图中共126 个滑坡隐患点,本文预测模型有效地划分出滑坡极高发生区域(易发性等级5)、较高和中等发生区域(易发性等级4、3)、较低和极低发生区域(易发性等级2、1),可以看出易发性极低和较低地区整体以片状分布,易发性极高和较高地区则以集群状分布,符合滑坡的分布特点。研究区内有极高易发性的区域分布在水系和道路密集地区,高程较低处,说明人类活动和地形对滑坡影响很大。本文所建模型能够很好地反映滑坡易发性现状,表明决策树模型对滑坡空间易发性评价是合理的。
图6 东川区滑坡易发性分布图
5 结论
通过对云南省昆明市东川区进行基于BP 神经网络和决策树的滑坡易发性评价,得出以下结论:
(1)通过相关资料和野外考察,选取研究区内的高程、坡度、坡向、道路、水系五个评价因子进行评价,各类因子都对滑坡发育有影响,根据分析,研究区内滑坡主要分布在水系和道路密集地区,高程较低处。
(2)通过ROC 曲线,AUC 值进行模型精度验证与比较,结果显示决策树模型更适用于滑坡易发性评价。决策树模型的精度高于BP 神经网络模型,分区结果更精确,决策树模型对空间易发性评价更合理。
(3)将数据代入构建的决策树模型中,结果显示决策树模型预测分布趋势更符合滑坡分布规律,可通过滑坡易发性结果为防灾减灾提供帮助。