基于随机森林的滑坡灾害空间预测
2022-07-14郭方民周小莉
郭方民 周小莉
(1.河南理工大学测绘与国土信息工程学院,河南 焦作 454000;2.四川水利职业技术学院,四川 崇州 611231)
1 研究背景
20世纪80年代以来,几乎每年都有大型滑坡灾害发生,且呈现出逐年加重态势。以2020年为例,全国共发生地质灾害7840起,其中滑坡4810起,主要分布在28个省(区、市),其中湖南、江西、四川、浙江、广西、广东为重灾区。频发的滑坡灾害造成了巨大的人员伤亡和财产损失。
目前,滑坡空间预测一般分为确定性预测和非确定性预测。确定性预测通过力学计算模型结合基础地理信息预测滑坡,但只适用于小范围预测。非确定性预测是结合历史滑坡数据与滑坡诱发因子来预测不同尺度区域的滑坡灾害[1]。其中,许石罗[2]利用数据驱动的机器学习方法,建立了单个滑坡和区域范围的滑坡灾害空间预测模型,实现了秭归至巴东段滑坡灾害动态空间预测;姚鑫、谭国焕[3]以香港自然滑坡空间预测为例,采用支持向量机进行滑坡灾害空间预测。
2 研究方法
随机森林模型是一种基于分类回归树的算法,其主要思想是通过自助法抽样从原始训练集中抽取k个样本,且每个样本的样本容量均与原始训练集的大小一致,然后对每个样本分别进行决策树建模,得到k个建模结果,最后利用所有决策树的建模结果,通过投票表决决定最终分类结果[4]。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树[5]。森林中树的数量是一种重要的超参数,通过增加树的数量提高模型性能,但同时会消耗算力。通常决策树算法由信息增益或基尼不纯度作为衡量方式,通过选择在每个节点能产出最佳分隔的特征来组织树。实际应用中,为了避免随机森林参数设置的主观影响,其主要参数一般通过使用scikit-learn中的网格搜索和随机搜索方法进行确定[6]。与传统应用于滑坡易发型评价的机器学习方法相比,随机森林引入了样本和特征的随机抽样,降低了在分类过程中对数据噪声和异常值的敏感性,提高了预测模型的准确率。
3 随机森林空间预测实例分析
3.1 研究区概况
万源市位于四川省东北部,达州市北部,大巴山中段南麓,东邻重庆市城口县,南接达州市宣汉县,西连巴中市平昌、通江县,北与陕西省镇巴县、紫阳县交界,地处川陕渝鄂四省(市)交界处,有“秦川锁钥”之称。万源市地理坐标为东经107°29′3.5″~108°30′34.4″,北纬31°38′56.2″~32°20′18.2″,辖12镇40个乡,373个行政村,总人口598685人,平均人口密度为147.27人/km²,全市区域面积4065.25km²。
3.2 模型建立及精度评价
滑坡空间预测是指对可能发生滑坡的地点展开预测,主要内容包括区域性滑坡预测,即判断滑坡的易发区域。其预测模型需要两类输入变量,一为滑坡诱发要素,例如降雨、高程、坡度、植被覆盖度等。二为滑坡训练样本所需的标签,即需要对研究区目前所有的已探明滑坡进行编录。本次实验选取植被覆盖度、降雨、高程、坡度、坡向等滑坡诱发要素,如表1所示。
表1 滑坡诱发要素来源及提取方法
3.2.1遥感影像预处理
3.2.4预测结果及精度评价
根据经验设定非滑坡块状区域,利用gdal库读取融合后的滑坡诱发要素影像,制作样本集。首先遍历标签影像,分为滑坡隐患区域和非滑坡隐患区域,记录区域内各像素对应行列号,取对应特征集中的降雨量、植被覆盖度、高程、坡度、坡向生成样本集合。实验共获得176170个样本数据,将该样本集按照8∶2比例,分为训练集和测试集。模型通过python实现。根据决策树的不同,测试精度有所不同,如表2所示。随着随机森林中决策树个数的不断增加,随机森林的训练精度不断提高,当决策树个数为20时,训练集精度达到0.998706256,测试集精度达到0.931731589。
利用训练好的随机森林模型,对研究区特征集进行测试,预测结果如图5所示。可以发现由于多山、地势陡峭、降雨量充沛等原因,万源市大面积处于滑坡多发、易发区域,相对而言东部及中部地区由于居住人口多,经过多年来人类的开发保护利用,地势相对平缓,滑坡发生的可能性小。而西部居住人口少,大量地区处于无人居住地带,滑坡等自然灾害发生概率更大。相关职能部门应及时掌握道路、村庄附近的坡体变形情况,加大雨季巡察频率,对于变形明显区域,建立专业设备监测点,有效减少滑坡损失。
图5 随机森林预测结果
4 结论与展望
滑坡预测以滑坡监测点滑坡分布为基础,考虑滑坡的诱发因素,采用随机森林算法研究滑坡空间分布特征。随着随机森林中决策树个数的不断增加,随机森林的训练精度不断提高,当决策树个数为20时,训练集精度达到0.998706256,测试集精度达到0.931731589,满足实际要求。但是由于时间和能力限制,仍有很多问题急需探讨研究。
(1)滑坡是一个动态的复杂系统,滑坡系统的随机性导致预测模型存在许多不确定因素。而文中涉及的模型算法的诱发因素输入、模型结构及参数都是确定性的,而忽视了滑坡系统的随机性和模糊性特征。
(2)文中采用单时相遥感影像对研究区域滑坡空间分布规律进行探究,而忽视了时间维度上的演变过程。未能从时间角度,探讨滑坡地质灾害发生与相关影响因素之间的联系,建立动态滑坡空间演化模型。