APP下载

基于数据挖掘技术的地质灾害研究
——以九寨沟7级地震为例

2020-10-24耀

福建质量管理 2020年19期
关键词:决策树泥石流增益

赵 耀

(西南民族大学 四川 成都 610041)

数据挖掘是深层次的分析方法,是现代科学技术之间渗透与融合的必然结果。故通过数据挖掘技术的基本原理,结合地质数据的特点,深入研究数据挖掘技术在地质方面的应用研究,地质条件影响人们的生命财产安全,故地质灾害预测意义重大,利用数据挖掘技术,挖掘出地质灾害有用的信息,可以科学认识地质灾害、了解地质灾情、提高地质灾害意识,为产业合理布局,分区发展,实现区域化、现代化提供地质灾害区划方面的依据。

一、应用现状分析

数据挖掘,又称作知识发现,是从大量数据中挖掘出具有潜在价值信息的过程,为人们的决策提供依据。分类是数据挖掘当中一种常用的方法,建立并使用分类模型,可以将数据划分到某个给定的类别,进而得到有价值的信息。决策树用图形化树型结构的方式表现结果,很直观的呈现可以理解的规则,受到业界的欢迎。尽管今年来数据挖掘技术发展飞速,但是在滑坡地质灾害领域的研究十分有限。本文针对九寨沟县地震后引起的二次地质灾害数据的特点,结合决策树分类方法,并将其应用于泥石流因子的分析,得到有价值的决策信息,用于预测泥石流的危险等级。

评价泥石流危险等级的因子有很多(如最大流动量、雨后堆积物质、覆盖范围、主沟长度、降雨量、地震以及人为破坏等)。不同地区、地貌环境、地质条件的不同导致泥石流的诱因也大大不同。因此要根据当地具体情况对诱发泥石流的危险因子进行针对性分析。

九寨沟地处山区,又处于龙门山地震带,由于板块运动活跃,造成山体不稳定,泥石流等地质灾害频繁。随着信息化发展,相关部门已经建立了信息数据库,积累了大量数据,然而在数据的分析方面还相当欠缺,尚待挖掘数据背后潜藏的有价值的信息。

结合数据挖掘技术的数据采集、数据预处理,通过一定的算法模型进行分析挖掘,找出诱发泥石流的危险因子以及不同因子间的关联性,从而得到泥石流危险等级评价结果。这是当地地质领域目前需要迫切研究的,对于预防具有重要的现实意义。

二、决策树知识框架及算法

决策树是不断地通过一定的规则递归的将数据分类,这一过程直到所有新节点给出的结果一致或足以判断分类。由于决策树算法简单直观,不必处理缺失值、归一化,既可以处理离散值也可以处理连续值等,能够产生易于理解及分析的规则,因而也是业界广泛应用的分类方法。

决策树包含三种常用算法,ID3算法是不断的通过信息增益来选择特征,递归的构建决策树,它只适合处理离散型变量。C4.5算法是对ID3算法的改进,它使用信息增益率(比)来选择特征,可以处理连续型变量。CART基于基尼指数作为属性选择的度量,分为CART回归树和CART分类树,既可以处理离散型又可以处理连续型变量。

本文采用C4.5算法,首先计算得出各个属性的信息增益率,接着比较它们的大小,选择信息增益率最大的属性进行分类。步骤如下:

(一)数据集信息熵

数据集信息熵是所有样本中各种类别出现的不确定性之和。熵越大,随机变量的不确定性就越大。

(二)各属性信息熵

各属性信息熵是一种条件熵,它代表在某种属性的条件下,各种类别出现的不确定性之和。

(三)信息增益

信息增益=数据集信息熵-属性信息熵,它代表信息不确定性变小的程度。

lnfoGain(S,A)=E(S)-EA(S)

(四)计算信息增益率

信息增益比定义为其信息增益与训练数据集关于某一特征的值的熵之比:

三、泥石流危险性评价决策树模型

通过查阅相关文献、实体调研,结合当地实际情况,本文选择最大流动量、雨后堆积物质、覆盖范围、主沟长度作为泥石流危险度评价的4个指标。

本文选取九寨沟县境内24处常年易发生泥石流的研究区域,数据部分来源于九寨沟县相关部门,部分通过网上查阅资料所得。以最大流动量、雨后堆积物质、覆盖范围、主沟长度作为危险因素,将危险等级划分为轻度、中度、高危和极高危4个等级。信息统计情况如下表1。

表1 九寨沟县24处泥石流信息统计情况

相关部门建立了泥石流危险因素评定规定如下表2.

针对表1,以最后的评价结果为决策属性,以各危险因素为条件属性,用1~4级量化的方式代表评价结果,分别代表轻危害、中危害、高危害以及极高危害,针对表2,通过各危险因素评定规定将数据离散化,得到离散化的泥石流信息统计情况.

表2 九寨沟县泥石流危险因素评定规定

根据C4.5算法,求得条件属性最大流动量信息增益率最大,因而选取最大流动量作为决策树的根节点,接着分别对它的4个取值进行分析,当值取4时,评价结果唯一,属于极高危害;当值取3时,雨后堆积物质唯一,选取雨后堆积物质为下一节点,当雨后堆积物质值分别为2,3,4时,决策属性分别为中危害,高危险,高危险。以此类推,逐步构建决策树,直到所有属性分类唯一,实现泥石流危险评价决策树模型的构建。如下图1。

图1 泥石流危险评价决策树模型

四、结束语

本文通过对少量数据构建决策树模型,从而提供了可以进行合理挖掘的模式,得到了一些具有参考价值的结论。在得出这些规则前,首先使用了数据挖掘技术的数据采集、数据预处理(数据离散化),在此基础上,利用决策树相关知识框架,通过C4.5算法构建评价模型。决策树分类模型简单直观,可以很清楚的得到影响泥石流危险程度评价结果的最主要两个因素是最大流动量和雨后堆积物质。

这些结论可以作为分析与预测泥石流的重要参考,具有一定参考价值及应用价值,可以为当地政府、企业以及群众提供针对性强的灾害预警服务,为防灾、减灾提供一定的科学依据。如何在大规模数据集上构造高精确率的决策树,以及构建其他理论与决策树理论相结合的模型尚待进一步研究。

猜你喜欢

决策树泥石流增益
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
泥石流
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
“民谣泥石流”花粥:唱出自己
泥石流
程控增益射频宽带放大器
基于决策树的出租车乘客出行目的识别