APP下载

基于CART算法的煤与瓦斯突出判别分析

2015-06-27刘年平胡慧慧

中国矿业 2015年6期
关键词:剪枝决策树数据挖掘

刘年平,胡慧慧

(1.西南科技大学环境与资源学院,四川 绵阳 621010;2.西南科技大学固体废物处理与资源化教育部重点实验室,四川 绵阳 621010)

基于CART算法的煤与瓦斯突出判别分析

刘年平1,2,胡慧慧1

(1.西南科技大学环境与资源学院,四川 绵阳 621010;2.西南科技大学固体废物处理与资源化教育部重点实验室,四川 绵阳 621010)

基于分类回归决策树(CART)算法,考虑影响煤与瓦斯突出的主要因素,建立了煤与瓦斯突出判别的CART模型。模型选择瓦斯压力、瓦斯放散初速度、煤的破坏类型、坚固性系数和垂深作为煤与瓦斯突出的判别指标体系,选取国内典型煤与瓦斯突出矿井的突出数据建立模型样本训练库,利用k-折交叉验证方法寻找最优树,并提取优化后的突出规则,最后将提取的规则对实例进行验证。研究表明,该模型简单有效,可以作为煤与瓦斯突出判别分析的一种辅助方法。

煤与瓦斯突出;决策树;CART算法;判别分析

煤与瓦斯突出是一种复杂的动力学现象,严重影响着矿工的生命安全和矿井的生产,目前还无法准确的分析其发生机理。针对这类具有机理复杂、非线性显著等特点的矿井灾害判别问题,一般无法建立准确的数学模型予以分析,因而研究该类危险性判别方法一直是矿井灾害预测的重要方向。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的各种数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。鉴于煤与瓦斯突出的非线性特点和数据挖掘技术的优点,利用数据挖掘方法研究突出规律进而进行突出危险性判别成为一种较为可行的方法,目前研究较多的煤与瓦斯突出数据挖掘方法有神经网络方法[2]、支持向量机方法[3-4]、灰色系统方法[5]、模糊模式识别方法[6]、免疫遗传算法[7]、时间序列方法[8]、可拓方法[9-10]、多元判别法[11]等,这些数据挖掘方法的应用为煤与瓦斯突出判别提供了较好的模型。决策树学习是以客观数据为基础的归纳算法,它采用自顶向下的递归方法,能从一组无次序、无规则的大量数据中获得内含的知识分类规则,不仅能用类似树层的模式形象的表示出所获得的知识,还可以用多个IF-THEN规则的形式表示,具有较高的可读性。有学者对决策树与神经网络做了分类对比,结果发现决策树具有更高的分类准确率[12]。另外,决策树能处理各种类型的数据,尤其擅长处理非数值型数据。决策树方法在在数据挖掘中具有较好的准确性,已在医疗、气象、投资风险等领域有了广泛的应用,但煤矿灾害的判别方面研究较少,本文将决策树方法引入到煤与瓦斯突出的判别中,利用分类回归决策树(Classification And Regression Tree,CART)进行煤与瓦斯突出的危险性判别。

1 CART决策树的工作原理

CART决策树是由Breiman等人提出的一种典型二叉决策树,现已在统计分析中得到了广泛的应用[13]。与其他决策树相比,CART可以同时处理连续变量和分类变量,当目标变量是连续变量,CART生成回归决策树,当目标变量是分类变量时,CART就会生成分类决策树。另外,CART能有效的处理数据样本的非线性问题,不需要对数据样本作特定假设,因此非常适用于解决机理不明确的复杂性问题。CART生成回归决策树要经过建树和剪枝两个主要步骤。

1.1 CART的建树

决策树算法的核心是选取每个结点上要测试的属性,依据不同的属性划分度量方法进行数据纯度的划分,属性的度量方法有多种,如信息增益、信息增益比、基尼指数、χ2统计、G统计、证据权重、最小描述长度、相关度等方法。分类回归树(CART)以Gini(基尼)指数作为属性度量方法, Gini系数定义如式(1)所示。

(1)

式中:p(i|t)为测试变量t属于类i的样本的概率;c为样本的个数。当Gini=0时,所有的样例属于一类。在CART的二元划分中,如果属性满足一定纯度则划分在左子树,否则划分到右子树。假设训练数据集C中的属性A将C划分为C1与C2,则给定划分C的Gini系数为式(2)。

(2)

为了确定划分效果,可以用增益Δ来确定划分效果的标准,增益为父结点不纯度与子结点不纯度的差。增益定义为式(3)。

(3)

式中:I()是给定结点的Gini系数;N是父结点上的记录总数;k是属性值的个数;N(vj)是与子女结点相关联的记录个数。

CART算法在满足下述条件之一时停止建树。①所有叶节点的样本数为1、样本数小于某个给定的最小值或者样本都属于同一类的时候;②决策树的高度达到用户设置的阈值,或者分支后的叶节点中的样本属性都属于同一个类的时候;③当训练数据集中不再有属性向量作为分支选择的时候。

1.2 CART的剪枝

决策树初步建立后,为了提高决策树的准确率和简洁度,需要考虑对树进行剪枝,通过剪枝减少决策树的规模,消除由于噪声或缺乏代表性样本而导致的过分拟合现象。在决策树的剪枝研究中,目前常用的剪枝方法有四种:悲观错误剪枝PEP(Pessimistic Error Pruning)方法、最小错误剪枝MEP(Minimum Error Pruning) 方法、代价-复杂度剪枝CCP(Cost-Complexity Pruning)方法和基于错误剪枝EBP(Error-Based Pruning) 方法。CART采用的是CCP方法,这种方法包括两个过程:自底向上,对原始决策树中的每一次修剪得到一棵树,从而得到一系列的树,包括原始树和只有一个结点的树;评价这些树,根据真实误差率来选择一个最优秀的树作为最后被剪枝的树[13]。决策树建立并剪枝完成后,最后需要采用某种方法对所建立的一系列子树进行评估寻找最优树。本文建模采用k-折交叉验证寻找最优树,当样本数量较少时,该方法可以有效的利用所有可能的数据进行建模与验证,同时剔除了由于数据自身特性带来的过度适应,具有较高的准确性。

1.3 CART的构建步骤

依据上面的分析,设训练样本集L={X1,X2,…,Xn,Y},其中,Xi(i=1,2,…,n)称为属性向量,Y为类别。

1)在根节点T处,搜索数据空间,利用Gini系数找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阀值。

2)用1)中的分裂变量和分裂阀值把根节点分成T1和T2。

3)如果在某个节点Ti处满足上述停止建树条件,则该节点为叶节点,否则转为1)继续建树。

4)利用代价-复杂度剪枝方法对树剪枝,并寻找最优二叉树。

2 应用实例

针对煤与瓦斯突出的特点,参照相关文献研究,选取瓦斯压力、瓦斯放散初速度、煤的破坏类型、坚固性系数和垂深作为煤与瓦斯突出的判别指标,选取国内21个典型突出矿井的煤与瓦斯突出数据建立指标集[14],将突出类型分为突出与不突出两部分,利用CART对煤与瓦斯突出的数据样本进行知识规则的提取,为了在增加有限样本的数据集,采用交叉验证法对样本数据进行划分,建好决策树后,利用提取的规则对未参加训练的其他5个典型样本进行分析以验证该模型的有效性,样本数据见表1。

利用MatLab软件,对CART算法编程构建煤与瓦斯突出数据决策树,利用训练样本所得到的决策树见图1。

表1 煤与瓦斯突出训练样本及测试样本数据

图1 基于CART算法的煤与瓦斯突出决策树

从CART决策树模型中提取的规则如下所示。

规则1:IfΔP≤5.50 andP≤2.15 Then 不突出。

规则2:IfΔP>5.50 andD≤2.00 andP≤2.20 Then 不突出。

规则3:IfΔP≤5.50 andP>2.15 Then 突出。

规则4:IfΔP>5.50 andD>2.00 Then 突出。

规则5:IfΔP>5.50 andD≤2.00 andP>2.20 Then 突出。

《煤矿安全规程》中规定了煤与瓦斯突出单项指标的参考临界值,预测煤层突出危险性的单项指标可用煤的破坏类型、瓦斯放散初速度、煤的坚固性系数和煤层瓦斯压力等,采用该法预测时,各种指标的突出危险临界值应根据矿区实测资料确定,无实测资料时可参考表2,只有当全部指标达到或超过其临界值时才可视该煤层为突出危险煤层。

选取其他典型矿区的煤与瓦斯突出指标数据,利用所建立的决策树模型和单项指标对样本进行判别,判别结果如表3所示。

表2 预测煤与瓦斯突出危险性的单项指标

表3 决策树与单项指标预测结果

由决策规则与预测结果可以看出,利用决策树可以从具有代表性的样本中提取合理的规则,决策树模型的判别结果较为准确,由于这类样本数据能真实的反应突出指标的各种非线性相互作用,该方法能有效的避免专家的知识局限性和判别指标阀值规则制定的主观性,具有很强的实际应用价值。

3 结论

煤与瓦斯突出危险性判别是煤矿灾害防治的核心问题之一,针对突出机理的复杂性,利用分类回归树算法,通过MatLab开发了相应程序,以典型煤与瓦斯突出数据作为训练样本建立了决策树模型。将建立的模型应用在未知判别结果的工程实例中进行验证后发现,决策树模型具有较高的精度,同时还能获取简单的突出规则,为快速准确判别突出提供了一种辅助方法。由于分类回归树的准确性受到样本个数及训练样本数据库的制约,而支持向量机对小样本的预测能量较强,因此在后续的研究中,将重点研究利用随机森林的思想把决策树与支持向量机等数据挖掘方法融合起来进一步提高模型的实用性。

[1] 马国兵,薛安克.数据挖掘技术在运动目标轨迹预测中的应用[J].计算机工程与应用,2004 (11):210-211.

[2] 杨敏,李瑞霞,汪云甲.煤与瓦斯突出的粗神经网络预测模型研究[J].计算机工程与应用,2010,46(6):241-244.

[3] 邵剑生,薛惠锋.基于PSO-SVM的煤与瓦斯突出强度预测模型[J].西华大学学报:自然科学版,2012,31(1):63-66.

[4] 孙玉峰,李中才.支持向量机法在煤与瓦斯突出分析中的应用研究[J].中国安全科学学报,2010,20(1):25-30.

[5] 张大伟,郭立稳,杜通.灰色系统理论在煤与瓦斯预测中的应用[J].河北理工大学学报:自然科学版,2009,31(2):1-5.

[6] 张子戌,刘高峰,吕润生,等.基于模糊模式识别的煤与瓦斯突出区域预测[J].煤炭学报,2007,32(6):592-595.

[7] 朱玉, 张虹,苏成.基于免疫遗传算法的煤与瓦斯突出预测研究[J].中国矿业大学学报,2009,38(1):125-130.

[8] 邓明,张国枢,陈清华.基于瓦斯涌出时间序列的煤与瓦斯突出预报[J].煤炭学报,2010,35(2): 260-263.

[9] 杨玉中,吴立云,高永才.煤与瓦斯突出危险性评价的可拓方法[J].煤炭学报,2010,35(S1):100-104.

[10] 郭德勇,郑茂杰,郭超,等.煤与瓦斯突出预测可拓聚类方法及应用[J].煤炭学报, 2009,34(6):783-787.

[11] 王超,宋大钊,杜学胜,等.煤与瓦斯突出预测的距离判别分析法及应用[J].采矿与安全工程学报,2009,26(4):470-474.

[12] Muhammad A.Razi,Kuriakose Athappilly.A comparative predictive analysis of neural networks,nonlinear regression and classification and regression tree models [J].Expert Systems with Appocatons,2005,(29):65-74.

[13] Breiman L,Friendman J,Olshen R.Classification and regression trees[M].Califomia:Wadsworth Belement,1984.

[14] 肖红飞,何学秋,刘黎明.改进BP算法在煤与瓦斯突出预测中的应用[J].中国安全科学学报,2003,13(9):59-62.

Discriminate analysis of coal and gas outburst based on CART algorithm

LIU Nian-ping1,2,HU Hui-hui1

(1.School of Environment and Resources,Southwest University of Science and Technology,Mianyang 621010,China;2.Ministry of Education Key Laboraory of Solid Waste Treatment and Resource Recycle,Southwest University of Science and Technology,Mianyang 621010,China)

Based on the algorithm of classification and regression tree (CART (Classification And Regression Tree)),a discriminate model of coal and gas outburst was established according to main factors,which are gas pressure,gas initial velocity,destructive type of coal,hard coefficient and depth.Select data of discriminating indexes from typical mines with coal and gas outburst as training data,and find the champion tree by the method of k - fold cross-validated,then extract the optimized rules,at lased,the rules is used to discriminate the coal and gas outburst in the instance.The results show that CART model is a simple and effective method,it can be used in discriminate analysis of coal and gas outburst as a auxiliary method.

coal and gas outburst;decision tree ;CART algorithm;discriminate analysis

2014-08-05

西南科技大学博士研究基金项目资助(编号:12zx7118)

刘年平(1979-),男,讲师,博士,主要从事矿山灾害与防治,灾害预警管理、安全管理方面的工作。E-mail:happyfy2@163.com。

TD713.2

A

1004-4051(2015)06-0128-04

猜你喜欢

剪枝决策树数据挖掘
人到晚年宜“剪枝”
探讨人工智能与数据挖掘发展趋势
基于YOLOv4-Tiny模型剪枝算法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
剪枝
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用