APP下载

基于C4.5决策树算法的土质边坡稳定性评价研究

2015-01-03綦春明聂春龙

长江科学院院报 2015年12期
关键词:土质决策树正确率

胡 杰,綦春明,孙 冰,聂春龙

(南华大学城市建设学院,湖南衡阳 421001)

基于C4.5决策树算法的土质边坡稳定性评价研究

胡 杰,綦春明,孙 冰,聂春龙

(南华大学城市建设学院,湖南衡阳 421001)

采用神经网络进行土质边坡稳定性评价时,差异性较大的训练样本往往会使评价结果不太理想。针对这一问题引入C4.5决策树算法,采用多个土质边坡工程的实测数据,运用信息增益率进行分类属性的选择,并对建立好的树体结构进行剪枝操作,建立基于决策树的土质边坡稳定性评价模型。将该模型与BP神经网络和LVQ(Learning Vector Quantization,学习向量量化)神经网络进行对比分析,结果显示决策树模型分类正确率最高,达到90%,模型所用时间为2.24 s,表明把决策树用于土质边坡稳定性评价是合理的。

土质边坡;稳定性预测;决策树;BP神经网络;LVQ神经网络

2015,32(12):82-86

1 研究背景

边坡稳定性是指边坡岩体、土体在一定坡高和坡角等条件下的稳定程度。无论是人工边坡还是天然边坡,由于地质作用和人类活动,其一直处于不断运动变化之中,常通过发生崩塌和滑坡的形式导致工程灾害。

土质边坡与岩质边坡不同,土质边坡的变形主要受土体抗剪强度的控制,其稳定性分析以定量指标为主。土质边坡稳定性分析的方法很多,不同的方法从不同的角度对此进行了分析,如离散元从离散块体的角度进行应力和位移的计算,而极限平衡法仅从考虑变形破坏的极限状态进行分析[1]。近年来,随着新方法的不断引入,如神经网络[2-3]、上限分析法[4-5]、强度折减法[6]等,为边坡稳定性评价提供了新的途径。由于边坡稳定性问题是很复杂的非线性问题,确定性计算很难准确地概括其复杂性。而大多神经网络,如LVQ神经网络,数据的差异性往往会给网络的评价结果带来很大的影响。因此建立一个泛化性能好,对数据要求不高的土质边坡稳定性评价模型具有重要的意义。

决策树学习是以示例为基础的归纳学习方法,它起源于概念学习系统CLS[7],其在分类[8]、预测[9]、数据挖掘[10-11]等领域有着极为广泛的应用。本文在C4.5决策树的基础上,针对土质边坡的特点选取评价指标,用工程实例样本进行训练,从而实现对土质边坡稳定性的评价。

2 决策树分类算法

2.1 决策树的基本思想

决策树模型通过建立好的树体结构对样本数据进行分类。它的每一个非叶子节点包含属性测试条件,用以区分具有不同特征的属性,然后根据测试结果选择适当的分支。从根节点到非叶子节点,再到最终决定分类的叶子节点,决策树分类采用自顶而下的递归模式,这个过程在以新的节点为根的子树上重复[12]。

2.2 决策树算法的选择

本文选取C4.5决策树算法建立模型。相比应用较为广泛的ID3算法,C4.5算法对固有属性划分的评估标准进行了修改,引入了信息增益率的概念,从而很好地解决了ID3算法中用信息增益进行属性选择时偏向于选择具有较多不同值属性的问题[13]。信息增益率(gain ratio)的计算为:

其中:

式中:Split Information(S,A)为分裂信息量;Gain(S,A)为信息增益;Entropy(S)为熵;S为样本所属集合;A为集合中样本的属性;Si,Sv分别为集合S在属性A上值为i,v的子集;pi为子集中第i个属性值的样本数占总样本数的比例。

此外,C4.5算法针对决策树容易产生的过拟合问题提出了剪枝的思想,通过合理减少决策树的规模提高其泛化能力,从而提高其对测试样本的分类准确率。

3 基于决策树的土质边坡稳定性预测模型的建立

3.1 评价指标的选择

影响边坡稳定性的因素很多,包括地形地貌、土体特征、水文地质条件和人类活动等等。考虑到外部因素对边坡稳定性的影响具有很强的随机性,本文对该因素不作考虑,仅考虑边坡本身的物理力学性质和几何因素的影响。

土体土力学指标主要是土体重度、黏聚力、内摩擦角、孔隙压力比[2]。这些指标都反映了边坡土体本身的物理力学性质。而边坡作为自然存在的三维实体,其高度和形状(形状主要由坡角来反映)也会影响其自身的稳定性。最终选择土体重度、黏聚力、内摩擦角、边坡角、坡高、孔隙压力比6个因素作为评价指标。

3.2 模型的建立与结果评价

考虑到单个工程实测数据较少,且为体现模型的通用性,按下列原则从文献[2]和文献[14-17]的多个实际工程中选择边坡样本:

(1)选取上述文献中相互间差异性较为明显的边坡。

(2)适当减少相同特性的样本数,避免特征相同的样本数比例过大,造成所谓的“过拟合问题”[2]。

最终选择总样本80个,其中破坏边坡34个,稳定边坡46个。

若总样本中训练样本比例过小,测试样本比例过大,会使模型不能得到充分训练,从而导致分类正确率过低;反之,则不足以证明评价方法的稳定性。根据文献[18]所介绍的经验风险最小化理论及小样本分类的结构风险最小化理论,最终确定训练样本数目为70,测试样本数目为10。数目确定后,训练样本和测试样本分别从总样本中随机抽取。部分样本见表1。

表1 部分边坡样本的物理力学参数Table 1 Physical and mechanical parameters of partial samples for stability evaluation of slope

运用MatLab R2012b,建立C4.5决策树模型。步骤如下:

(1)将70个训练样本根据第一个属性(即土体重度)的值进行排序。

(2)按照排好的顺序,逐个将位置相邻且处于不同分类的样本属性平均值作为候选划分点。

(3)计算每个候选划分点的信息增益率,选择最大信息增益率的点作为划分点。

(4)重复步骤(1)—(3),直至确定所有属性划分点。

(5)比较各属性划分点的信息增益率,将具有最大信息增益率的属性作为决策树的根结点,其余结点按信息增益率的值从大到小依次作为上一节点的子节点。如果某一结点所包含的所有样本均属于同一类,则将其子结点标记为叶子节点。

(6)按照步骤(5)的顺序递归建树,直至训练集样本中每一个样例都被分类。从而得到完整决策树结构。

(7)对建好的决策树进行剪枝操作。

根据上述步骤,建立好的决策树结构如图1(a)所示。图中用三角形表示的是非叶子节点,其上的字母和不等式是所选属性的编号和其满足的条件;用实心圆表示的是叶子节点,其数字是根据此决策树的分类结果,1表示破坏,2表示稳定。

在随机选择的10个测试样本中,有7个边坡稳定,3个边坡破坏。对应的训练样本中,有39个边坡稳定,31个边坡破坏。其中稳定边坡中6个分类正确,1个分类错误;破坏边坡全部分类正确。分类正确率为90%,模型具有较好的分类效果。

剪枝后的决策树结构见图1(b)。相比图1(a)可以看出,决策树在结构上有一定简化。由所调试模型看,剪枝后的决策树结构比剪枝前的结构交叉验证误差略低。因为决策树大多情况属于过拟合状态,对训练样本本身具有较高的分类正确率,但是对相对独立的测试样本而言,分类正确率往往会较低。经剪枝后的决策树结构能减缓树体的过拟合状态,从而提高模型的泛化能力。

图1 剪枝前、后的决策树结构Fig.1 Structures of decision tree before and after pruning

4 与其他分类方法的比较

为了证明模型的适用性,将之与BP神经网络和LVQ神经网络进行比较。作为应用最为广泛的神经网络,BP神经网络具有通用性好,分类速度快等优点。而LVQ(学习向量量化)神经网络具有结构简单,且无需对数据进行预处理等优势。2种算法在分类等领域都有极为广泛的应用。

设BP神经网络目标误差为1.0×10-4,按经验公式选择隐含层节点数为13,采用与上一节决策树模型相同的训练样本和测试样本,经6次迭代达到目标误差。在10个测试样本中,有4个分类错误,分类正确率为60%。模型运行时间为1.509 723 s。

设LVQ神经网络目标误差为0.1,最大训练步数为1 000,按经验公式选择竞争层神经元数为20,同样采用与上一节决策树模型相同的训练样本和测试样本,经训练,模型无法收敛,达到最大训练步数而中止训练。将目标误差设定为0.26,其余参数不变,经训练,模型经64次迭代达到目标误差。在10个测试样本中,有2个分类错误,分类正确率为80%,模型运行时间为55.439 322 s。详见表2。

表2 3种算法比较Table 2 Comparison among three algorithms

由表2可以看出,单从分类正确率比较,决策树的分类正确率最高。单从模型运行时间考虑,BP神经网络所需的时间最短。BP神经网络虽然运行和训练所用时间少,且模型通用性较好,但是其分类准确率并不能很好地满足实际工程要求;LVQ神经网络的分类准确率较高,但是其模型运行时间太长、模型不易收敛及通用性差等缺点也限制了其在边坡稳定性预测领域的应用。显然,综合考虑认为决策树分类模型是比较合理的。

5 结 语

本文探讨了决策树模型在土质边坡稳定性预测中的应用。以多个工程的实例样本为基础建立了C4.5决策树模型,并与BP模型和LVQ模型进行对比。结果表明,该模型具有分类正确率高、通用性强且推理过程简单明了的优点。因此将该模型应用于实际边坡工程是可行的。

该模型同时也有一些不足。一方面是决策树本身的缺点决定了其信息增益的结果偏向于那些具有更多数值的特征;另一方面,评价指标选择的局限性也使得模型与边坡的实际情况有一定差别。克服这些缺点是笔者下一步努力的方向。

参考文献:

[1]冯夏庭.智能岩石力学导论[M].北京:科学出版社,2000.(FENG Xia-ting.Introduction to Intelligent Rock Mechanics[M].Beijing:Science Press,2000.(in Chinese))

[2]陈乐求,彭振斌,陈 伟,等.基于模糊控制的人工神经网络模拟在土质边坡安全预测中的应用[J].中南大学学报(自然科学版),2009,40(5):1381-1387.(CHEN Le-qiu,PENG Zhen-bin,CHEN Wei,et al.Artificial Neural Network Simulation on Prediction of Clay Slope Stability Based on Fuzzy Controller[J].Journal of Central South University(Science and Technology),2009,40(5):1381-1387.(in Chinese))

[3]姜德义,李光扬,谢世平,等.基于神经网络法预测重庆高速公路边坡稳定性[J].地下空间与工程学报,2008,4(1):152-156.(JIANG De-yi,LI Guang-yang,XIE Shi-ping,et al.Forecast of Expressway Slope Stability in Chongqing Area Based on the Neural Network[J].Chinese Journal of Underground Space and Engineering,2008,4(1):152-156.(in Chinese))

[4]胡 军,钟 龙,杨昕光.基于水平条分任意滑动面的边坡稳定性分析上限法[J].土木工程学报,2013,46(6):117-121.(HU Jun,ZHONG Long,YANG Xin-guang.Upper Bound Approach for Slope Stability Analysis Based on Arbitrary Sliding Surface and Horizontal Slices[J].China Civil Engineering Journal,2013,46(6):117-121.(in Chinese))

[5]王根龙,伍法权,张军慧.非均质土坡稳定性分析评价的刚体单元上限法[J].岩石力学与工程学报,2008,27(增2):3425-3430.(WANG Gen-long,WU Fa-quan,ZHANG Jun-hui.Upper Bound Approach of Rigid Elements for Inhomogeneous Soil Slope Stability Analysis[J].Chinese Journal of Rock Mechanics and Engineering,2008,27(Sup.2):3425-3430.(in Chinese))

[6]刘海波,刘玉丽,林大超,等.基于Bishop法基础上的土质边坡有限元强度折减法的适用性探讨[J].公路,2010,(3):15-18.(LIU Hai-bo,LIU Yu-li,LIN Dachao,et al.Discussion About Applicability of Strength Reduction FEM Method of Soil Slope Based on Bishop Method[J].Highway,2010,(3):15-18.(in Chinese))

[7]BRUNER J R,GOODNOW J J,AUSTIN G A.A Study of Thinking[M].New York:John Wiley&Sons,1957:98-120.

[8]何 诚,董志海,张思玉,等.基于决策树系统的遥感植被分类技术[J].测绘科学,2014,39(1):83-86.(HE Cheng,DONG Zhi-hai,ZHANG Si-yu,et al.Vegetation Classification Technology of Hyperspectral Remote Sensing Based on Decision Tree Tool[J].Science of Surveying and Mapping,2014,39(1):83-86.(in Chinese))

[9]崔珂瑾,程昌秀,李晓岚.基于决策树的耕地转建设用地分析与预测——以北京房山区为例[J].地理与地理信息科学,2014,30(1):60-64.(CUI Ke-jin,CHENG Chang-xiu,LI Xiao-lan.Analysis and Forecast of Land Change from Cultivated Land to Construction Land Based on Decision Trees:A Case Study of Fangshan District,Beijing[J].Geography and Geo-Information Science,2014,30(1):60-64.(in Chinese))

[10]李 楠,段隆振,陈 萌.决策树C4.5算法在数据挖掘中的分析及其应用[J].计算机与现代化,2008,(12):160-163.(LI Nan,DUAN Long-zhen,CHEN Meng.Research and Application of Data Mining Algorithm Based on Decision Tree[J].Computer and Modernization,2008,(12):160-163.(in Chinese))

[11]陈辉林,夏道勋.基于CART决策树数据挖掘算法的应用研究[J].煤炭技术,2011,30(10):164-166.(CHEN Hui-lin,XIA Dao-xun.Applied Research on Data Mining Based on CART Decision Tree Algorithm[J].Coal Technology,2011,30(10):164-166.(in Chinese))

[12]王黎明.决策树学习及其剪枝算法研究[D].武汉:武汉理工大学,2007.(WANG Li-ming.Research on Learning and Pruning Algorithm of Decision Tree[D].Wuhan:Wuhan University of Technology,2007.(in Chinese))

[13]TAN Pang-ning,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].范 明,范宏建,译.北京:人民邮电出版社,2009.(TAN Pang-ning,STEINBACH M,KUMAR V.Introduction to Data Mining[M].Translated by FAN Ming,FAN Hong-jian.Beijing:Posts&Telecom Press,2009.(in Chinese))

[14]肖桃李,李新平,米 健.土质边坡稳定性影响因素的研究[J].地质灾害与环境保护,2007,18(2):89-93.(XIAO Tao-li,LI Xin-ping,MI Jian.A Study of the Effect Factor on Slope Stability[J].Journal of Geological Hazards and Environment Preservation,2007,18(2):89-93.(in Chinese))

[15]李 靖,周欣华,党进谦.黄土边坡稳定性图解法[J].岩土工程学报,1998,20(4):40-43.(LI Jing,ZHOU Xin-hua,DANG Jin-qian.Graphic Method for the Stability of Loess Slopes[J].Chinese Journal of Geotechnical Engineering,1998,20(4):40-43.(in Chinese))

[16]高建勇,邢义川,陈艳霞.黄土高边坡稳定性预测模型研究[J].岩土工程学报,2011,33(增1):163-169.(GAO Jian-yong,XING Yi-chuan,CHEN Yan-xia.Prediction Model for Stability of High Loess Slopes[J].Chinese Journal of Geotechnical Engineering,2011,33(Sup.1):163-169.(in Chinese))

[17]郭杜峰,毛彦龙,高德彬,等.基于人工神经网络的公路黄土高边坡稳定性预测研究[J].公路交通科技,2005,22(9):59-62.(GUO Du-feng,MAO Yan-long,GAO De-bin,et al.Study on Artificial Neural Network Method for Stability Prediction in Loess High Slope and Stability of the Highway[J].Journal of Highway and Transportation Research and Development,2005,22(9):59-62.(in Chinese))

[18]于 旭.模式分类中训练样本集的构造方法研究[D].哈尔滨:哈尔滨工程大学,2012.(YU Xu.Research on Construction Method of Training Set in Pattern Classification[D].Harbin:Harbin Engineering University,2012.(in Chinese))

(编辑:王 慰)

Study on Stability Evaluation of Soil Slope Based on C4.5 Decision Tree Algorithm

HU Jie,QI Chun-ming,SUN Bing,NIE Chun-long
(School of Urban Construction,University of South China,Hengyang 421001,China)

When the soil slope stability is evaluated by neural network model,varieties of training samples always make the evaluation result unsatisfactory.In order to solve the problem,we introduce the C4.5 decision tree algorithm,build an evaluation model of soil slope stability based on decision tree classifier,and prune the tree structure established.Furthermore,we adopt measured data in several soil slope projects and select classification attributes according to gain ratio of information in this model.Compared with BP neural network and LVQ(Learning Vector Quantization)neural network,the result shows that decision tree algorithm has the highest accuracy for classification,up to 90%,and the computation time of this model is 2.24 seconds.Finally,it is feasible to introduce decision tree algorithm for stability evaluation in soil slope.

soil slope;stability prediction;decision tree;BP neural network;LVQ neural network

TU444

A

1001-5485(2015)12-0082-05

10.11988/ckyyb.20140543

2014-07-01;

2014-08-26

国家自然科学基金资助项目(51204098)

胡 杰(1988-),男,湖南株洲人,硕士研究生,主要从事岩土工程数值模拟方面的研究,(电话)15573417532(电子信箱)1015286534@qq.com。

綦春明(1966-),男,湖南衡阳人,教授,主要从事岩土工程理论与工程管理方面的研究,(电话)13975499366(电子信箱)qcm108100@sina.com。

猜你喜欢

土质决策树正确率
门诊分诊服务态度与正确率对护患关系的影响
高含铁大比重土质对泥浆配比的影响
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
公路路基施工中过湿土的施工对策研究
不同土质和埋深工况下送电工程土石方费用研究
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于决策树的出租车乘客出行目的识别