APP下载

基于GS- GBDT 的边坡稳定性评价模型

2022-07-25樊奇

科学技术创新 2022年22期
关键词:决策树分类器边坡

樊奇

(上海勘测设计研究院有限公司,上海 200434)

1 概述

人工或天然边坡会因各种自然和人为因素影响而发生破坏,滑坡附近群众的生命财产将受到威胁。对边坡稳定性有影响的因素有很多种,如边坡的高度和坡度、岩土体的参数和降雨等,而这些影响因素与边坡的状态之间有着非常复杂的非线性特点,因此如何准确的预测边坡状态是边坡工程领域的一个研究难点。以往广泛采用瑞典圆弧法[1]、Janbu 法[2]、有限元法[3]等方法来分析边坡稳定性,这些方法较为成熟,可以比较好的计算边坡稳定性,但这些方法较难去描述边坡稳定性评价中复杂的非线性特点,导致计算存在较大的局限性。近年来,随着以神经网络[4]为代表的人工智能方法的成功应用,不断有新方法被引入边坡稳定性评价中,如支持向量机[5-6]、模糊神经网络[7]、高斯过程[8]、Logistics[9]、改进的极限学习机[10]、K-Means 聚类[11]、决策树[12]等算法,这些方法能较好地解决了边坡稳定性评价中的非线性问题。但这些新方法也存在着一些不足,如:人工神经网络算法需较多边坡案例数据才能有较好的预测,支持向量机算法对数据集部分缺失敏感,Logistics 算法易过拟合等。因此,需要研究更具有针对性的边坡稳定性评价算法。

梯度提升决策树算法(GBDT) 是集成学习算法Boosting 中的子类[13],该算法能较好的解决了边坡稳定性评价中的非线性问题,同时具有模型简单、精度高等优点[14-15]。笔者将GBDT 算法引入边坡稳定性评价中,采用网格搜索(Grid Search,简称GS)对建立的GBDT 模型开展参数调优,建立基于GS-GBDT 的边坡稳定性评价模型,并对比分析了该模型与基于BP 神经网络和SVM 的算法模型。

2 GBDT 算法原理

GBDT 算法是由Jerome Friedman 于二十一世纪初提出的,其有效结合了决策树和集成学习的优点,对于回归、分类问题都可以处理[16],本文基于GBDT 算法建立边坡稳定性安全状态的分类模型。基于GBDT 算法建立相应分类模型的过程中,对模型的每一次迭代都将新建立一个弱分类器(采用决策树模型),该弱分类器建立在上一轮模型残差减少的梯度方向上。若迭代模型N 次,则将生成N 个弱分类器。最终的GBDT 分类模型是上述N个弱分类器的组合,相应的组合方式有加权、投票等,所建立的模型数学表达式为:

上式中,fN(x)为分类器模型,即提升树。N为模型迭代的次数,对应所建立的决策树数量。ɤn为每个弱分类器的权重。Tn(x)为弱分类器。训练模型即将模型的损失函数L 最小化。若有M 条数据参与模型的训练,(xi,yi)为数据集的第i 条数据;xi为模型的输入变量,在本次建模中为影响边坡稳定性的各种因素;yi为模型的输出,在本次建模中为边坡的稳定性状态。最终需对模型开展参数调优工作,相应地调优函数表达式为:

3 基于GS-GBDT 算法的边坡稳定性评价模型的建立

3.1 边坡稳定性评价模型中影响因素的确定

对边坡稳定性有影响的因素可分为自身因素和外部因素。自身因素主要有边坡高度、坡度、岩土体的重度、粘聚力和内摩擦角等,当边坡的高度或者坡度越大,岩土体的重度越大,的岩土体粘聚力和内摩擦角越小,边坡就越容易发生失稳。外部因素主要有孔隙水压力、地震作用和对坡体的加载力等,后两者出现较少,本文不考虑其影响,当孔隙水压力越大,边坡越容易发生失稳。依据有关文献资料和经验,本文最终采用的影响因素有边坡高度、坡度、岩土体的重度、粘聚力、内摩擦角以及孔隙水压力。

3.2 训练集和测试集数据的选择

本文选择文献[17]中的39 组边坡样本数据作为数据集,数据集内的边坡样本数据已被清楚的研究,该数据集被广泛应用,目前已有多篇文献[19-20]采用了该数据集来建立边坡稳定性评价模型,边坡样本详细数据见表1。模型的输入变量:上节确定的6 个影响因素,即边坡高度、坡度、岩土体的重度、粘聚力、内摩擦角以及孔隙水压力;模型的输出:对应边坡稳定性状态,即稳定或破坏。采用前30 个样本开展模型训练,建立基于GS-GBDT 的边坡稳定性评价模型,再使用该模型对剩余9个样本进行预测。

表1 边坡样本数据

3.3 模型选择

为提升模型的性能,需对模型所涉及到的参数进行调优,本文使用网格搜索法来开展调优工作。该方法具有易解释、使用简便等优点,其思路为:在建立模型选择最优GBDT 算法参数过程中,通过遍历所有参数组合来得到模型结果最优。基于GBDT 算法模型的主要参数有弱学习器迭代的最大次数、决策树的最大深度和叶子节点样本最少数量等[14]。

现基于Python 语言的Scikit-learn机器学习工具包来建立GS-GBDT 模型,网格搜索法通过调用前述工具包中GridSearchCV 模块来实现。在模块中将网格搜索设置为5 折交叉验证,其余相关参数搜索范围与搜索步长的设置见表2。

表2 GridSearchCV 模块中相关参数设置

最终,通过搜索得到的参数分别为:弱学习器迭代的最大次数为90,决策树的最大深度为5,叶子节点样本最少数量为2。使用上述最优参数建立基于GS-GBDT 的边坡稳定性评价模型,并采用此模型预测训练集,预测结果仅1 个样本预测错误,具体为将"稳定"边坡预测为"破坏"边坡,模型对"破坏"边坡类预测全部准确。计算得到模型对训练集预测的准确率达到96.7%,表明所建立的模型对训练集具有很好的拟合效果。

3.4 结果对比分析

使用已建立的基于GS-GBDT 的边坡稳定性评价模型,对剩余的9 个样本进行预测,以了解该模型的预测精度。同时为验证模型的适应性,将模型与SVM 算法和BP 神经网络算法进行对比,这两种算法目前应用广泛,分类效果好。三种算法预测结果见表3。

对比表3 中三种算法的预测结果,从中可见看出,GS-GBDT 算法预测结果的准确率最高,达到100%,模型将边坡全部准确分类;SVM 算法预测结果准确率次之,准确率为88.9%,将一个“破坏”边坡预测为“稳定”边坡;BP 神经网络算法预测准确率最差。综上所述,基于GS-GBDT 的边坡稳定性模型具有一定的适应性,其预测精度与泛化能力较高。

表3 不同算法预测结果比较

4 结论

4.1 本文提出基于GS-GBDT 的边坡稳定性评价模型,该方法具有较高的精度和泛化能力,同时模型较简单,能较好的解决边坡稳定性评价中的非线性问题。

4.2 通过边坡实例验证,与SVM 算法、BP 神经网络算法建立的模型比较表明,GS-GBDT 算法模型具有最高的预测精度、更强的泛化能力,这表明模型具有一定的适应性,可以在实际工程中推广应用。

4.3 本文在建模时,所选用的数据集共有39 个边坡样本,样本数量偏少。如果能搜集更多的边坡样本,以此建立相应的GS-GBDT 边坡稳定性评价模型,则该模型更具泛化能力和说服力。

猜你喜欢

决策树分类器边坡
这边山 那边坡
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
水利水电工程高边坡的治理与加固探讨
基于决策树的出租车乘客出行目的识别
基于SLOPE/W的边坡稳定分析
基于不同软件对高边坡稳定计算