APP下载

基于CART回归树模型的深基坑施工安全事故分析与预测

2021-07-07夏时雨赵庆华

土木工程与管理学报 2021年3期
关键词:决策树深基坑事故

张 兵,夏时雨,赵庆华,杨 扬

(1. 扬州大学 建筑科学与工程学院, 江苏 扬州 225127; 2. 上海交通大学 安泰经济与管理学院,上海 200030; 3. 香港理工大学 建设及环境学院, 香港 999077)

随着地下工程向“深、大、近、紧”的方向发展[1],深基坑工程在施工过程中面临着日益严峻的安全风险[2]。英国健康与安全管理局统计发现深基坑施工安全死亡事故占到了全部工程死亡事故的14%[3],美国劳工统计局指出每个月至少有3名施工人员死于深基坑坍塌[4,5],我国住建部的报告也显示深基坑工程安全事故占到全国施工事故的30%以上,是占比最高的事故类型[6]。

目前,深基坑施工已成为危险系数最高的项目类型[7],并且其安全事故发生率为一般工程项目的5倍,这直接导致了安全问题是深基坑施工过程中面临的最大风险[8,9]。另外,由于深基坑施工是一项复杂的系统工程[10],以及深基坑施工安全事故的类型多样、性质各异等,这使得深基坑施工事故并非由单一因素引起,而是多种因素相互作用的结果[11]。然而,尽管学术界已经重视深基坑施工安全问题,并且已经收集了深基坑施工安全事故的诸多信息,但由于深基坑施工安全风险难以预测、现有的评估分析方法十分繁琐等[12],当前研究成果仍无法为精准辨识深基坑施工安全事故发生规律提供支撑[10]。

为此,Tian等[1]明确指出如何剖析和厘清深基坑施工事故的表征信息,特别是结合施工事故自身,发现事故发生规律和类型已成为亟待解决的理论与现实难题。鉴于事故分类一般遵循最大表征事故信息原则,并且应表征清晰,本研究基于我国典型深基坑施工安全事故,从深基坑项目属性与事故特征等事故表征信息出发,利用人工智能典型算法对深基坑施工安全事故进行分类测度,确定深基坑施工安全事故发生规律,最终为深基坑施工安全风险防范和应对提供理论指导。

1 指标体系和方法选择

Zhuang等[13]指出由于深基坑施工安全事故仍是当前科学难题,这导致迄今仍缺乏一个统一的、被广为认可的事故评估标准和指标体系[14]。为此本研究首先根据相关文献、报告等构建深基坑施工事故表征信息,在借鉴Deatherage等[15]将基坑安全事故影响因素划分为物理和组织两个方面以及Lew等[16]划分为工程特征和事故特点的基础上,根据收集和整理的深基坑施工安全事故案例资料,从项目属性和事故特征两个视角构建事故影响指标体系,进而深层次地挖掘出深基坑施工安全事故发生规律。

在项目属性方面,Lew等[16]指出这类属性信息是深基坑施工安全事故影响因素的重要来源。具体地,Thwala等[17]指出基坑开挖深度、土壤特性等是深基坑施工安全事故的最重要影响因素,徐至钧等[18]进一步认为深基坑施工安全具有一定的等级性,并且每个类型等级的要求投入不一,然而由于认知不足,尽管其支护方式的选择及其质量在深基坑施工中是举足轻重的大事,但往往由于技术的复杂性和其他原因诱发严重的施工风险,如76%的基坑死亡事故没有采取安全保护系统[19]。同时,在项目组织层面,Lew等[16]指出深基坑工程事故发生与施工企业类型之间相关,并发现68%的施工安全死亡事故发生在员工少于50人的公司,46%的死亡事故发生在只有10名或更少员工的小公司,而Ruttenberg等[5]则指出基坑安全事故与所在区域和城市的安全管理水平高度相关。

在事故特征方面,Wu和Wang[14]发现深基坑施工事故具有时空效应[20],不同的施工时间段、不同的天气均显著影响着深基坑施工安全事故的发生,如Lew等[16]指出21%的基坑施工死亡事故发生在12月份,Ruttenberg等[5]统计发现周二中午(上午九点至下午三点)是基坑坍塌造成死亡人数最多的时间段,美国俄亥俄州LTAP中心[4]则提出天气和气候也是诱发基坑伤亡事故的重要诱因。在行为及事故层面,Tian等[1]发现70%的施工事故是由管理不善和不安全行为造成的,这些主要表现在招投标阶段的施工单位不恰当选择、以及具体的违规行为,如不按设计要求施工、未编制专项施工方案等[11,21,22]。而对于工程事故本身,由于深基坑工程破坏形式类型多样,袁振华[23]将事故类型划分为整体失稳、土体大变形、坑底突涌等10种类型。

在研究方法层面,由于案例数据具有客观有效性,事故案例研究备受本领域的研究学者青睐[14]。徐至钧等[18]根据522项深基坑支护事故的统计分析,发现设计缺陷、水的作用和施工质量是影响最大的三个因素, 宋博[24]基于数据包络分析和BP(Back Propagation)神经网络方法评价深基坑的施工安全等级。在此基础上,为了更为深入地探讨事故案例发生规律,数值模拟、机器学习和人工智能方法已成为该领域最新的分析方法[10],特别是人工智能分析方法,由于该方法能够通过概率论和条件依赖性将不确定性纳入其中而备受关注。Zhou等[12]基于贝叶斯网络(Bayesian network,BN)进行深基坑施工方法模糊综合评价;Zhou等[10]根据支持向量机(Support Vector Machine,SVM)预测地铁深基坑施工的安全风险;另外Zhou等[25]特别指出决策树(Classification and Regression Tree,CART)能够通过二进制递归分割技术对样本进行逐层划分和分支,不需要事先的背景知识储备,非常适用于处理深基坑施工的事故分类。

综上,尽管大多数深基坑施工人员和研究者都极力“规避施工安全风险”,但当前研究的巨大挑战是如何从深基坑众多安全事故表征信息中,筛选出有效的客观评价指标体系,并基于可靠的研究方法总结深基坑事故表征信息之间的关联关系,进而开展相应的分类预测判断,以适应深基坑施工管理的实践需要。为此本研究首先根据文献分析初步构建了深基坑施工安全事故的项目属性和事故特征等事故表征信息的指标体系(图1),采用CART回归树构建深基坑施工事故的分类模型,并通过给定的事故信息分析和预测事故分析,以期开展深基坑施工事故分类预测。

图1 深基坑施工事故表征信息指标体系

2 模型构建与数据获取

2.1 CART模型

本研究选择CART决策树模型构建深基坑施工事故的根节点,基于二元切分法和Gini指数选择最优的数据分割特征,然后通过指标逐层划分,直到所有的特征都已清晰描述或者数据集只有一维度时,所有深基坑施工事故分类完成。其中作为分类属性选取准则的Gini指数是指在分割节点中,如果选择A特征的某个值将数据集D分为D1和D2两个部分,那么数据集在A特征下的Gini指数表示为:

(1)

深基坑施工事故数据将首先根据各个事故表征信息的Gini指数选择最佳的分裂属性,进而对相应的节点进行递归分裂,直至各个节点均包含同一级别事故表征信息。在决策树生成完毕后,其具体的形式将从根节点到每个叶节点,并可形式化地对应表示为“IF-THEN”的决策规则。与此同时,本研究拟根据极端梯度提升规则算法形成分类器,引入并行化和损失函数的二阶偏导作为学习器进行CART回归树计算。

2.2 分类指标评价

本研究的重要目的是引入多个事故表征信息以规避单一刻画指标或维度带来的类别识别不充分和非平稳问题,但这又引发了分类器的性能评价问题,特别是分类精度,即反映预测分类结果与实际结果之间的接近程度。考虑到本研究重点关注造成较大影响的深基坑施工事故,根据相关法律规范制定了深基坑事故的二分类问题的混淆矩阵,具体如表1所示。其中TP和TN分别表示将实际正类和负类分别预测为相应类的样本数量;而FN和FP则表示将实际正类和负类分别预测为相反类的样本数量。

表1 深基坑施工事故的二分类问题混淆矩阵

另外,本研究使用与二元分类器一同使用的受试者工作特征(Receiver Operating Characteristic,ROC)曲线衡量分类的精度,ROC曲线重点关注真正类率(True Positive Rate,TPR)和假正类率 (False Positive Rate,FPR),其中TPR也被称为灵敏度(Sensitivity),表示为正类的样本被正确预测为正类的样本数量和所有实际为正类的样本数量的比值,具体如式(2)所示;FPR指被错误分为正类的负类实例比率,等于1减去真负类率(True Negative Rate,TNR),具体如式(3)所示。

(2)

(3)

ROC曲线分别将FPR和TPR定义为x轴和y轴,以反映真正类和假正类之间的关系,进而每一个预测结果在ROC曲线中以一个点表示。若ROC曲线某点坐标为(0,1),则代表分类完全正确,并将此命名为完美分类器,与此同时,ROC曲线将空间划分为两个区域,在这条线上的点代表了一个好的分类结果,而在这条线以下的点代表了较差的分类结果。

2.3 数据收集与整理

相较于其他算法,CART模型的一大优势是,只需要较少的数据样本即可开展较为复杂的分类预测,极端甚至可以少于10个样本[26]。本研究通过搜索查阅安全生产监督管理机构(如应急管理部、住房和城乡建设部等)网站公布的深基坑施工事故调查报告和各类公开统计数据,初步筛选出196个案例,后设置数据完整性以及近期发生等限制要求,最终筛选出125个具有一定代表性和典型性的深基坑施工事故案例,然后对照图1的深基坑施工事故表征信息指标体系,对深基坑施工事故进行关键词与关键信息提取,初步罗列了13种事故表征信息指标,并根据报告内容进行了量化处理,具体如表2所示。

表2 深基坑事故表征信息指标体系构建及量化

2.4 数据刻画和描述

本研究首先对收集的深基坑施工事故的部分表征信息指标进行分析,进而直观刻画出这些深基坑施工事故的典型表征特征。

(1)深基坑施工事故的严重程度

本部分根据公布的深基坑施工事故的伤亡人数进行分析判断,重点关注施工事故造成的死亡人数这一重要指标,描述这些事故的死亡人数分布情况,具体如图2所示。

图2 深基坑施工事故死亡人数分布

可以看出,深基坑施工事故造成的死亡人数之间存在着较大差异,但主要集中在1~3之间,其中3人以下死亡的一般事故占到了超过55%,而3人及以上死亡的较大事故占到了接近45%。尽管3人及以上死亡的较大事故在整个深基坑施工安全事故占比不足一半,但由于这些事故不仅造成了群死群伤和严重的经济损失,也在社会上造成了极坏的影响,本研究根据《生产安全事故报告和调查处理条例》的规定将深基坑事故划分为一般事故和较大事故两种类型,并分别定义为负类和正类。

(2)事故发生的时间段特征

图3显示了深基坑施工事故的时间段分布情况,可以看出这些事故发生的时间段主要集中在12~18时这一时间段,超过47%的深基坑施工安全事故发生在该时间段,反映了下午是该施工安全事故发生的高峰期。另外,约20%的深基坑施工安全事故发生在18~24时,表明1/5的事故发生在夜晚加班时间,而发生在凌晨的事故仅为4次。

图3 深基坑施工事故发生时间段分布

(3)深基坑施工事故类型分析

图4显示了深基坑施工事故类型分布情况,可以看出深基坑施工事故类型的分布存在着显著的不均匀性,其中坍塌是最主要的事故类型,占比超过85%,这导致了该事故类型是最常见的深基坑施工事故,而其他的诸如高处坠落、物体打击和车辆伤害等发生的频次较低,其发生次数均在个位数。

图4 深基坑施工事故类型分布

限于篇幅,其他表征信息指标的分类情况不再一一罗列出来。总体而言,深基坑施工事故的不同表征信息指标在整个案例的分布中存在着不平衡的特点,从直观上看这些满足CART模型分类预测的条件,可以进行下一步分类预测分析。

3 分类预测分析

本部分首先在深基坑施工事故的表征信息指标进行类别设定的基础上,采用Python语言进行分析处理,具体步骤为对深基坑施工事故表征信息指标进行one_hot编码;采用pandas的内置方法get_dummies()进行编码处理;最终得到深基坑施工事故表征信息指标集维度为125×56;然后采用sklearn标准库LabelEncoder()方法转换编码,并将其中的“一般事故”编码为0,“较大事故”定为1;再次利用train_test_split()进行分割测试,分割测试比例为0.33;最后将数据按照给定的比例划分为训练集和测试集,并利用CART回归分类模型对样本数据进行测试分析。

3.1 预测结果判断

根据设定的分割测试比例,本研究将深基坑事故数据集按照0.67/0.33的比例划分训练集和测试集,然后利用CART分类决策树模型针对训练集构造分类器,同时采用梯度提升算法进行输出。为了综合判断分类结果的准确性,本研究采用F1分数判定分类准确程度,F1分数是精度和召回率的谐波平均值,当F1分数值越高,则反映出CART模型的检测分类性能越好。表3为训练集和测试集的测试训练结果及其相应的F1分数值。

表3 分类预测结果

分析结果表明,与分类决策树模型对比,采用改良后的极端梯度提升决策树算法在测试集的分类精度方面有明显的上升,尽管这导致了训练集的精度有所降低,但由于测试集和训练集的分类精度差距明显缩小,从原先的0.449快速收窄至0.102。另一方面,分类预测的F1分数值也从原来的0.353提升至0.416,表明极端梯度提升方法是一种具有较强学习效应的算法,能够显著地提升分类拟合的精度。与此同时,为了对预测精度进行进一步判断,本研究引入AUC(Area under Curve)面积,该指标反映ROC曲线下覆盖面积的大小,AUC值越大,说明该模型的性能越好。图5表明相较于分类决策树,极端梯度提升算法的AUC面积更大,并且处在分类决策树的ROC曲线上方,说明极端梯度提升算法能够提升分类预测精度,本研究选取该算法进行分类预测分析。

图5 不同分类器的ROC曲线

3.2 预测结果分析

一般来说,决策树生成是递归构建二叉树的过程,主要根据Gini指数最小化原则进行特征选择和生成相应的二叉树,然后采用代价复杂性剪枝法的后剪枝方式进行决策树的剪枝操作,进而从上至下递归生成子节点,直到数据集不可分则停止决策树生长。本研究据此形成深基坑施工事故的交叉树形结构,具体如图6所示。

图6 深基坑施工事故表征信息的决策树分类结果

图6表明深基坑施工事故表征信息指标体系及其相应的案例可以细化为决策树深度为9的交叉树形结构,并且在55个输入因素中,不存在违法招投标、基坑等级的一级、项目所在的西部区域、施工单位规模的一级、事故直接原因的不按设计要求施工、天气情况为晴朗等6个因素集中在决策树中的前3层,说明了这些因素对事故严重程度的分类影响较大。与此同时,为了进一步清晰地展示深基坑施工事故的具体分类预测情况,本研究根据图6形成了深基坑施工事故分类规则及其样本分布,表4为部分样本数量较多的分类情况。

表4 深基坑施工事故分类规则及样本分布情况

表4表明,为了明晰深基坑施工事故的分类预测结果具体情况,首先需要根据前文划定的正类和负类进行相应的类型划分,然后根据具体的分类规则确定各自分类的事故表征信息特征,最后统计出相应的样本数及其在全部案例中的占比情况。

根据对全部深基坑施工事故案例的统计,本研究发现负类样本占到了案例库的71.04%,另外根据分类预测结果,选择了其中6种分布较广的预测类型,这些分类样本量占到了全部负类案例总数的70%左右,具有一定的代表性。与此同时表4进一步显示这些事故分类主要是是否存在违法招投标,并且这些事故主要发生在第二季度,项目所在区域为中部地区,项目所在城市为一线城市。而正类样本占到了全部案例库的22.36%,根据分类预测结果,本研究选择了其中7种分布较为广泛的预测类型,这些分类样本量占到了全部正类案例总数的47.52%,这从另一侧面反映了相较于正类,负类的分类更为充分和细致。与此同时,表4表明这些深基坑施工事故主要发生在A类基坑土壤、工作日地质环境中,而其他方面的事故表征信息更为分散,这都显示相较于较大事故,一般事故的发生机理更为复杂,并且分类的形式更加多样。

4 结 论

随着我国城市建设工程规模不断扩大以及地下空间开发利用力度的加大,深基坑工程在我国越来越普遍,作为典型的“超危大工程”,深基坑施工事故频繁发生,并在近年来呈现明显的上升态势,这导致了深基坑施工面临着前所未有的安全压力和挑战。

为此,本研究基于深基坑施工事故的表征信息,从项目属性和事故特征两个视角构建了深基坑施工事故表征信息指标体系;然后根据CART决策树模型构建相应的分类指标评价标准及计算内容,完成深基坑事故表征信息指标体系的构建和相应的量化刻画,在此基础上采用Python语言和Sklearn模型库进行分类决策树及其改良后的极端梯度提升算法对比分析。研究结果表明相较于一般的分类决策树,采用极端梯度提升算法能够提高分类预测结果的精度。最后本研究生成了相应的深基坑施工事故的交叉树形结构,并对正类和负类的具有代表意义的分类情况进行了剖析,分析表明采用CART决策树模型对深基坑施工事故进行分析能够跳出一般的一维视角事故类型划分,从更高指标维度捕捉深基坑施工事故的类型关系,进而能够根据一定的指标模型形成一套完整的分类体系。这既可为深基坑事故分析提供分类标准和依据,也可以为指导和提升深基坑施工安全提供理论参考。

猜你喜欢

决策树深基坑事故
土建工程深基坑支护的施工要点及管理
浅谈支撑轴力伺服系统在深基坑中的应用
高层建筑深基坑支护施工技术研究
学中文
基于FLAC3D的深基坑开挖模拟分析
简述一种基于C4.5的随机决策树集成分类算法设计
废弃泄漏事故
小恍惚 大事故
决策树学习的剪枝方法
决策树在施工项目管理中的应用