基于CART回归树模型的变电站施工安全事故分析与预测*
2024-03-14杨彦东卜剑冲邓建新李东昌
田 浩,卢 博,杨彦东,卜剑冲,邓建新,李东昌
(国网宁夏电力有限公司经济技术研究院,宁夏 银川 750011)
0 引言
社会经济进步的同时,社会用电需求急剧增加.为了满足社会各界的需求,变电站的规模和数量也随之扩大[1].但与其他建设工程不同,变电站的建设涉及更加复杂的变电设备,现场施工极易出现安全事故.在变电站基础建设、设施安装过程中,设计到多个环节,一旦建设过程中出现安全事故,不仅会影响施工进度、造成经济损失,甚至有可能威胁到相关人员的安全[2].因此,变电站施工阶段需要加强施工现场安全管理,而如何根据剖析施工安全事故特征,并基于此进行事故预测,成为很多研究人员关注的重点问题.
国内大量学者对此展开了研究,如林穿等[3]从历史施工数据入手,提取变电站施工安全事故发生前后现场数据的关联规则,以此为基础建立事件链.通过热力图矩阵,计算各事件链的泛化权重,形成事故事理图谱.应用图谱对当前施工现场相关数据进行分析,即可得出事故预测结果.然而实际结果表明,该方法预测结果准确率较低.潘静娟等[4]运用数字孪生技术搭建变电站施工现场三维模型,并定位高风险的施工区域.经由固定摄像头采集现场施工图像,通过观察图像提取施工人员行为特征,对比该特征与作业条件库的风险阈值,得出施工安全事故预测结果.然而实际结果表明,该预测模型的泛化能力有限.梁杰等[5]依托于大数据特征采样方法,提取现场施工数据包含的特征信息,而后采用建筑信息模型(building information modeling,BIM)进行多元回归分析,得出变电站施工安全事故预测结果.将其投入实际工作后发现,该方法预测结果的可靠性不高.
为解决以上方法中存在的问题,得到准确的变电站施工安全事故预测结果,本次研究提出先对常见事故进行深入分析,了解事故表征信息,在此基础上建立以分类回归树(classification and regression tree,CART)模型为核心的变电站施工安全事故预测方法.通过实验验证可知,该方法预测结果极为准确,可以作为施工安全风险防范的指导.
1 基于CART回归树模型的变电站施工安全事故分析与预测方法设计
1.1 变电站施工现场数据采集与处理
在变电站施工现场安装雷达、视频等固定监测设备,实施固定型采集技术,主动获取现场施工数据.再应用移动型采集技术,获取固定采集设备忽略的数据.两种技术采集数据相结合,作为后续施工安全事故预测的基础.
考虑到实时采集的现场施工数据中存在较多噪声数据,为了简化后续事故预测复杂度,在分析数据主成分的基础上,增加数据降维和筛选的步骤.然后再对数据实施正交线性变换,将原始数据向低维欧氏空间投影[6],再根据变换结果了解每个数据的方差,按照方差从大到小的原则排序所有数据,将方差最大的数据称之为主成分,保留排序靠前的数据,舍弃排名最后的数据,保证有效信息不丢失的前提下,完成变电站施工相关数据筛选.针对现场采集的变电站施工数据进行处理时,需要先提取数据包含的特征值,建立特征矩阵,与非负对角矩阵相结合,进行主成分数据分析.
Y=XW=α×ϑ×W,
(1)
式中:Y为主成分数据;X为现场采集数据;W为原始数据的协方差特征;α为原始数据特征;ϑ为对角矩阵.
由于数据的缩放处理会影响主成分分析结果,为了得到质量更高的筛选数据,需要在主成分分析之前,归一化处理原始数据,消除不同维度数据缩放带来的负面影响.
1.2 提取施工安全事故前兆特征
变电站施工过程中,将施工状态描述为正常、过渡和危险三种类型,如图1所示.
图1 变电站施工状态划分示意图Fig.1 Schematic diagram of substation construction state division
在不同的施工状态下,现场施工相关数据的表征信息不同,本研究提出针对变电站施工安全事故进行深入分析,提取施工安全事故前兆特征,这也是预测施工安全事故的基础[7].实际操作过程中,将不同施工状态的特征向量表示为:
xi={ti,μi,Fi,ϖi,Hi},
(2)
式中:xi为第i个特征样本数据,且i∈n;t为数据采集时间;μ为施工现场数据采集位置;F为平均气温;ϖ为天气状况;H为施工速度.
由式(2)可知,变电站施工状态包含了数个特征变量,为了更加准确、快速地得出变电站施工安全事故预测结果,需要对特征变量进行合理选取,筛选出具有代表性的事故前兆特征[8].分类器错误率示意图如图2所示,以施工状态分类错误率为准则,描述正常施工状态决策区域和危险施工状态决策区域,二者相结合形成整体的决策区域.
图2 分类器错误率示意图Fig.2 Schematic diagram of classifier error rate
从图2也可以看出,阴影区域属于分类错误区域,将数据样本被错误识别为正常施工状态的可能性,表示为第一类错误率,其计算过程如公式(3)所示.
(3)
式中:P′为第一类错误率;B1为正常施工状态决策区域;η2为危险施工状态;λ为先验概率.
与之相对地,用第二类错误率,反映危险施工状态决策区域的特征数据样本,属于正常施工状态的概率,具体计算公式为:
(4)
式中:P″为第二类错误率;B2为危险施工状态决策区域;η1为正常施工状态.
而后,二者相结合得出平均错误率为:
(5)
考虑到直接计算错误率的难度较大,文中提出一套与错误率密切相关的概率密度函数.
(6)
式中:z为平均值特征;ψ为概率密度函数;Δt为施工数据采集周期.
定义概率密度函数的似然比,作为散度度量,该度量值越大表明当前特征条件更加重要,可以更好地反映变电站施工状态[9].基于此提出基于概率分布的可分性判据,以此来判断变电站施工特征分布密度的交叠程度,从而选择合理的事故前兆特征.
1.3 基于CART模型实现事故预测
从事故前兆特征入手,文中提出以CART回归树模型为基础,建立变电站施工安全事故预测决策树的根节点.首先,运用二元切分法、基尼指数对数据特征进行不断分割,直到当前采集施工数据的所有特征都清晰展现出来.其中,基尼指数可以表示为:
(7)
式中:G为基尼指数;D为变电站施工数据集;D1、D2分别为D划分形成的两个子数据集;J为特征向量.
通过基尼指数完成变电站施工事故数据特征归类处理后,选择最优特征作为CART回归树的根节点,再引入并行化和损失函数,构建CART回归树基本模型.在此基础上,确定回归树叶节点[10].回归树生成过程中,需要按照样本属性差异化,对原始样本空间进行递归划分[10],如图3所示.
图3 样本空间划分示意图Fig.3 Schematic diagram of sample space division
样本属性差异化程度可表示为:
(8)
式中:S为样本属性差异化程度;ζ(M)为总样本目标属性的标准差;M为总样本空间;M1、M2为子样本空间.
样本空间划分结束后,应用支持向量机(support vector machine,SVM)[11-13]回归算法构建叶节点,定义叶节点的回归方程为:
f(xi)=τK(xi)+b,
(9)
式中:f为最优分类平面;τ为法向量;K为核函数;b为偏置项.
为解决输入特征向量和评判指标间的非线性关系,将映射到高维克难攻坚转化为线性问题.因此,该模型的优化问题可以表示为:
(10)
约束条件为:
(11)
利用拉格朗日函数求解,考虑非线性可分情况,可以得到最优超平面的决策函数:
f(x)=uK(x)+b′,
(12)
式中:u为拉格朗日乘子;b′为优化后的偏置项.
通过上述操作,构建出可用作变电站施工安全事故预测的CART回归树模型.为了加强预测准确性,需要进行修剪操作,从回归树底端入手递归处理,利用叶节点代替冗余子树,从而建立最优的决策树.在剪枝处理后实施平滑处理,保证相邻叶节点的连续性,应用该CART回归树模型可以进行变电站施工安全事故预测.
1.4 生成施工
由于变电站施工安全事故包括很多种类型,在实际预测过程中,需要先对 CART回归树模型进行事故预测的多次训练,每次训练都需要提高前一次错分数据的权重,从而提升模型梯度,确保事故预测模型具有更好的表现[14-15].应用损失函数,衡量事故预测模型出错概率.在迭代训练时,为使损失函数保持下降态势,将其下降方向定义为梯度方向,由此得到最终变电站施工安全事故预测模型的函数形式如公式(13)所示:
(13)
式中:ζ为预测函数;εm为梯度方向;ιm为模型权重;j为回归树节点;m为回归树的总数量;ιj为j节点回归树的权重;εj为j节点回归树梯度方向.
在每次训练后,都需要获取预测损失函数,并以此为基础优化预测模型的每个参数.再应用训练后的模型提取出施工安全事故前兆特征,分析现场施工数据,生成高精度的施工安全事故预测结果.
2 测试与结果分析
2.1 工程概况
本次实验以泉眼330 kV变电站工程作为依据,泉眼330 kV变电站位于吴忠市同心县韦州镇惠新公路北侧,总用地面积30 725 m2.该站电压等级为330 kV/110 kV/35 kV,主变容量本期为2×360 MVA;330 kV出线本期2回;110 kV出线本期10回;35 kV不出负荷线.
针对其他已完工的变电站工程进行调查可知,在变电站施工过程中出现的主要安全事故为坍塌、坠落、打击、触电、火灾等.为了保证本变电站的施工安全,将本文所提方法、基于事理图谱的文献[3]方法和基于数字孪生技术的文献[4]方法应用到该变电站施工过程中,进行为期一个月的安全事故分析和预测测试,验证所提方法的有效性.
2.2 事故预测结果
考虑到引起变电站施工安全事故发生原因很多,本次实验过程中考虑多方面因素,提取出施工安全事故前兆特征,并结合基尼指数最小化原则和SVM回归算法,构建可用于变电站施工安全事故预测的CART回归树模型,经过剪枝操作、平滑处理后,最终形成图4所示的变电站施工安全事故预测决策树结构.
图4 变电站施工安全事故预测决策树结构Fig.4 Decision tree structure of substation construction safety accident prediction
由图4可知,变电站施工安全事故预测决策树结构,本质上就是施工事故表征信息指标体系,变电站工程等级、项目施工区域、天气情况等多项安全事故诱发因素,都体现在该决策树结构中,并且都位于安全事故决策树的前3层,这也表明这些因素可以对变电站施工安全事故预测结果产生极大影响.
依托于图4所示的决策树模型进行回归分析,即可在测试期间预测变电站出现的所有施工安全事故,并将本文所提方法与基于事理图谱的文献[3]方法和基于数字孪生技术的文献[4]方法进行施工安全事故预测量对比,结果如图5所示.
图5 不同方法预测的施工安全事故量Fig.5 Construction safety accidents predicted by different methods
由图5的结果可知,本文所提方法对于变电站施工过程中的坍塌、工具坠落、物体打击事故、触电、火灾等安全事故能够更多地预测出来.这表明本文基于CART回归树模型的变电站施工安全事故的预测方法灵敏度更高.主要是由于本文方法以CART回归树模型为基础,建立变电站施工安全事故预测决策树的根节点,再使用SVM回归算法建立叶节点,形成可用于施工安全事故预测的最优决策树,使得能预测出更多的安全事故.
2.3 方法性能对比分析
为了进一步验证所提方法的优越性,选取受试者工作特征曲线(receiver operating characteristic,ROC)下的面积(area under the curve,AUC)值作为评估指标,对比本文所提方法与文献[3]方法和文献[4]方法预测结果的应用性能.通常情况下,AUC值的取值在0到1之间,越靠近1表明该方法预测结果更加准确.从3种方法的施工安全事故预测结果入手,得出不同方法预测结果的ROC曲线,如图6所示.
图6 不同方法预测结果的ROC曲线Fig.6 ROC curve of prediction results by different methods
图6显示了3种方法下的ROC曲线,该曲线下方面积即为AUC值.本文所提方法预测结果的AUC值为0.91,而文献[3]方法和文献[4]方法的AUC值分别为0.82、0.78.综上所述,本文所提方法相比于文献[3]方法和文献[4]方法事故预测结果的AUC值分别提升了9.89%、14.28%.因此,表明本文所提方法预测变电站施工安全事故的准确率更高,主要是由于本文所提方法通过基于概率分布的可分性判据,以此来判断变电站施工特征分布密度的交叠程度,从而选择合理的事故前兆特征.说明本文所提方法可以预先识别出变电站施工安全事故,辅助现场管理人员制定合理的防范措施,避免施工安全事故的发生.
3 结论
在电力系统建设力度不断加大的情况下,变电站建设工程规模也随之扩大,考虑到变电站施工过程较为复杂,近年来施工事故不断发生.为了降低变电站施工过程中面临的安全压力,本研究提出针对施工事故表征信息进行深入分析,了解施工安全事故前兆特征,并结合CART回归树模型设计新型变电站施工事故预测方法,得到高精度的事故预测结果,作为提升变电站施工安全的依据.