基于机器学习的电梯安全事故致因分析
2024-04-17雷紫淇王凡帆於尚霏申静雯
雷紫淇 王凡帆 於尚霏 申静雯
(中国矿业大学(北京) 北京 100083)
电梯是人民群众生产生活中的重要运输工具,应用范围广,使用频率高。国家市场监督管理总局发布的《2022 年全国特种设备安全状况的通告》显示,截至2022 年底,全国共发生特种设备事故和相关事故108 起,其中电梯事故22 起,占全年特种设备安全事故总数的20.37%,死亡17 人[1]。此外,根据国家市场监督管理总局特种设备安全监察局发布的全国特种设备安全状况通报,近10 年全国电梯每年的增长率都在10%以上,2022 年的全国特种设备数量是2013 年的2.1 倍。巨大的保有量导致电梯事故时有发生,且具有一定的突发性、偶然性和随机性,因此结合法律法规和电梯安全事故案例,进行总结分析,通过对事故原因和事故特征的提取,构建致因预测模型,在事故发生后,能够通过事故特征及时得到较为准确的事故发生直接原因、间接原因等相关信息,提高事故后的解决效率,是十分必要的。
1 国内外电梯安全事故致因分析研究现状
随着实际安全管理问题和现处社会经济大环境复杂性不断被人们所认识,关于科学的研究方法论体系也在不断拓展。为预防和减少事故的发生,专家在多个领域对事故发生的各种影响因素进行了研究,构建不同的事故致因模型,提出不同的事故致因理论,并借用Python 语言、C 语言、R 语言等对导致事故发生的各个因素之间的关联进行了研究。将事故特征和事故致因间关联关系也运用在化工、建筑、道路交通等领域,但该项研究在电梯安全领域运用较少。
海外的学者已进行过有关电梯安全事故的探讨,并且以此研究的产出分别从人力、设备、资料、法律以及环境等多角度提供了优化做法及建议。例如,国外Zarikas V 和Loupis M 通过分析希腊电梯安全事故,得出了与电梯安装、服务和运行相关的各种统计推断,结果显示有65%的事故发生在电梯安装和维护作业人员身上,并指出安全管理制度没有落实好是电梯事故发生的主要原因[2]。国内张武桥[3]用数理统计分析的方法,基于电梯运营安全事故样本数据,通过事故发生的地点、形态、环节、原因等,归纳总结电梯运营事故发生的潜在规律和根本原因,最后从主成分角度和安全理论维度分析了电梯运营安全的影响因素。蓝麒[4]从电梯安全脆弱性角度对电梯安全协同治理进行了深入分析,构建了电梯安全协同治理体系框架。
然而,造成电梯事故的原因方面,多数研究者主要参照电梯安全管理实践知识和统计分析来进行探讨。在国内,李珏等人[5]通过找出导致电梯事故的关键人为因素,并对其关联性进行分析,使用人因分析与分类系统(HFACS)模型对电梯事故进行分类统计与研究。并利用卡方检验以及概率比分析HFACS 上层与下层人因之间的关联性,最终提出针对预防电梯事故的实施方案。但目前关于电梯安全事故的研究主要侧重于构建电梯安全风险评价指标体系,或者是对于单个因素、单个事故表征的研究,将电梯安全事故表征与事故致因因素结合起来综合分析,并建立高质量致因预测模型的研究并不是很全面。
2 基于Python 语言的文本挖掘
2.1 数据获取及预处理
为获得较为准确全面的语料库,基于Python 语言,用爬虫技术对电梯安全相关法律法规和电梯事故案例进行爬取。获得《中华人民共和国特种设备安全法》《特种设备安全监督检查办法》《特种设备事故报告和调查处理规定》《特种设备安全监察条例》等相关法律法规以及近10 年来我国部分电梯安全事故案例。
分析所获语料,发现有重复值、缺失值、异常数据等不利因素存在,为保证爬取所获文本的质量以及后续模型建造的质量和准确性,借助Python 语言,再对其进行数据的预处理,包括清洗数据、分词、过滤停用词等,见图1。
图1 数据预处理
2.2 事故报告特征提取
针对预处理后的语料,提取电梯安全事故报告中的“直接原因”“间接原因”“事故特征”“事故发生前设备状态”和“事故分类”等相关因素并总结,见图2。
图2 特征提取
将提取总结后的相关因素数据化处理,并将电梯安全事故的直接原因和间接原因整理为人的因素、管理因素、设备因素和环境因素4 个方面[6,7],数据化处理结果见表1。
表1 电梯安全事故样本数据的数据化处理
3 基于随机森林构造预测模型
3.1 基于网格搜索获取随机森林最佳参数
网格搜索算法是通过遍历研究中所给定的数据参数组合,来完善所建模型。如果在遍历过程中超参数的选择不恰当,就会出现欠拟合或者过拟合的现象,导致最终预测结果不准确。网格搜索算法将在规定的参数范围内,按照步长依次调整规范参数,在一次次调整参数的过程中训练学习器,最后在所有参数中找到检验集上精度最高的参数,为机器的深度学习提供帮助[8]。
使用网格搜索参数寻优寻找随机森林全局最优参数组合,首先将数据集随机划分为k个验证集,在k个子集中选取k-1 个子集作为训练集,1 个子集作为测试集;利用k-1 个训练子集训练模型,并使用网格搜索设置需要调整的参数大致范围及步长,计算每个参数下模型的评估能力;利用交叉验证重复上述过程k次,计算k次模型评估能力的平均值,并获取模型性能最优情况下的参数取值。
经网格搜索计算,最终得出参数的最优组合,见表2。其中,max_depth 为树的最大深度,min_samples_leaf 表示一个节点在分支后的每个子节点的样本数量的最小值,random_state 为随机种子数,用以复现模型,min_samples_split 是节点可分裂的最小值,n_estimators 为CART 树个数[9]。
表2 网格搜索获取随机森林最佳参数
电梯事故往往会损害生命财产安全,因此在模型准确率方面具有较高的要求,而在该网格搜索得到的参数建模下,随机森林模型的预测准确率可达0.972,将使该预测模型拥有较高的准确率,满足实际应用的需求。
3.2 随机森林
随机森林是一种机器学习算法,在众多算法中,它使用频率最高的就是集成学习。它的基本思想是将多个分类器组合在一起,从而使整体更完备和周密,达到一个预测效果更好的集成分类器。更具体一点,该算法会将决策树作为一个基本单元,大量的决策树一起勾勒了一个庞大的随机森林,如图3 所示。
图3 随机森林
形成随机森林首先要构建单棵决策树,这棵决策树会包括两个部分:样本和特征。而树的构建会包含特征选择、树的生成以及剪枝3 个部分,在一个训练集合中含有N个样本,有放回并且随机地选择n(n≤N)个样本,随后用这些选择好的样本来训练一棵决策树,且作为决策树根处的节点。同时,假设训练集的特征个数是K,每次选择k个构建决策树。
需要指出的是,树的生成是一个递归的过程。一般而言,随着不断的划分,决策树的分支节点所包含的样本最终会慢慢归集到同一个属性,使得节点的“纯度”越来越高。
验证随机森林模型需要通过合适的评价指标,其中拟合优度R2可以检验模型对样本数据的拟合程度,取值在0 到1 之间,拟合优度越高,代表模型的可解释程度越高。均方根误差RMSE可以反映样本的离散程度, 取值为大于0 的整数,取值越低说明精度越高,但其大小受预测数值的大小影响。拟合优度R2和均方根误差RMSE的计算公式如下[10]。
式中:
n——总样本数;
i——小于n的变量;
Yi——真实值;
3.3 事故致因模型构建
在MATLAB 中,利用网格搜索所得随机森林最优参数,用随机森林模型来构建电梯事故致因预测模型。如图4 所示,当决策树设为100 时,误差范围基本保持在[0.015,0.02]区间内,错误基本稳定。
图4 误差曲线图
模型根据80%的训练集和20%的测试集对真实值和预测值的结果进行对比,如图5、图6 所示。
图5 训练集预测结果对比
图6 测试集预测结果对比
从图7 中可以看出,“直接原因”项对“事故特征”项的影响最大,其次是“间接原因”项和“事故发生前设备状态”项。
图7 特征重要性柱状图
利用指标计算公式,验证基于随机森林算法的电梯安全事故致因预测模型的拟合优度R2、均方根误差RMSE。对于预测模型的评价指标见表3[10]。
表3 模型评价指标
4 模型应用
4.1 坠落事故实例
2021 年8 月16 日,新疆维吾尔自治区乌鲁木齐市某区发生1 起电梯坠落事故,造成1 人死亡,经济损失150 万元。经调查分析,引发事故的直接原因是死者安全意识淡薄、违反安装技术规程,间接原因是施工现场安全管理落实不到位[11]。将该事故报告中的事故特征数据化处理后输入电梯安全事故致因预测模型中,见表4、表5。
表4 坠落事故直接原因预测概率
表5 坠落事故间接原因预测概率
4.2 坠落事故预测结果分析
由表4 可知,基于随机森林算法的电梯安全事故直接原因预测模型中共有176 棵决策树,其中预测概率最高的2 项是违规作业(P3)和结构或零部件损坏(M2)。由表5 可知,基于随机森林算法的电梯安全事故间接原因预测模型中共有171 棵决策树,其中预测概率最高的2 项是安全管理不到位(A1)和维修保养不到位(P4)。
综上根据相对多数投票法,模型对该案例事故的直接原因和间接原因的预测结果与实际调查结果基本一致,且从人为因素、管理因素、设备因素等多个角度进行合理预测,验证了所获模型的有效性。
4.3 挤压事故实例
2022 年8 月18 日,北京市丰台区某街道发生1起电梯挤压事故,造成1 人死亡。经过调查分析,引发此次事故的直接原因是维保人员在完成电梯维修作业后,违反安全操作规章进入电梯底坑,导致其受到右侧井道壁与轿厢侧壁的持续挤压,造成死亡。间接原因是相关公司对管理区域内电梯监督不到位以及电梯有限公司对员工的作业没有行之有效的监管措施[12]。将该事故报告中的事故特征数据化处理后输入电梯安全事故致因预测模型中,见表6、表7。
表6 挤压事故直接原因预测概率
表7 挤压事故间接原因预测概率
4.4 挤压事故预测结果分析
由表6 可知,基于随机森林算法的电梯安全事故直接原因预测模型中共有175 棵决策树,其中预测概率最高的3 项是违规作业(P3)、维修保养不到位(P4)和无证上岗(A3)。由表7 可知,基于随机森林算法的电梯安全事故间接原因预测模型中共有175 棵决策树,其中预测概率最高的2 项是安全管理不到位(A1)和维修保养不到位(P4)。
综上根据相对多数投票法,模型对该案例事故的直接原因和间接原因的预测结果与实际调查结果基本一致,再次验证所获模型的有效性。
5 结论与展望
5.1 结论
电梯安全事故的发生不是仅受某个单因素的影响,而是多个因素共同造成的。在日常电梯的使用过程中存在诸多安全因素,且这些因素并非完全独立,各因素间有错综复杂的关联关系,无法直观从众多事故报告中找出关联规则。基于上述原因,本文利用Python语言,对所需文本进行爬取和预处理,分析整理电梯安全事故影响因素。再使用网格搜索获得随机森林最佳参数,接着用随机森林算法构建基于机器学习的电梯安全事故致因分析模型,获得预测较为准确的致因分析模型,最后通过2 个实例对模型进行准确性和实用性检验。所建模型能够帮助事故后的快速归因,提高事故解决效率。
5.2 建议
1)规范电梯的设计、建造和安装。为确保电梯运行安全,在电梯最初设计时,就要将工作人员和使用人员的安全放在第一位。同时,确保在电梯基础零件的建造上,谨慎选择零件材料,提高电梯的自身质量,将非人为因素对电梯安全事故的影响降到最低。
2)完善相关人员的培训制度。在众多的事故报告中可见,从电梯安装、维修保养到事故后的救援,都存在由于部分相关人员专业性不足导致不可预估的后果。为此,必须保证各生产安装电梯人员和区域电梯救援管理人员的专业性,以及电梯工作人员在工作时的专注性和严谨性。提高相关人员的专业性,不仅会减少工作人员的危险系数,同时也会降低电梯发生事故的概率以及增加事故后救援的成功率。
3)重视日常安全检查和定期保养。电梯作为日常生活中使用频率高的运输工具,大多电梯都处于持续运行的状态下,同时还有人为因素的影响,电梯零件极易损耗,进而增加电梯发生安全事故的概率。这就需要电梯检查保养工作人员定期逐一排查电梯的安全隐患,按照规章制度进行电梯后续的维修保养工作。
4)注重宣传电梯安全以及自救知识。电梯在现代化的生产生活中必不可少,但仍有相当比例的人不了解电梯的急救知识,导致在电梯发生事故时,不能做出正确反应。这就需要社会增强电梯安全以及电梯自救知识宣传力度,让公众掌握理论知识,才能在发生电梯事故时,尽可能减轻电梯事故对自身的伤害。
5)及时完善安全规章制度。在科技的快速发展下,规章制度也要与时俱进。管理部门应该根据实际情况,定期淘汰或修改无效的规章制度,及时建立适合的安全管理体系。