APP下载

基于文本挖掘的建筑工程事故致因与风险管理研究
——以辽宁省为例

2023-09-14金一南孙艳丽

黑龙江科学 2023年15期
关键词:调查报告事故建筑工程

金一南,孙艳丽

(沈阳建筑大学,沈阳 110168)

0 引言

随着城市建设的高速发展,建筑工程需求量急剧增多。但建筑行业施工具有生产流动性大、生产周期长、露天及高空作业多等特点,且在建筑工程施工过程中参与人员繁杂,施工现场情况复杂多变,受工作人员素质参差不齐及认知局限性的影响,工程潜在风险难以全面预知。据统计,2021年,辽宁省建筑工程生产安全事故共计82起,死亡94人[1]。2022年,其事故共计71起,死亡80人[2]。当前,建筑工程安全生产形势依旧严峻,分析建筑工程安全生产过程中的事故致因,探索其规律,对制定有效的风险管理措施、减少建筑工程安全事故具有现实意义。

学界针对工程事故致因的研究已取得一定成果。刘国愈等运用海因里希事故致因理论,从因果发生角度阐明事故致因及致因与伤害间的关系[3]。傅贵等提出事故致因“2-4”模型,通过建立HFACS与24Model不安全动作因素的对应关系,以实际事故为例论述对应关系的应用过程[4]。李华等基于STAMP系统事故理论模型,从建筑工程安全控制结构入手逐层定性分析事故致因[5]。Chen Ning利用关联规则分析我国建筑施工安全事故的原因,揭示了影响施工现场安全的因素及施工事故的后果[6]。KIM、TERESA运用层次分析法,对坍塌事故致因进行量化分析,发现建筑工程施工过程中风险因素评估不到位、监督检查疏忽引起操作失误是导致事故发生的关键因素[7-8]。姚明亮,王丹等从人的不安全行为角度出发,分别建立管理安全及人因安全干预机理模型与网络传播模型,探讨工程事故中人的不安全行为致因的传播路径及干预机制[9-10]。上述针对工程事故的定性分析与统计分析对工程事故预警及风险管理有一定的应用价值,但其中事故致因识别工作量大且易受主观因素影响,缺少大量真实数据的支撑,得出的结论具有一定的局限性。近年来,学者开始使用大数据文本挖掘方法研究工程事故,旨在从事故调查报告结果入手分析事故致因,从而进行工程风险识别与管理。张伟等以事故致因理论为基础建立结构化的施工安全事故致因系统模型并验证其有效性[11]。田水承等针对建筑施工坍塌事故,通过R语言进行文本挖掘,明确事故的核心致因、边缘致因及事故致因间的关系[12]。李莉等基于Python及Pajek平台,采用Apriori算法分析了化工事故致因关联[13]。冯子阳等运用行为安全“2-4”模型,分析了建筑运维阶段事故报告,确定了不同影响因素间的关系[14]。

从大量文本数据中提取有效重要信息与潜在规律,最大限度发挥历史数据的实用价值,实现对事故调查报告的深层次分析,是建筑工程风险识别与管理领域的迫切需求。本研究采用文本挖掘法对2013—2022年辽宁省建筑工程事故调查报告进行深入分析,揭示事故致因的分布规律及内部关联,为建筑工程风险识别管理提供新思路,旨在提高建设工程项目的风险管理水平,提出科学有效的风险规避措施。以中华人民共和国住房和城乡建设部、辽宁省应急管理厅及地方各级相关官方网站为数据来源,收集生产安全事故报告信息,共得到辽宁省建筑工程生产安全事故报告180份,报告由“工程概况”“事故发生经过及救援过程”“人员伤亡和经济损失”“事故发生的原因和事故性质”“对有关责任单位和责任人的处理建议”及“防范措施和整改建议”等内容组成。

1 文本挖掘过程

文本挖掘是从大量文本数据中提取事先未知的、可理解的、最终可用知识的过程。利用文本挖掘技术从非结构化的文本数据中获取有用信息是一种常见的技术手段,目前该技术已运用于风险识别领域。如陈芳等运用文本挖掘法,挖掘大量空置危险接近事件报告,设计基于全局词的向量模型与关键词共现网络,分析各事故致因主题词及关键词间的潜在关系,提供精准防控空中危险接近事件的数据支持[15]。文本挖掘的具体工作流程见图1。

图1 文本挖掘工作流程Fig.1 Text mining workflow

1)文本挖掘工具的选取。进行事故文本挖掘需要选取相应的挖掘工具。采用ROST CM6内容挖掘系统、UCINET社会网络分析系统作为文本挖掘的技术工具。

2)文本数据收集。选取2013—2022年辽宁省建筑工程事故报告作为文本挖掘语料。为减少无效工作,只提取事故报告中有价值部分,剔除与研究无关的内容如“工程概况”“单位介绍”等,按条编号,将文本数据保存为“.txt”格式。

3)数据预处理。用ROST CM6软件中的批量文件处理器将筛选后的文本数据合并,使用Ultra-replace(超级批量文本替换)依据词条标准化信息将表中所有源词条替换为标准词条,利用“分词命令”生成相应的分词文件,完成挖掘研究的数据预处理。

4)信息可视化与特征挖掘。统计事故类型,运用ROST CM6软件对文本数据进行事故致因词频提取,构建事故致因语义网络,进行矩阵分析与中心性分析,统计事故发生地点,将事故分析指标可视化。

2 数据预处理

2.1 构建语料库

为减少无效工作,仅将事故调查报告中的“事故类型”“事故直接原因”“事故间接原因”“事发地点”作为文本挖掘语料库,使用ROST CM6内容挖掘系统软件中的批量文本处理器合并180份事故调查报告。

2.2 标准化转译

中文表述中,不同词语可表达相同的含义,如事故致因“安全生产意识薄弱”在不同事故调查报告中有“缺乏自我保护意识”“不具备安全生产知识”“安全意识放松”“缺乏个人安全防护意识”等不同表述,故从180份事故调查报告中随机抽取60份,分析统计同一事故致因的不同表述方式,建立词条标准化信息对照表,形成同义词词库。使用Ultra-replace对多个意思相同的源词条进行归类代替,部分标准化词条见表1。

表1 词条标准化对照表Tab.1 Contrast of term standardization

2.3 分词

为确保分词结果的精确性及研究的准确性,在ROST CM6软件自定义词表的基础上建立“专业词词库”及“停用词词库”,加入建筑工程领域相关专业词汇,删除无研究意义的词汇。在软件执行分词命令后,对“文件名_分词后.txt”进行人工调整。

3 文本挖掘结果

3.1 事故类型统计

针对2013—2022年辽宁省建筑工程不同类型事故数据进行统计分类,高空坠落类型事故在180份事故调查报告中占60.56%,是发生建筑工程事故的主要原因,其次是坍塌事故(9.44%)与物体打击事故(7.78%)。故在建筑工程安全生产过程中,应重点对高空坠落、坍塌以及物体打击事故进行针对性预防,详见图2。

图2 建筑工程事故类型分布(件)Fig.2 Distribution of accident types

3.2 事故致因词频统计及可视化

为探究不同事故致因的影响程度,使用ROST CM6软件中的频数统计功能分析经过预处理的文本数据,输出建筑工程事故致因词频,取频数排序前30的事故致因等级进行编码:频率>30%的事故致因定义为Ⅰ级致因,30%>频率>10%的事故致因定义为Ⅱ级致因,频率≤10%的事故致因定义为Ⅲ级致因。详见表2。

表2 建筑工程事故致因词频统计Tab.2 Word frequency statistics caused by construction accidents

利用ROST CM6软件语义网络分析工具将事故致因进行可视化处理,网络节点与节点的连线表现各特征的分布与特征间的关系,线条越粗表示共同出现的频率越高,成因特征间的联系越紧密。方块表示节点的中心度,方块越大中心度越大,该节点在该网络中的地位越重要。语义网络图可直观表明事故的发生是多种因素互相作用的结果,为深入挖掘建筑工程事故致因,还需进一步对数据进行中心性分析,详见图3。

图3 事故致因语义网络图Fig.3 Semantic network diagram of accident causes

3.3 事故致因中心性分析

为探究建筑工程事故各致因间的作用关系,使用ROST CM6软件进行共现矩阵分析,如同一组致因在一份事故报告中出现多次,计为共现一次,一组事故致因的共现值越大,二者的关联性就越大。统计180份事故报告中不同事故致因的共现次数,最终得到共现矩阵,详见表3。

表3 建筑工程事故致因共现矩阵(部分)Tab.3 Co-occurrence matrix of construction accidents(part)

中心性是衡量某一致因在整个数据集中重要程度的指标,反映某一致因与其他致因间的关联情况,致因的中心度越大,表明其在整个事故致因集中的重要度越高。使用UCINET软件对建筑工程事故致因进行中心性分析,结果详见表4。

表4 建筑工程事故致因的中心性Tab.4 Centrality of the causes of construction accidents

事故致因A1、A2的中心度占比均在0.1以上,表明其位于事故致因网络的核心位置,与其他事故致因的关联性最大,属于Ⅰ级事故致因。从安全事故发生的内在机制来看,有两方面因素,即物的不安全状态与人的不安全行为[16]。事故致因A1、A2同属于人的不安全行为,结合海因里希的事故因果连锁理论[3],人的安全思想对人的安全行为与物的安全状态有着至关重要的影响,因此要减少建筑工程事故的发生,根源上要从人的安全思想入手,提升建筑工程相关工作人员的安全意识,对一线作业人员进行切实、深入的安全教育,使安全思想深入人心,在根源上杜绝安全事故的发生。

3.4 事故地点分析

统计180份事故调查报告中的事故发生地点,绘制事故隐患地点对比词云图。词云自中心向外部辐射分布,关键词位置越靠近中心、字体越大代表其出现的频率越高,意味着该地点存在的安全隐患越多。“建筑外墙”“屋顶”“脚手架”“基坑工地”等安全隐患地点的词组字体较大,为词云中的核心词汇,即是建筑工程事故最易发生的核心地点,应在建筑工程施工风险管理中高度重视,重点防范。详见图4。

图4 事故隐患地点对比词云图Fig.4 Comparison word cloud map of accident hazard locations

4 结论

1)对180份事故调查报告进行事故类型统计分析发现,高空坠落、坍塌、物体打击是建筑工程安全生产中最易发生的事故,在建筑安全生产管理中应引起关注,制定相关预防措施。

2)基于词频分析,从180份事故调查报告中提取30个高频事故致因,根据其出现的频率进行等级划分,发现安全意识薄弱、未配戴安全设施是建筑工程事故的I级致因。

3)对事故致因进行共现矩阵分析及中心性分析发现,施工人员安全意识薄弱、未佩戴安全装置、工人无证上岗、未配安全管理人员、安全教育不到位处于事故致因关联网络的核心位置,说明此类因素易导致建筑工程事故发生,应制定针对性风险管理措施,有效预防事故的发生。

4)对事故地点进行可视化呈现,建筑外墙、屋顶、脚手架、基坑工地等处于词云核心,说明以上地点易发生建筑安全事故,在建筑工程安全生产风险管理中应重点对以上隐患地点进行风险防控。

猜你喜欢

调查报告事故建筑工程
建筑工程技术管理模式创新探索
国内艾灸应用现况调查报告
造价预结算在建筑工程中的审核方式及应用实践
一例育雏室通风不良造成鸡苗慢性死亡的调查报告
学中文
建筑工程预结算审核中常见问题分析与处理
隔震技术在建筑工程中的应用及发展趋势
废弃泄漏事故
小恍惚 大事故
2016年中国台湾直销事业调查报告