APP下载

基于文本挖掘的建筑施工坍塌事故致因研究

2022-11-03田水承王雪晨范彬彬

关键词:建筑施工事故文本

田水承 王雪晨 范彬彬

摘 要:为明确建筑施工坍塌事故致因及其关系,有效预防事故和减少伤害,选取2014—2020年间国内420例建筑施工坍塌事故调查报告,基于R语言文本挖掘的方法,对所选事故调查报告进行数据清洗、分词、特征选择后,利用WordCloud 2程序包对结果进行可视化展示。运用社会网络分析软件Ucinet对建筑施工坍塌事故致因网络进行中心性、核心-边缘结构及凝聚子群分析。结果表明,TF-IDF算法所得28项事故致因中,11项位于致因网络的核心区域,其中安全意识淡薄、管理混乱、资质不达标、隐患整改不力、监督检查不到位、违章操作等8项致因同样处于

词云突出位置,且各致因间联系紧密,应对其高度重视和管控,从而减少建筑施工坍塌事故的发生。关键词:建筑事故;坍塌致因;文本挖掘;R语言;社会网络分析中图分类号:X 947

文献标志码:A

文章编号:1672-9315(2022)05-0849-07

DOI:10.13800/j.cnki.xakjdxxb.2022.0502开放科学(资源服务)标识码(OSID):

Research on causes of collapse accidents in building construction based on text mining

TIAN Shuicheng1,2,WANG Xuechen1,2,FAN Binbin1,2

(1.College of Safety Science and Engineering,Xian University of Science and Technology,Xian 710054,China;2.Institute of Safety & Emergency Management,Xian University of Science and Technology,Xian 710054,China)

Abstract:In order to clarify the causes of building construction collapse accidents and the relationship between them,and effectively prevent accidents and reduce injuries,the data of 420 domestic building construction collapse accident investigation reports from 2014 to 2020 is taken as the mining language materials.Based on the method of text mining of R language,data cleaning,word segment,and character selection of the accident investigation reports are conducted,and the results are visualized using the WordCloud 2 package.The social network analysis software Ucinet is used to analyze the centrality,core-periphery structure,and cohesive subgroups of the network caused by building collapse accidents.The results show that among the 28 accident causes obtained by the TF-IDF algorithm,11 causes are located in the core area of the cause network,including poor security awareness,chaotic management,substandard qualifications,ineffective rectification of hidden dangers,inadequate supervision and inspection,illegal operations and other 8 ones which are also prominent in the word cloud.And the causes are closely related,which should be highly valueed and controled to reduce the occurrence of building construction collapse accidents.

Key words:construction accident;causes of collapse;text mining;R language;social network analysis

0 引 言隨着中国社会的快速发展,建筑业已逐渐成为国民经济的重要支柱产业之一,但在生产过程中重特大事故仍时有发生。据统计,2012—2018年间,中国共发生房屋市政工程生产安全事故4 100起,死亡5 011人,其中坍塌事故占11.46%,死亡人数占比高达18.86%[1],这表明建筑施工安全生产形势依然严峻,因此探究建筑施工坍塌事故关键致因及其关系,对提高施工安全管理水平、有效预防事故发生具有重要的现实意义。近年来,国内外学者从多种角度对建筑施工坍塌事故致因进行了研究。ZHANG等通过构建施工事故原因系统(CACS)模型和灰色关系分析方法(GRA)识别事故关键致因,将组织管理混乱等8个因素视为安全管理改进和事故预防的重点[2]。SOLIMA,BLAZIK等对比坍塌事故发生前、中、后3个时期的场地条件探究坍塌事故致因

[3-4]。MATHEBULA研究发现质量问题、设计缺陷、缺少安全检查是宗教建筑坍塌的重要致因[5]。李华、牛丰等运用STAMP模型对具体事故进行实证分析,以控制层面为切入点识别出导致事故发生的致因因素,并构建了层次结构模型[6-7]。田水承、KYUNGSU等分别采用扎根理论、随机森林等方法对建筑坍塌险兆事件致因进行分析,得出建筑坍塌事件险兆事件受人和物两方面因素的影响[8-9]。李卉、孙世梅等利用“2

-4”模型对100起建筑施工坍塌事故致因进行统计和分类,运用卡方检验和让步比(OR)确定致因间关联性大小及关键路径,认为管理人员安全习惯不佳、安全知识欠缺是导致事故发生的重要原因[10-11]。陈新亮以HFACS理论为基础,采用SVM-RFE算法筛选出对坍塌事故严重程度影响最大的因素[12]。KIM,TERESA运用层次分析法对坍塌事故的致因进行量化分析,得出施工过程中风险因素评估不到位、监督检查疏忽引起的操作失误是导致事故的关键因素[13-14]。上述研究成果大多利用统计法、专家访谈法和问卷调查法,从不同角度对建筑施工坍塌事故致因进行了分析,但其中致因识别环节工作量大且易受主观因素的影响,致使研究结果具有一定局限性,采用机器学习的方法从数据量大、内容复杂的建筑施工坍塌事故调查报告中挖掘出建筑施工坍塌事故致因,最大限度地发挥历史数据的应用价值成为当前的迫切需求[15]。利用文本挖掘从非结构化文本数据中获取相关有用信息是一种非常成熟的技术手段,在煤矿、隧道施工、交通等领域的事故预测和原因分析中得到了广泛应用[16-18]。纵观已有文献,文本挖掘在建筑施工坍塌事故致因方面的研究甚少。文中拟采用文本挖掘与社会网络分析相结合的方法,从文本数据中自动识别出建筑施工坍塌事故的共性致因,构建建筑施工坍塌事故致因网络,并进行中心性、核心-边缘结构及凝聚子群分析,深入探究各致因间相互关系,为预防建筑施工坍塌事故的发生提供理论指导。

1 文本挖掘文本挖掘(Text Mining)[19]是指利用机器学习、归纳推理等方法,从大量非结构化文本集,抽取或标记文本集中词与词语间的关系,进而实现主题追踪、结构分析、信息可视化等功能的计算机处理技术,文本挖掘的主要处理过程如图1所示。

1.1 文本挖掘的工具选取为满足海量数据处理的需求,众多统计分析软件被广泛应用[20]。R语言(R Language)作为免费

的开源编程类软件,功能涵盖数据清洗、数据分

析、挖掘建模及可视化等全过程,且各种统计学前沿理论方法的应用程序均以程序包的形式在R语言中得以实现,用户可针对具体需求选择相应的程序分析包,实现任何数据相关的操作。鉴于R语言开源性、全面性等特点,文中将选用R语言及其相关程序包对建筑施工坍塌事故报告进行文本挖掘。

1.2 文本语料库的选取事故调查报告是事故统计与分析的重要数据来源,对事故发生的单位情况、发生经过、救援情况等有全面的叙述。从中国应急管理部、住房和城乡建设部等网站共收集2014—2020年建筑施工坍塌事故调查报告420份,涉及34个省级行政区,将此作为文本挖掘的语料。为减少文本挖掘的無效工作时间,本次语料库只保留事故调查报告中“事故原因”和“发生经过”的内容,并按条列编号,将其保存为“.csv”格式。

2 基于文本挖掘的建筑坍塌致因分析

2.1 事故致因挖掘分词是将连续的语句按照一定规则转换为词序列的过程。将420份建筑施工坍塌事故调查报告导入R,通过Jieba R和Jieba RD程序包对其进行分词处理。为使分词结果的效果达到预期目的,在分词前需自定义停用词词典、专业词语词典。将哈工大停用词表导入stop_words.txt中,避免虚词对文本的识别误差;将搜狗输入法中建筑工程、安全工程等相关细胞词库转换为.txt格式,导入user.dict.txt中,旨在消除类似含义但是不同表述词语的干扰,如将“安全知识不足”、“缺少安全知识”、“安全知识欠缺”等表述归并处理。因语料库选取对象为事故调查报告,所以无法避免出现“事故”、“原因”等词语,故需反复更新停用词表,对无关词语进行适当删除。分词共得到1322项原始特征值,部分词频如图2所示。分词后特征项较多,会对后续分析造成严重干扰,因此对分词结果进一步筛选。

TF-IDF是一种用于信息检索和文本挖掘的加权算法,用以评估字词在某一文本或语料库的重要程度[22]。字词在语料库中出现的次数越多,表示该字词的区分度越差,重要程度越低。TF-IDF所提取的关键词在文档中具有强代表性,可有效区别于其他语料库。所以采用TF-IDF算法对特征项进一步评估,计算公式如下

式中TFij为词频;nij为词条在事故调查报告Di的词频;∑knkj为事故调查报告|D|中所有词条出现的次数之和;IDFi为逆向文本频率;|{j∶ti∈dj}|为包含该词条语句的调查报告的数量总和;TF-IDFij为词条对应特征值权重。利用公式计算各特征值的TF-IDF值,将其作为特征项权重,并转换为向量空间模型。由于特征项较多,选取具有代表性且权重值排序前40项特征值,手动删除“施工”、“安全管理”等无关项后,共保留28项特征值,并对其进行编码,编码结果见表1,Fi表示建筑施工坍塌事故的第i项事故致因。手动筛选泉州欣佳酒店“3·7”、丰城电厂“11·24”等坍塌事故致因,与表1进行比较发现,文本挖掘所得事故致因涵盖手动筛选结果,且能将事故致因具体化,说明文本挖掘分析建筑施工坍塌事故致因符合建筑施工安全管理实际。

2.2 致因词云图绘制为更直观地展示所挖掘的事故致因重要度程度,本研究将29个特征项及相应TF-IDF值转换data.frame格式,运用WordCloud2程序包进行可视化,如图3所示。

图3中词语字体大小代表该词语的重要程度,安全意识淡薄、安全培训不到位、隐患整改不力、资质不达标占比较大,在建筑施工风险防控中应给予高度重视。

3 基于Ucinet的致因网络分析为探究建筑施工坍塌事故致因间的作用关系,采用Ucinet对其进行网络分析。通过Dichotomize函数得到密度为0.871,标准差为0.267的二值化矩阵。

3.1 共现网络构建及可视化分析事故的发生是多因素耦合的结果,同样,建筑施工坍塌事故的发生并不是由某一因素单独导致[23]。为明确建筑施工坍塌事故各致因间的共现关系、绘制可视化图谱,运用共现分析的方法统计某一组词语在同一文本中出现的次数,统计结果见表2。

运用Ucinet-NetDraw模块绘制建筑施工坍塌事故致因网络关系图,如图4所示。节点间连线表示事故致因间的分布关系,线条粗细表示两者之间关系的紧密程度。安全意识淡薄、违章操作、安全培训不到位,安全重视程度不够与其他致因项共现频率高,在致因网络中起关键作用。

3.2 网络中心性分析中心性表明一个节点占据网络中心的程度,度中心度是网络分析中常用的度量指标,反映某一节点与其他节点之间的连接情况,一个节点的度中心度越大表示该节点在网络中越重要[24]。通过Ucinet软件对建筑施工坍塌事故致因网络进行中心性分析,网络总体整合度数据见表3。节点中心度分析结果与词云显示结果基本相符。

安全意识淡薄、违章操作、安全培训不到位的度数中心度占比均在0.05以上,位于建筑施工坍塌事故致因网络核心区域,与其他事故致因具有复杂的因果关系,同时也处于词云的关键节点,在建筑施工坍塌事故预防与防控中应给予高度重视。根据海因里希理论,以上3项致因存在时极有可能诱发其他因素,导致人的不安全行为、物的不安全状态的发生,进而酿成事故。如违章操作往往是由于施工人员安全意识淡薄、企业安全培训不到位等多原因所致,而这些因素又会导致下一致因的出现,形成多米诺效应,进而造成事故。

3.3 核心边缘结构分析由事故因果致因理论可知,事故是由人、机、环境、管理之间相互作用所导致。因此在分析建筑施工坍塌事故致因时,考虑核心因素的同时也要考虑核心因素与边缘因素之间的联系。核心-边缘结构能够精确地区分社会网络中的高密度核心区域与低密度边缘区域,建筑施工坍塌事故核心-边缘分析结果见表4。核心区域平均密度为27.409,边缘区域平均密度仅为7.680,表明核心致因因素间关系紧密,在网络中起到控制作用。在事故预防中应重视安全意识淡薄、管理混乱、资质不达标、荷载分布不均等11项核心致因项,制定具有针对性的管控措施,从而预防建筑施工坍塌事故的发生。

3.4 凝聚子群分析采用Ucinet-Concor模块解释建筑施工坍塌事故致因网络存在的聚集关系,进而挖掘凝聚子群如图5所示。各子群内部因素在形成或致灾等方面联系紧密,各因素相互影响和作用,相关性较强。安全意识淡薄、资质不达标、未佩戴个人防护用品、安全知识欠缺等8个因素与人的职业素质、状态相关,如施工人员安全意识淡薄常表现为安全知识欠缺,作业中易出现擅自施工、冒險作业和违章操作等现象,致使工人不安全行为的发生概率增加,进而增大事故发生的可能性;管理混乱、安全生产制度不健全、隐患整改不力等8个因素与企业及管理层的决策情况相关,质量不过关、荷载分布不均等7个因素与施工过程方案及建筑物情况相关,气候异常、设备陈旧等5个因素与施工环境相关。减少建筑施工坍塌事故的发生既需减少子群内部的联系,也要避免各子群之间的相互作用。

4 结 论

1)采用TF-IDF算法明确建筑施工坍塌事故的28项致因,词云可视化结果表明,安全意识淡薄、监督检查不到位、资质不达标、隐患更改不力等致因占比较大,在施工管理中需重点防控。

2)通过对建筑施工坍塌事故致因网络进行中心性分析、核心边缘结构及凝聚子群分析,明确监督检查不到位、安全知识欠缺、违章操作等11项核心致因,17项边缘致因,且核心事故致因间关系紧密。

3)安全意识淡薄、管理混乱、资质不达标、隐患整改不力、监督检查不到位、违章操作、安全责任落实不到位、安全培训不到位8项致因项处于词云突出位置与社会网络核心区域,极易在施工过程中引发人的不安全行为和物的不安全状态,最终导致建筑施工坍塌事故的发生。

参考文献(References):

[1]张鸿辉,李润求.2012—2018年建筑施工事故统计分析及对策[J].科技创新与应用,2020,31:135-137,139.ZHANG Honghui,LI Runqiu.Statistical analysis and countermeasures of construction accidents from 2012 to 2018[J].Technology Innovation and Application,2020,31:135-137,139.

[2]ZHANG W,ZHU S N,ZHANG X,et al.Identification of critical causes of construction accidents in China using a model based on system thinking and case analysis[J].Safety Science,2020,121:606-618.

[3]SOLIMAN K.Building collapse during construction[J].Practice Periodical on Structural Design and Construction,2010,15(2):99-100.

[4]BLAZIK B,SZER J.The analysis of the stages of scaffolding “life” with regard to the decrease in the hazard at building works[J].Archives of Civil and Mechanical Engineering,2015,15(2):516-524.

[5]MATHEBULA A M,SMALLWOOD J J.Religious building collapses:The heavy price of short cuts in places of worship and pilgrimage site construction[J].Procedia Engineering,2017,196:919-929.

[6]李华,金萌,钟兴润.基于STAMP模型的建筑事故致因因素定量分析方法研究[J].中国安全生产科学技术,2020,16(4):169-175.LI Hua,JIN Meng,ZHONG Xingrun.Research on quantitative analysis method for causal factors of construction accidents based on STAMP model[J].Journal of Safety Science and Technology,2020,16(4):169-175.

[7]牛豐,王昱,周诚.基于STAMP模型的地铁施工安全事故致因分析[J].土木工程与管理学报,2016,33(1):73-78.NIU Feng,WANG Yu,ZHOU Cheng.Analysis of safety accidents caused by subway construction based on STAMP model[J].Journal of Civil Engineering and Management,2016,33(1):73-78.[8]田水承,范彬彬,杨鹏飞,等.基于扎根理论的建筑坍塌险兆事件的影响因素[J].西安科技大学学报,2021,41(1):23-28.TIAN Shuicheng,FAN Binbin,YANG Pengfei,et al.Influencing factors of near-misses in building collapse based on the grounded theory[J].Journal of Xian University of Science and Technology,2021,41(1):23-28.

[9]KYUNGSU K,HANGUK R.Predicting types of occupational accidents at construction sites in Korea using random forest model[J].Safety Science,2019,120:226-236.

[10]李卉,张云波,祁神军.建筑施工坍塌事故致因分析及对策[J].建筑经济,2018,39(8):53-57.LI Hui,ZHANG Yunbo,QI Shenjun.Cause analysis and countermeasure of building construction collapse accident[J].Construction Economy,2018,39(8):53-57.

[11]孙世梅,景然,唐彩萍,等.建筑施工坍塌事故不安全动作原因分析[J].吉林建筑大学学报,2021,38(2):53-59.SUN Shimei,JING Ran,TANG Caiping,et al.Analysis on the cause of unsafe actions in building construction collapse accident[J].Journal of Jilin Jianzhu University,2021,38(2):53-59.

[12]陈新亮.基于FA和GA-SVM的建筑施工坍塌事故严重程度分析预测[D].长沙:长沙理工大学,2020.CHEN Xinliang.Analysis and prediction of the severity of collapse accidents in building construction based on FA and GA-SVM[D].Changsha:Changsha University of Science & Technology,2020.

[13]KIM G H.Collapse accident factors of Pangyo vents by analyzing AHP[J].Journal of the Korean Society of Hazard Mitigation,2015,15(6):1-8.

[14]TERESA L,DAVID E,MARTIN B,et al.Risk management in the Lusoponte concession:a case study of the two bridges in Lisbon,Portugal[J].International Journal of Project Management,2004,22(1):63-73.

[15]黑永健.基于文本挖掘的地铁施工隐患分析及可视化研究[D].武汉:华中科技大学,2019.HEI Yongjian.Research on analysis and visualization of subway construction safety hazards based on text mining[D].Wuhan:Huazhong University of Science and Technology,2019.

[16]李解,王建平,许娜,等.基于文本挖掘的地铁施工安全风险事故致险因素分析[J].隧道建设,2017,37(2):160-166.LI Jie,WANG Jianping,XU Na,et al.Analysis of safety risk factors for metro construction based on text mining method[J].Tunnel Construction,2017,37(2):160-166.

[17]谭章禄,陈孝慈.基于文本挖掘的煤矿安全隐患管理研究[J].中国安全生产科学技术,2020,16(2):43-48.TAN Zhanglu,CHEN Xiaoci.Research on management of hidden danger in coal mine based on text mining[J].Journal of Safety Science and Technology,2020,16(2):43-48.

[18]韓天园,田顺,吕凯光,等.基于文本挖掘的重特大交通事故成因网络分析[J].中国安全科学学报,2021,31(9):150-156.HAN Tianyuan,TIAN Shun,LYU Kaiguang,et al.Network analysis on causes for serious traffic accidents based on text mining[J].China Safety Science Journal,2021,31(9):150-156.

[19]陈晓云.文本挖掘若干关键技术研究[D].上海:复旦大学,2005.CHEN Xiaoyun.The key techniques research on text mining[D].Shanghai:Fudan University,2005.[20]袁军鹏,朱东华,李毅,等.文本挖掘技术研究进展[J].计算机应用研究,2006(2):1-4.YUAN Junpeng,ZHU Donghua,LI Yi,et al.Survey of text mining technology[J].Application Research of Computers,2006(2):1-4.

[21]杨霞,吴东伟.R语言在大数据处理中的应用[J].科技资讯,2013(23):19-20.YANG Xia,WU Dongwei.Application of R language in big data processing[J].Science & Technology Information,2013(23):19-20.

[22]施聪莺,徐朝军,杨晓江.TF-IDF算法研究综述[J].计算机应用,2009,29(S1):167-170,180.SHI Congying,XU Chaojun,YANG Xiaojiang.Study of TF-IDF algorithm[J].Journal of Computer Applications,2009,29(S1):167-170,180.

[23]牛聚粉.事故致因理论综述[J].工业安全与环保,2012,38(9):45-48.NIU Jufen.Discussion on accident-causing theory[J].Industrial Safety and Environmental Protection,2012,38(9):45-48.

[24]朱庆华,李亮.社会网络分析法及其在情报学中的应用[J].情报理论与实践,2008(2):179-183,174.ZHU Qinghua,LI Liang.Social network analysis method & its application in information science[J].Information Studies:Theory & Application,2008(2):179-183,174.

猜你喜欢

建筑施工事故文本
建筑施工及加强建筑施工安全管理
土木工程建筑施工技术创新
建筑施工管理工作探讨
学中文
土木工程建筑施工技术创新初探
在808DA上文本显示的改善
废弃泄漏事故
基于doc2vec和TF-IDF的相似文本识别
小恍惚 大事故
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻