APP下载

基于文本挖掘的化工事故致因网络分析

2022-09-26张远进李晓荣

关键词:化工关联节点

李 莉,张远进,李晓荣

(1.武汉理工大学 中国应急管理研究中心,湖北 武汉 430070;2.武汉理工大学 安全科学与应急管理学院,湖北 武汉 430070;3.斯旺西大学 工程学院,斯旺西 英国 SA2 8PP)

化工园区危化品种类繁多,工艺流程复杂危险,危险化学品事故一旦发生,会造成惨重的人员伤亡和经济损失。据统计,2016—2020年我国共发生化工和危险化学品事故929起,造成1 176人死亡(统计数据不包括港澳台)[1]。如2019年江苏响水天嘉宜化工有限公司“3·21”特别重大爆炸事故,造成78人死亡,直接经济损失19.86亿元。因此,研究化工事故致因,并深入挖掘各因素间的影响关系,提出针对性的措施,对于预防化工事故发生和保障安全生产具有重大意义。

目前已有不少学者采用不同的事故致因理论对化工事故进行分析,但简单的线性描述无法真实地反映当今复杂化工园区系统下各个风险因素的非线性的交互关系[2],如HE等[3]使用危险与可操作性研究确定了有机氢化物加氢站的105种事故情况,并将其分为两组,分别研究了防止事故发展的安全措施;SUZUKI等[4]提出了一种基于场论和蒙特卡洛模拟的化工多米诺事故风险定量评估的方法,并以江苏盐城某化工厂典型的多米诺事故为例进行研究,得出多米诺事故可分为快速发展阶段、稳定阶段和弱化阶段的结论。为了深入挖掘各个风险因素之间的交叉影响关系,越来越多的学者将社会网络分析技术和复杂网络理论应用到安全管理领域。李珏等[5]运用社会网络分析技术构建高处坠落事故致因网络,并结合潜在类别模型研究主要致因的交互作用。张伟等[6]将复杂网络应用于塔吊安全事故致因研究,识别塔吊安全事故的关键致因和关键致因链路。在化工领域,陈国华等[7]基于复杂网络理论,建立了化工园区多灾种耦合关系数学模型,提出了基于网络节点重要度的断链减灾模型,并进行断链减灾分析。但上述研究所分析的事故案例主要采用人工读取数据,并在此基础上以专家打分或者问卷调查的形式构建安全风险网络,此方法工作量大并且受不同专家经验影响,具有较大的主观性。

为有效避免主观因素影响,很多学者采用了文本挖掘技术对事故致因进行统计分析。文本挖掘技术是一种从文本类型的信息中获取有价值知识的挖掘分析方法。目前文本挖掘技术在安全管理领域应用较少,主要应用在煤矿、交通道路、建筑施工等领域。如陈聪聪等[8]运用文本挖掘技术挖掘尾矿库事故的关键隐患因素,并采用关联规则挖掘算法分析因素之间的关联性,表征了隐患因素导致事故发生的耦合关系。韩天园等[9]通过文本挖掘技术,并结合人-车-路系统安全理论,研究重特大道路交通事故机制。上述文本挖掘技术在安全管理领域的应用多局限于事故因素的定量分析,未充分考虑事故因素的特殊性,分析不同层级的事故因素间的影响关系。

化工事故调查报告中记录了大量化工事故文本数据,使用文本挖掘技术可以充分利用这些数据价值,不仅能对事故类型、事故发生时间、事故伤亡等数据简单地统计,对于化工事故调查报告里蕴含的大量事故发生机理也能深入挖掘。与传统化工事故风险因素识别方法相比,将文本挖掘技术应用于化工事故领域,可以减少工作量,同时可有效避免因问卷打分进行赋权的方法造成的人为主观影响,提高结果的准确性。

鉴于此,笔者在相关研究的基础上,将文本挖掘方法与社会网络分析方法相结合,挖掘化工事故调查报告文本中的潜在事故致因,并深入分析化工事故致因特征和事故特征之间的交叉影响关系。首先对事故报告进行分词处理,运用词频-逆文档频率(term frequency-inverse document frequency, TF-IDF)算法,挖掘了事故中的不同层级的38项事故特征。在此基础上,采用Apriori算法挖掘化工事故致因之间的强关联规则,并将事故特征绘制成网络结构图并进行社会网络分析。通过网络中心性分析和凝聚特性分析,挖掘出化工事故关键致因,以及各事故因素之间的交叉影响关系,为化工事故的预防控制提供参考。

1 化工事故数据来源及处理

从我国各省市应急管理部(局)官网以及网络收集我国(不包括港澳台地区)2010—2021 年共200份化工生产事故调查报告,涉及火灾、爆炸、高处坠落、中毒窒息和起重伤害等多种事故类型。选取事故调查报告中详细描述事故发生原因的章节作为文本挖掘对象,将文本内容格式化处理并进行编号完成语料库构建。

采用文本挖掘技术对化工事故报告文本特征进行挖掘,采用TF-IDF算法对文本特征赋予权重,提取事故特征,并根据人因分析和分类系统(human factors analysis and classification system,HFACS) 模型将事故致因分成4个层级[10]。其次,利用Apriori算法提取事故特征之间的强关联规则。最后,计算关键词共现矩阵,在此基础上构建一个化工事故致因网络,通过网络中心性分析得到核心事故原因,进而通过k-核结构分析化工事故特征的凝聚特性。文本挖掘技术与网络构建分析如图1所示。

2 化工事故报告文本挖掘

2.1 事故影响因素词表构建

选用Python作为文本挖掘的程序语言,使用Jieba中文分词模块对语料库进行分词处理。为了丰富语料库中的化工安全领域专业词汇,避免分词模块无法识别专业词汇,以及减少无关词汇的干扰,在进行文本分词之前自定义化工安全专业词库、停用词表和归并词表,并使用Jieba中文分词模块加载更新词库。化工安全专业词库包括搜狗词库的化工领域专业词库和安全管理领域专业词库。停用词表包括《现代汉语虚词词典》和自定义的停用词,如“报告”、“事故”、“化工”等化工安全领域相关词汇,这些词汇频繁出现但是对于事故原因分析主题无益,因此要删除这些词汇,防止干扰关键词汇挖掘结果。由于不同事故报告中对相同含义的事故致因描述并不是完全一致,导致分词结束后会出现大量含义相同但表述不一样的词汇,因此构建同义词归并词表,将不同表述的同一事故致因替换成相同的词汇,避免同一事故致因由于表述不同而被忽略,影响文本挖掘准确性。由于灼烫、车辆伤害、物体打击事故数量较少,将这3类事故合并成“其他事故”类型。同义词归并词如表 1所示。

表1 部分同义词归并词表

2.2 化工事故特征的词云分析

利用经过数据清洗并分词所得到的语料库来制作词云图。事故特征的词云分析如图2所示。词云图中,词的文字越大,且越处于中间位置,表明其词的频数越大。由图2可知,化工事故致因分布于安全教育培训不到位、安全检查不到位、生产工艺变更或不合理和监管不到位等方面。

图2 词云图

2.3 化工事故特征关键词提取

特征词出现的频率在一定程度上表明其重要性,仅根据词频不能准确反映词的重要性,因此引入TF-IDF算法赋予特征词权重。TF-IDF算法不同于简单的词频统计,可以更准确地量化某个字词在一份文件中的重要性。TF-IDF算法实际上是词频TFij和逆文档频率IDFj的乘积,一个词在文档中的重要性与其在文档中出现的频率成正比,但同时会随着它在整个语料库中出现的频率成反比下降。TF-IDF算法中,词频TFij与逆文档频率IDFj如下:

(1)

(2)

根据词云图结果剔除“记录”、“系统”等与事故致因主题不符的词汇,并用TF-IDF 算法计算词语的权重,提取出权重值大小排名前38的事故特征,包括4个层级的33个事故致因关键词和5种事故类型,结果如表 2所示。

表2 化工事故特征表

2.4 化工事故致因关联分析

在由38个事故特征组成的化工事故致因系统中,如果一个或多个事故因素不能得到控制,将直接或间接地影响与之密切相关的因素,使风险在系统内扩散,最终导致事故的发生。关联规则分析可以挖掘多个因素之间的关联关系,应用Apriori算法挖掘化工事故致因之间的强关联规则[11]。根据Apriori算法分析的要求,最小支持度设为0.06,最小置信度设为0.8,最小提升度设为1。共挖掘出175条强关联规则,反映了化工事故致因之间的密切联系,部分关联规则如表3所示。

表3 部分关联规则表

分析175条强关联规则,发现强关联规则可分析出事故特征之间的关联性,表明隐患因素之间、隐患因素和事故之间存在因果关系。以关联规则表中序号为1的关联规则为例,在发生化工生产事故的情况下,出现了监管不到位的隐患,则有很大概率会同时出现装置设计缺陷的隐患,支持度为0.309,置信度为0.962;关联规则表中序号为5的关联规则表明,在出现火源的情况下,有很大概率发生爆炸,支持度为0.321,置信度为0.898。监管不到位、安全教育培训不到位、未落实安全生产责任这3个事故特征在化工事故特征关联规则中出现频繁,在175条强关联规则中,有23条强关联规则和监管不到位有关,有73条强关联规则和安全教育培训不到位有关,有106条强关联规则与未落实安全生产责任有关。这些规则表明,企业应加强安全管理工作,提高安全管理水平,重视开展安全教育培训工作。

3 化工事故致因网络的构建与分析

3.1 化工事故致因网络构建

计算 38个事故特征在不同语料库中的共现频率,如同一组关键词在一个事故调查报告中出现多次,记为共现一次,最终得到化工事故特征的共现矩阵如表 4所示。若2个特征共现值越大则其关联性越强,根据构建的化工事故特征共现矩阵,使用Pajek和VOSviewer软件绘制化工事故致因网络如图 3所示。

图3 化工事故致因网络图

表4 部分事故特征共现矩阵

化工事故致因网络图中节点表示化工事故特征,节点间连线表示各事故特征之间的关系。节点越大表明该事故特征在整个语料库中出现的频数越大,对事故影响越大;节点间连线越粗、越密集表示事故特征之间联系越紧密。

3.2 小世界特性分析

使用平均最短路径和聚类系数量化化工事故致因网络的小世界特性[12-13]。笔者构建的化工事故致因网络图,其平均路径长度[14]指每两个事故致因之间最短距离和的平均值。网络平均路径长度反映网络传播速度,平均路径长度越大,网络传播速度越慢,说明各事故致因之间影响小。反之,平均路径长度越小,则越容易有多事故因素耦合引发事故。使用 Pajek 软件计算得到化工事故致因网络的平均最短路径为1.07。网络中任意两个节点之间的距离的最大值称为网络的直径,使用Pajek软件计算网络中距离最大的两个节点的距离为2,由节点“安全管理混乱”到节点“恶劣天气”得到。网络的聚类系数用来量化网络中节点的聚类特性,计算得出各个节点聚类系数值均大于0.9,远高于同等规模的随机网络聚类系数值。说明该化工生产事故致因网络中各节点之间平均每两个节点之间都有联系,网络平均最短路径长度小,聚类系数大,表明该化工事故致因网络具有小世界特性。

3.3 网络中心性分析

对化工事故致因网络中节点的中心性分析可以用来衡量关键词在网络中的重要性,计算网络中心性的指标主要有度中心性、中介中心性和接近中心性。各事故特征的中心性如表 5所示。节点的度中心性越大在整个网络中越重要。考虑各事故特征在不同事故调查报告中共现的频数,赋予节点度值权重。由度中心性分析可知:安全事故隐患、安全教育培训不到位、监管不到位、安全管理混乱、履职不到位、泄漏、危化品是最普遍的化工生产事故原因。接近中心性体现一个节点与其他节点的临近程度,值越小说明这个节点到其他节点的路径越短,说明这个点和其他节点联系越紧密。由接近中心性和中介中心性分析可知:安全事故隐患、安全教育培训不到位、监管不到位、火源等诸多因素对事故成因网络影响显著,事故成因特征间关系紧密,反映出化工生产事故的生成路径多元,作用链简短的特点,与平均路径长度和聚类系数反映结果一致。

表5 事故特征的中心性

3.4 凝聚特性分析

节点的凝聚性可以反映网络中节点的关联性,在凝聚子群中,节点之间具有相对较强而直接的纽带联系,节点之间的连线越多,结构越稳定,凝聚性越强。采用k-核分解方法来挖掘化工事故特征的凝聚子群,用以分析各事故特征之间的凝聚性[15]。对事故特征网络进行凝聚特性分析可以同时分析核心致因与其联系紧密的边缘致因,因此可以针对性地控制核心风险因素和边缘风险因素之间的相互影响,防止进一步演化成事故。

k-核分解过程是从外层向内层延伸式扩展进行的,最小核节点通常位于网络最外层,最大核节点位于网络的最内层。k-核节点频数分布如表6所示,共分成11个子类,化工事故k-核结构如图4所示。该网络的最高核为37-核,37-核结构构成了网络最大连通子图,是网络的核心群体,表示该化工事故致因网络的核心特征为:F19(安全事故隐患)、F26(安全教育培训不到位)、F28(安全管理混乱)、F25(监管不到位)、F14(管道)、F1(未落实安全生产责任)、F8(无资质或无证作业)、F10(安全设施缺失)、A1(爆炸)。这些事故特征聚集性强,每个事故特征都与其他事故特征有直接联系。因此发生爆炸事故时,通常是由安全事故隐患、安全教育培训不到位、监管不到位等多个事故因素交叉影响的结果。

表6 k-核节点频数分布表

图4 化工事故特征K-核结构

4 化工事故致因分析结果与预防措施

通过上述分析可得,化工事故发生是多个层级的事故因素耦合的结果。有效识别安全隐患并针对性采取措施,从根源上减少事故隐患并切断风险传播路径,减少事故致因之间的交叉影响,是有效预防控制化工事故发生的关键。根据上述化工事故致因分析,以HFACS 模型为基础,从不安全行为、不安全行为的前提条件、不安全监管和组织影响4个层面提出以下预防建议。

(1)在不安全行为层面,未落实安全生产责任制、违法建设、违章作业、无资质或无证作业等事故致因具有较高的权重。因此,企业应完善并落实安全生产责任制,严查违规违章作业,坚决制止无资质或无证作业行为,同时建立更完善的奖惩制度,督促作业人员遵守安全操作规程,减少不安全行为。

(2)在不安全行为的前提条件层面,事故因素主要集中在危化品、泄漏、安全意识淡薄等方面。因此,应定期对操作人员和管理人员进行安全教育培训,同时注重企业安全文化建设,营造良好的安全文化氛围,切实提高作业人员安全意识。

(3)在不安全监管层面,监管不到位、安全管理混乱、安全教育培训不到位等事故致因权重都较大,表明不安全监管层级是化工事故的关键成因。因此企业应加强安全管理部门的建设,完善安全管理制度,加强监管力度。 同时,政府部门应加强对企业的监督管理力度,并督促企业重视安全管理工作。

(4)在组织影响层面,履职不到位、应急处置能力、操作规程缺陷等事故致因具有较高权重。生产过程中相关程序、标准、制度不完善会导致履职不到位和应急处置能力不足等相关致因出现,进而影响安全检查工作的顺利进行和应对突发状况的能力。因此,企业应制定完善的操作规程和应急预案,并对作业人员培训,确保作业人员完全掌握;生产过程中相关人员应履职到位,在管理制度中加入奖惩制度以鼓励各责任人履职到位,全面落实安全生产责任。

5 结论

(1)使用文本挖掘技术可以从大量事故报告文本数据中识别出化工事故关键致因,提高工作效率,并将文本挖掘结果可视化,绘制词云图和构建事故致因网络,直观反映出化工事故的关键致因;关联规则分析可以挖掘出事故致因之间的强关联性。

(2)使用社会网络分析技术可以对化工事故致因网络的整体结构、规模和网络中各节点的结构特性进行深入分析,确定化工事故关键致因和风险传播路径。关键事故致因的确定,有助于针对性地提出化工事故预防控制措施,及时排查事故隐患并阻断风险传播路径。

(3)构建了化工事故致因网络,并对化工事故致因之间的影响关系进行了分析,以HFACS 模型为基础,从不安全行为、不安全行为的前提条件、不安全监管和组织影响 4个层面提出化工事故预防措施。但缺少对不同化工事故发生的灾害损失进行量化,今后可以结合社会网络分析技术和灾害损失度量模型,进一步对化工事故风险进行量化。

猜你喜欢

化工关联节点
《化工管理》征稿简则
《化工管理》征稿简则
《化工管理》征稿简则
《化工管理》征稿简则
基于图连通支配集的子图匹配优化算法
结合概率路由的机会网络自私节点检测算法
面向复杂网络的节点相似性度量*
采用贪婪启发式的异构WSNs 部分覆盖算法*
“一带一路”递进,关联民生更紧
奇趣搭配