基于Apriori算法的易燃易爆危险化学品储运火灾爆炸事故关键致险因素的挖掘
2017-12-28陈伟珂
陈伟珂,张 欣
(天津理工大学管理学院,天津,300384)
基于Apriori算法的易燃易爆危险化学品储运火灾爆炸事故关键致险因素的挖掘
陈伟珂,张 欣*
(天津理工大学管理学院,天津,300384)
导致易燃易爆危险化学品储运火灾爆炸事故的因素繁多、关系复杂,挖掘关键致险因素是减少管理成本、提高防控效率的关键。研究了200例事故等级为较大事故以上的易燃易爆危险化学品储运火灾爆炸事故的原因,采用事故树分析法建立易燃易爆危险化学品储运火灾爆炸事故树,并运用频度统计法遴选出致险因素;在此基础上,建立基于Apriori算法的关联规则模型进行数据挖掘,共得到14个关键致险因素。通过对关键致险因素与易燃易爆危险化学品储运火灾爆炸事故之间关联规则的分析表明,关键致险因素与事故之间存在强关联规则,单一关键致险因素或其组合的存在必将导致事故的发生,为实现危险化学品储运精准化安全管理提供参考。
易燃易爆化学品;储运;火灾爆炸事故;风险因素;Apriori算法;关联规则
0 引言
易燃易爆危险化学品储运火灾爆炸事故具有突发性、复杂性、灾难性等特点[1],安全状况依然严峻:2015年8月12日,天津港瑞海公司危险化学品仓库发生特别重大火灾爆炸事故,事故造成165人遇难,8人失踪,798人受伤住院治疗,初步核定直接经济损失68.66亿元人民币,安全生产面临巨大的挑战。由于引发易燃易爆危险化学品储运火灾爆炸事故的因素繁多,很难对所有致险因素进行全方位的实时监控。因此,通过分析致险因素与易燃易爆危险化学品储运火灾爆炸事故之间的关联性大小,甄选出导致事故的关键致险因素,成为避免火灾爆炸事故的根本途径和刻不容缓的任务。
根据《危险化学品目录(2015 版)》划分标准,易燃易爆危险化学品是指以燃烧爆炸为主要特性的加压气体、易燃液体、易燃固体、自燃物品和遇湿易燃物品、氧化剂和有机过氧化物以及毒害品、腐蚀品中部分易燃易爆化学物品。近年来,危险化学品储运火灾爆炸事故致险因素的研究越来越得到重视。周和牟[2]分析了码头装卸作业过程中的危险因素;栾等[3]分析了导致危险化学品铁路运输事故发生的原因;Adedigba等[4]和朱等[5]借助贝叶斯网络分析危险化学品道路运输事故中各因素之间的依赖性和非线性作用结构关系;李和闫[6]运用变一致性优势关系粗糙集理论分析了不确定因素重要度,进而揭示风险因素之间的因果关系及其不可约简规则。经过文献研究发现,存在致险因素的分析不全面,致险因素与事故之间关联性大小的分析不足,关键致险因素的挖掘过程不严谨等问题;同时专门对易燃易爆危险化学品储运火灾爆炸事故关键致险因素进行数据挖掘的研究较少。因此,亟需一种新的分析方法解决上述问题。
易燃易爆危险化学品储运火灾爆炸事故是由众多因素构成的非线性系统,事故数据量大,因素间关系错综复杂[7],因此关键致险因素需要从大量不完整的事故数据中进行数据挖掘。而关联规则是用于数据挖掘的经典算法,可以从大量事故数据中分析致险因素与事故之间的关联关系[8],从而提取关键致险因素。在电力、交通和医学等领域都有广泛的应用[9- 11],但在危险化学品储运安全管理领域应用较少。本文首先采用事故树识别出易燃易爆危险化学品储运火灾爆炸事故的风险因素;其次,根据各风险因素频度的大小,通过频度统计法遴选出致险因素;最后,运用基于Apriori算法的关联规则建立关键致险因素数据挖掘模型,甄选出关键致险因素。易燃易爆危险化学品储运火灾爆炸事故关键致险因素的挖掘过程如图1所示。
图1 易燃易爆危险化学品储运火灾爆炸事故关键致险因素的挖掘过程Fig.1 Mining of key risk factors for fire and explosion in storage and transportation of hazardous chemicals
1 易燃易爆危险化学品储运火灾爆炸事故因素分析
1.1 基于事故树的风险因素的识别
1961年,美国贝尔电话研究所Watson等[12]在研究民兵式导弹发射控制系统时提出事故树分析法(FTA, Fault Tree Analysis)。事故树是由果至因的故障分析方法,其分析事故因素是强项。通过逻辑推理和演绎以及对生产流程的层层分析,直至找出事故的基本原因。将这些基本原因称为易燃易爆危险化学品储运火灾爆炸事故风险因素,并建立各风险因素与火灾爆炸事故的因果关系和逻辑关系[13]。
通过国家安全生产监督管理总局网站、中国化学品安全协会网站以及《危险化学品事故案例》[14]等相关书籍,搜集了200例易燃易爆危险化学品储运火灾爆炸事故作为本文的易燃易爆危险化学品储运火灾爆炸事故数据库。根据《生产安全事故报告和调查处理条例》(国务院493号令)事故等级划分标准,所选事故案例均为较大事故以上,涉及多种作业环境和作业方式。
根据顶事件分析原则[15],选取发生频率不大但后果非常严重的危险化学品储运火灾爆炸作为顶上事件。根据海因里希事故致因的轨迹交叉理论,通过对事故原因的分析,从“人- 机- 环境- 管理”四个角度,建立易燃易爆危险化学品储运火灾爆炸事故树,共得到易燃易爆危险化学品储运火灾爆炸事故风险因素148个。易燃易爆危险化学品储运火灾爆炸事故树如图2所示。
利用最小径集对易燃易爆危险化学品储运火灾爆炸事故树进行结构重要度分析,从而得到了各风险因素的重要程度顺序。例如,地区规划建设混乱,整体设计布局不合理,营业执照未进行定期年检,企业无生产作业资格证书等因素的重要程度较大;无安全教育培训,未进行安全文化宣传,未进行过疏散演习等因素的重要程度次之;疏散通道、安全出口不畅通无防水、防寒、防潮措施,未进行分类、分库、分间储存,未建立安全维修制度等因素的重要程度相对较小。结构重要程度的分析为致险因素的遴选提供参考。
1.2 基于频度统计法的致险因素的遴选
为了确保易燃易爆危险化学品储运火灾爆炸事故致险因素的代表性和准确性。在参考上文各风险因素结构重要程度顺序的基础上,按照148个易燃易爆危险化学品储运火灾爆炸事故风险因素频度的大小,选定最小频度为5的作为致险因素,最终遴选出24个致险因素,并用其英文首字母进行编号。人的致险因素为P(People),机械致险因素为A(Apparatus),环境致险因素为E(Environment),管理致险因素为M(Management)。得到易燃易爆危险化学品储运火灾爆炸事故致险因素如表1所示。
图2 易燃易爆危险化学品储运火灾爆炸事故树Fig.2 Fault tree analysis on fire and explosion in storage and transportation of hazardous chemicals
分类致险因素编号人(P)操作人员未持证上岗P1未对危险源进行辨识P2事故风险研判失误P3危险隐患未及时上报P4事故隐患排查治理不深入P5事故隐患整改不及时P6未经安全技术部门审查同意P7工人擅自离岗P8违反操作规程P9机械(A)储存容器破裂A1消防器材的配备不符合要求A2未设置安全标志A3
分类致险因素编号环境(E)地区规划建设混乱E1违法建设、未批先建E2整体设计布局不合理E3管理(M)无安全教育培训M1未进行安全文化宣传M2消防设施、器材未定期测试M3营业执照未进行定期年检M4企业无生产作业资格证书M5未组织进行安全设施竣工验收M6安全管理机构不健全M7政府监督力量不足M8岗位责任制度不完善M9
2 易燃易爆危险化学品储运火灾爆炸事故关键致险因素的挖掘
2.1 基于Apriori算法的关联规则简介
由表1及上述分析可知,易燃易爆危险化学品储运火灾爆炸事故致险因素繁多且关系错综复杂,合理分析各致险因素与事故间的非线性关联程度是挖掘关键致险因素的前提。虽然事故树分析了易燃易爆危险化学品储运火灾爆炸事故与致险因素之间的因果关系,但无法剖析致险因素与事故间的关联性大小,并且由于事故树结构重要度分析的精确性不够,不具备甄别关键致险因素的要求。而Agrawal和Srikant[16]提出的基于Apriori算法的布尔型关联规则(Association Rule)数据挖掘方法恰恰能通过生成强关联规则,进而剖析数据库中项集间的密切程度或关系,并推导出诸如“X⟹Y”的模式。例如:若将关键致险因素X定义为“无安全教育培训”,而Y定义为“易燃易爆危险化学品储运火灾爆炸事故”,那么,X⟹Y可理解为“若企业不对员工进行安全教育培训,则很可能发生易燃易爆危险化学品储运火灾爆炸事故”,这表明了X和Y之间存在关联关系。
关联规则相关的定义如下:
定义1设I={i1,i2,…,in}是n个不同布尔型属性的集合,元素ik称为项。D={T1,T2,…,Tm}是一个事务数据库,显然T⊆I。设X={i1,i2,…,it},(1≤t≤n)为I中的一个项集,则关联规则可以表示为R:X⟹Y的蕴含式,其中X⊆I,Y⊆I,X∩Y=∅。关联规则的成立由支持度(Support)和可信度(Confidence)2个参数来约束。
定义2项集X的支持度是指D中包含X的事务在D中所有事务中占的比例,即:
(1)
定义3如果项集X的支持度大于或等于最小支持度(min- Support),称项集X为D中的频繁项集,即:
Support(X)≥min- Support
(2)
定义4关联规则X⟹Y的可信度是同时包含项集X和项集Y的事务在所有包含项集X的事务中占的比例,即:
(3)
定义5如果关联规则R:X⟹Y满足预设的最小支持度阈值和最小可信度阈值,称关联规则X⟹Y为强关联规则,即:
Support(X⟹Y)≥min- Support
且
Confidence(X⟹Y)≥min- Confidence
(4)
2.2 关键致险因素关联规则模型的建立
为了使强关联规则具有科学性和代表性。在前文所述的“易燃易爆危险化学品储运火灾爆炸事故数据库”和“易燃易爆危险化学品储运火灾爆炸事故致险因素”的基础上,首先对易燃易爆危险化学品储运火灾爆炸事故数据库中的事故案例进行筛选,筛选出事故经过清晰,事故影响明确,事故原因分析准确、全面,事故性质定位合理,事故意见有理有据的事故案例,并对事故案例进行编号;其次,采用0- 1标记法,借助Excel办公软件将编号的事故案例和编号的致险因素一一对应;再次,建立基于Apriori算法的关联规则进行数据挖掘,通过设定最小支持度生成频繁项集,设定最小可信度创建强关联规则[17],实现关联规则的数据挖掘。易燃易爆危险化学品储运火灾爆炸事故关键致险因素关联规则数据挖掘模型如图3所示。
图3 关键致险因素关联规则数据挖掘模型Fig.3 Association rules of key risk factors data mining model
2.2.1 易燃易爆危险化学品储运火灾爆炸事故数据的清理
易燃易爆危险化学品储运火灾爆炸事故数据库收集了200例事故等级为较大事故以上的事故案例。根据事故案例原始数据信息的完整性,剔除对事故经过、原因和处置措施等分析不明确的事故案例,最终筛选得到包括天津港“8·12”瑞海公司危险品仓库特别重大火灾爆炸事故、“11·22”中石化东黄输油管道泄漏爆炸特别重大事故、东营市山东滨源化学有限公司“8·31”重大爆炸事故、山西省晋中市寿阳县“11·23”重大爆炸燃烧事故、日照市山东石大科技石化有限公司“7·16”较大着火爆炸事故等在内的共计30个事故案例,并对其进行编号。在此基础之上,将前文经过编号的致险因素与经过筛选得到的各事故案例一一对应。采用0- 1标记法,将事故案例涉及到的致险因素在Excel表格中标记为1,未涉及到的致险因素标记为0。最终得到如下30组易燃易爆危险化学品储运事故致险因素分析数据,具体见表2所示。
表2 易燃易爆危险化学品储运事故致险因素分析统计表
2.2.2 寻找频繁项集
根据公式(1)和公式(2)寻找频繁项集。例如:假设设定最小支持度为n,则致险因素P1的支持度表示P1在30个事故案例中出现的频率不少于n;致险因素组合(P1,M1)的支持度表示P1和M1同时在同一事故编号下出现的频率不少于n;同理可得到其他致险因素及其组合的支持度;然后从中找出所有满足支持度不少于n的项集,即为频繁项集。由于关键致险因素是对事故的发生起决定性作用的因素,具有数量少、致灾率高和发生率高等特点,因此将含有1个致险因素的频繁项集称为关键致险因素。
为了满足关键致险因素的特性的同时,还能够获得足够数量的频繁模式[18],避免过多或过少的规则出现。通过重复多次的遍历数据库,经过对最小支持度的不断调整发现,若设定致险因素的最小支持度小于23.3%(即7/30=0.233),将产生大量的中间候选频繁项集;若大于23.3%,则不能获得足够数量的频繁模式。根据定义1,设定最小支持度为23.3%,最小可信度百分比为90.0%。根据所包含的关键致险因素的数量对满足最小支持度为23.3%和最小可信度百分比为90.0%的频繁项集进行分类。借助Excel办公软件,得到如下频繁项集。
(1)易燃易爆危险化学品储运火灾爆炸事故的频繁项集含有1个关键致险因素,如表3所示。
表3 含有1个关键致险因素的频繁项集
(2)易燃易爆危险化学品储运火灾爆炸事故的频繁项集含有2个关键致险因素,如表4所示。
(3)易燃易爆危险化学品储运火灾爆炸事故的频繁项集含有3个关键致险因素,如表5所示。
由表3可以看出,通过对30个易燃易爆危险化学品储运火灾爆炸事故的分析,得到14个关键致险因素,关键致险因素的挖掘简化了监控数量,降低了控制难度,从而减少管理成本,提高防控效率;由于关键致险因素及其不同数量的组合是由易燃易爆危险化学品储运火灾爆炸事故案例数据库中分析得出的,根据公式(3)得出,“各频繁项集→易燃易爆危险化学品储运火灾爆炸事故”的可信度为100%,即在易燃易爆危险化学品储运火灾爆炸事故数据库中,不同数量关键致险因素组成的各频繁项集导致事故发生的概率为100%;另外,各关联规则均满足预设的最小支持度阈值(23.3%)和最小可信度阈值(90.0%),根据公式(4)得出,各挖掘出的关键致险因素与易燃易爆危险化学品储运火灾爆炸事故之间均为强关联规则。
表4 含有2个关键致险因素的频繁项集
表5 含有3个关键致险因素的频繁项集
3 结论
(1)本文充分利用事故树分析事故原因的优势来识别风险因素,并确定了各风险因素与事故间的因果逻辑关系;在此基础上,运用关联规则计算致险因素与事故的关联性大小,从而精确地甄别出关键致险因素。同时,将易燃易爆危险化学品储运火灾爆炸事故数据库和关联规则相结合,既发挥了数据库的广度,又展示了关联规则数据挖掘的深度,为挖掘方法的科学性、准确性奠定坚实的基础。
(2)通过关联规则可信度的分析得出,单一关键致险因素或其组合导致事故发生的概率为100%,防止单个关键致险因素的发生是预防事故的根本;同时,关键致险因素的挖掘简化了致险因素的监控数量,降低了控制难度,从而减少管理成本,提高了防控效率。
[1] 佟淑娇, 等. 2001~2013年危险化学品企业较大以上事故统计分析及对策建议[J]. 中国安全生产科学技术, 2015, 11(3): 129- 134.
[2] 周扬, 牟敬涛. 危化品码头危险因素辨识与评价分析[J]. 港口装卸, 2016, 5: 55- 58.
[3] 栾婷婷, 等. 危险化学品铁路运输安全风险分析及对策[J]. 铁道货运, 2016, 34(6): 57- 60.
[4] Adedigba SA, et al. Process accident model considering dependency among contributory factors[J]. Process Safety & Environmental Protection, 2016, 102: 633- 647.
[5] 朱婷, 等. 基于贝叶斯网络的危险化学品道路运输事故分析[J]. 安全与环境学报, 2016, 16(2): 53- 60.
[6] 李淑霞, 闫晓青. 基于VC- DRSA的危化品公路运输风险不确定因素分析[J]. 东华大学学报: 自然科学版, 2013, 39(4): 509- 513.
[7] 唐丽敏, 等. 道路危险品运输的系统动力学模型[J]. 上海海事大学学报, 2011, 32(2): 61- 66.
[8] Agrawal R, et al. Mining association rules between sets of items in large databases[J]. Acm Sigmod International Conference on Management of Data Record, 1993, 22(2): 207- 216.
[9] 谢龙君, 等. 融合集对分析和关联规则的变压器故障诊断方法[J]. 中国电机工程学报, 2015, 35(2): 277- 286.
[10] 黄常海, 等. 基于Apriori算法的船舶交通事故关联规则分析[J]. 上海海事大学学报, 2014, 35(3): 18- 22.
[11] 潘建科, 等. 基于关联规则和复杂系统熵聚类的膝骨关节炎用药规律研究[J]. 中国实验方剂学杂志, 2015, 21(12): 229- 232.
[12] Brooke PJ, Paige RF. Fault trees for security system design and analysis[J]. Computers & Security, 2003, 22(3): 256- 264.
[13] Shahriar A, et al. Risk analysis for oil & gas pipelines: A sustainability assessment approach using fuzzy based bow- tie analysis[J]. Journal of Loss Prevention in the Process Industries, 2012, 25(3): 505- 523.
[14] 中国安全生产科学研究院. 危险化学品事故案例[M]. 北京: 化学工业出版社, 2005.
[15] 顾祥柏. 石油化工安全分析方法及应用[M]. 北京: 化学工业出版社, 2001.
[16] Agrawal R, Srikant R. Fast algorithms for mining association rules in large database [A]. Proceedings of the 20th International Conference on Very Large Data Bases[C], 1994: 487- 499.
[17] 陶再平. 基于约束的关联规则挖掘[M]. 杭州: 浙江工商大学出版社, 2012.
[18] Han J, et al. Data Mining Concepts and Techniques 3rd Edition[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2012, 5(4): 1- 18.
ExcavationofkeyriskfactorsbasedonApriorialgorithmforfireandexplosioninstorageandtransportationofhazardouschemicals
CHEN Weike, ZHANG Xin
(Department of Management, Tianjin University of Technology, Tianjin 300384, China)
There are various causes for the accidents associated with the storage and transportation of flammable and explosive hazardous chemicals, and thus extraction of key risk factors is essential for reduction of management costs and improvement of accident prevention and control. In this paper, more than 200 accidents are studied, for which the fault tree analysis method is used to establish the accident tree, and 24 risk factors are extracted using the measure of frequency statistics method. The key risk factors are found through the establishment of association rules based on Apriori algorithm for data mining, and the association between the accident and the key risk factors are obtained. The results show that there is a strong association rules between the key risk factors and the accident of hazardous chemicals storage and transportation. In addition, the existence of a single key risk factor or combination of them will greatly improve the probability of accident occurrence. The results provide reference for safety management of storage and transportation of hazardous chemicals.
Hazardous chemicals; Storage and transportation; Fire and explosion accidents; Risk factors; Apriori algorithm; Association rules
1004- 5309(2017)- 00133- 07
10.3969/j.issn.1004- 5309.2017.03.02
2017- 03- 06;修改日期2017- 04- 05
国家自然科学基金面上项目(71173152); 天津市科技计划项目(15ZCZDSF00400)
陈伟珂(1961),女,教授,博士,博士生导师,主要研究方向工程风险管理和安全管理工程。
张欣, E- mail: 907918994@qq.com
X937;X932
A