APP下载

基于“事故树”的高校云计算数据中心机房火灾风险分析

2018-12-04叶俊

江苏通信 2018年4期
关键词:小径火灾事故机房

叶俊

南京信息职业技术学院

0 引言

随着社会经济的不断发展和“大数据”时代的到来,云计算技术已经成为社会发展的重要驱动力,而云计算技术不仅能提高高校的信息化建设水平,还是信息学院教育教学的重点方向,其中数据储存技术是云计算的关键技术之一,云计算数据中心机房的消防安全是数据储存技术的前提。我院计算机与软件学院的云计算数据中心机房不仅搭建了“企业网技术教学平台”“物联网技术应用教学平台”及“大数据教学平台”等教学平台,还是大学生计算机等级考试的模拟训练平台,因此机房使用频率高、人员流动大,机房内存在较多火灾隐患,而高校机房一旦发生火灾事故,不仅会使整个学校的网络系统瘫痪,也会造成巨大的经济损失。

2017年4月,北京邮电大学网络数据中心发生火灾,事故虽未造成人员伤亡,但是导致北京多所高校网络中断数天,事故是由UPS蓄电池组故障引起。因此,有必要采用有效的安全分析方法,来辨识高校机房火灾可能发生的原因,及早发现火灾隐患,预防火灾事故的发生。

随着安全科学的不断发展,目前已形成多种安全分析方法,总体上可以分为安全定性分析方法和安全定量分析方法。安全定性分析方法主要是根据经验和直观判断能力来识别可能发生事故的原因,主要包括安全检查表法(SCL)、预先危险性分析法(PHA)和危险与可操作性研究法(HAZOP)。但是安全定性分析方法无法确定不同事故原因发生的概率及后果严重程度。而定量安全分析方法是根据实验数据和事故统计等方法得到评价因子数量,然后对分析对象的安全条件进行定量计算。定量安全分析方法主要包括事故树分析法(FTA),事件树分析法(ETA)和层次分析法(AHP)。其中,事故树分析法是采用逻辑推理来识别和评价系统的危险性,既可以发现事故的直接原因,也可以挖掘出事故潜在原因,既能定性分析,又能定量分析,而且可以直观、形象地看出事故和各种原因之间的因果和逻辑关系,因而在国内外被广泛使用。

本文将采用事故树分析方法对我院计算机与软件学院云计算数据中心机房火灾进行分析,通过汇总影响高校机房的一系列安全因素,确定事故树的顶上事件,分析可能导致机房火灾的基本事件,建立相应的事故树图,并通过最小割集、最小径集和结构重要度等指标,对机房火灾做出定量安全分析,最后根据事故树分析结果提出预防机房火灾的安全对策措施。

1 机房火灾原因分析

影响高校机房安全的因素众多,但是要造成机房火灾往往是多种因素交叉结合在一起的结果。通过以往事故案例和逻辑分析,可以得到可能造成机房火灾的因素如下:

(1)人的因素。机房内人员流动密集,如果不服从机房安全管理,违反机房操作规程,如乱接电线、堆放杂物和增加负载等都有可能给机房带来火灾隐患。

(2)物的因素。机房内设备较多,线缆密布,可能会造成电线老化脱落、静电累积和漏电保护器故障等问题,另外如果火灾报警和自动灭火系统失效,也可能会引发机房火灾事故。

(3)管理因素。若机房没有完善的安全管理制度、没有明确的职责分工或未指定专人定期进行消防安全检查等,都有可能给机房带来火灾隐患。

2 事故树分析

事故树分析(Fault Tree Analysis,FTA)是一种逆时序的分析方法,它是由结果开始向下寻找原因事件的过程,通过逻辑分析,以一个可能的事故作为顶上事件,并一层一层地分析可能造成事故的原因,原因之间的逻辑关系采用布尔逻辑运算,“与门”表示多种原因必须同时发生才会导致事故的发生,“或门”表示其中一种原因发生即可造成事故的发生。通过事故树分析,可以找出产生事故的主要原因和次要原因,针对发现的原因采取相应的对策措施,能起到预防火灾事故发生的效果。

在事故树分析中,各种异常情况都称之为事故事件,通常可分为基本事件、结果事件和特殊事件。基本事件是事故树分析中仅导致其他事件发生的原因事件,位于事故树的低端。结果事件是事故树分析中由其他事件或事件组合所导致的事件,可分为顶上事件和中间事件。顶上事件是事故树分析中所关心的结果事件,位于事故树顶端;中间事件是导致顶上事件发生的原因事件,而且这种原因事件可以继续分析,位于基本事件与顶上事件之间。特殊事件是在事故树分析中需要表明其特殊性或引起注意的事件。

2.1 事故树图

本文以“高校机房火灾”为顶上事件,逐层剖析可能造成顶上事件的原因,绘制的事故树图如图1所示。

高校机房火灾事故树分析图

事故树中的基本事件见表1。

表1 高校机房火灾事故树基本事件表

2.2 最小割集分析

最小割集是指能够使事故树顶上事件发生的数量最少的基本事件的集合。如果最小割集里面的基本事件同时发生,则顶上事件的事故 一定会发生,因此,最小割集体现了系统的危险性,其危险性随最小割集数量的增加而增大。

常用的计算最小割集的方法包括行列法、结构法和布尔代数化简法,由于布尔代数化简法简单且计算速度快,因此本文选择该方法计算“高校机房火灾事故数”的最小割集,具体化简过程如下:

将上面的式子进一步展开可以得到最小割集的数量为54个, 包 括 {X1,X4,X6},{X1,X4,X9},{X1,X4,X11,X12},{X1,X4,X14},{X2,X4,X6},{X3,X4,X6},{X2,X4,X9},{X3,X4,X9},{X2,X4,X11,X12},{X3,X4,X11,X12},{X2,X4,X14},{X3,X4,X14},{X1,X4,X7},{X1,X4,X8},{X2,X4,X7},{X2,X4,X8},{X3,X4,X7},{X3,X4,X8},{X1,X4,X10},{X2,X4,X10},{X3,X4,X10},{X1,X4,X11,X13},{X2,X4,X11,X13},{X3,X4,X11,X13},{X1,X4,X15},{X2,X4,X15},{X3,X4,X15},{X1,X5,X6},{X1,X5,X9},{X1,X5,X11,X12},{X1,X5,X14},{X2,X5,X6},{X3,X5,X6},{X2,X5,X9},{X3,X5,X9},{X2,X5,X11,X12},{X3,X5,X11,X12},{X2,X5,X14},{X3,X5,X14},{X1,X5,X7},{X1,X5,X8},{X2,X5,X7},{X2,X5,X8},{X3,X5,X7},{X3,X5,X8},{X1,X5,X10},{X2,X5,X10},{X3,X5,X10},{X1,X5,X11,X13},{X2,X5,X11,X13},{X3,X5,X11,X13},{X1,X5,X15},{X2,X5,X15},{X3,X5,X15}。只有最小割集里面的基本事件同时发生时,顶上事件才会发生,因此,在实际事故预防和控制中,只要采取措施保证最小割集中的各个基本事件不同时发生,就可以避免事故的发生。

2.3 最小径集分析

最小径集的概念是从不让顶上事件发生的角度来考虑的,如果最小径集里面的基本事件不同时发生,则顶上事件一定不会发生。最小割集体现了系统的危险性,而最小径集则体现了系统的安全性。

在计算事故树的最小径集时,一般是从最小割集的对偶性角度来分析,首先将事故树里的“与门”改为“或门”,“或门”改为“与门”,得到其对偶的成功树,将基本事件发生改成不发生,再根据上节的布尔代数化简法,可以求出成功树最小割集经过对偶变换后的原事故树的最小径集,通过分析,“高校机房火灾”的最小径集有4个,包括{X6,X7,X8,X9,X10,X12,X13,X14,X15},{X1,X2,X3},{X4,X5},{X6,X7,X8,X9,X10,X11,X14,X15},由此我们可以分析得出,只要上述4组事件任何一组不发生,则顶上事件就不会发生。最小径集的数量越多,可以采取措施控制的方法就越多,系统也就越安全,而且控制最小径集中的基本事件少的比控制最小径集中基本事件多的经济有效,本例中,基本事件最少的最小径集是{X4,X5},因此只要采取措施控制这两个基本事件不同时发生,则可以使顶上事件不发生。

2.4 结构重要度分析

分析结构重要度是以各个基本事件发生概率相等的前提下进行的,从事故树的结构入手,分析各个基本事件对顶上事件发生的影响。常用的分析结构重要度的方法是从最小割集或最小径集角度来分析各个基本事件的结构重要度顺序。一般而言,若最小割集中的基本事件个数不等,则基本事件个数少的割集中的基本事件的结构重要度大于基本事件数多的割集中的基本事件,且最小割集中某个基本事件出现次数越多,则该基本事件的结构重要度越大。通过分析,“高校机房火灾”事故树中的基本事件的结构重要度顺序如下:

I[X4]=I[X5]>I[X1]=I[X2]=I[X3]>I[X6]=I[X7]=I[X8]=I[X9]=I[X10]=I[X14]=I[X15]>I[X11]>I[X12]=I[X13]

上述内容是根据基本事件在最小割集和最小径集中出现的频率和频数来得出结构重要度的,为了进一步说明每种基本事件对顶上事件影响程度的大小,可以采用基本事件结构重要度系数来定量计算出基本事件对顶上事件的贡献度。在事故树中,每个基本事件都有两种状态,基本事件发生时,Xi=1,反之,Xi=0,如果基本事件状态从0变到1时且其他事件没有变化,且顶上事件状态从Φ(0i,X)变成Φ(1i,X),则说明基本事件对顶上事件的发生产生作用,即:

式中,I(i)为基本事件Xi的结构重要度系数,结构重要度系数计算结果见表2。

表2 基本事件结构重要度系数表

3 预防措施

根据前面事故树的分析,X4(火灾报警系统故障)、X5(自动灭火系统故障)两个基本事件的结构重要度系数最大,对事故树顶上事件发生的影响最大,是高校机房火灾事故中的重要因素。因此应该定期检查火灾报警系统是否处于正常运行状态,可以增设手动报警装置,选择感烟和感温两种功能的探测器,并对其进行经常检查维护,确保出现火情时能够及时发现并处理,防止火灾事故的发生。另外也需要定期对自动灭火系统进行检查,保证气体灭火系统及所需的辅助电气设备正常运行。

除此之外,针对事故树中其他的基本事件,还应采取下列措施来预防机房火灾事故的发生:

(1)建立健全高校云计算数据中心机房消防安全责任制,做到责任落到实处,职责明确,定期组织消防安全检查,及时发现火险隐患并整改。

(2)高校云计算数据中心机房的设计与施工应符合《电子信息系统机房设计规范》(GB50174-2008)和《电子信息系统机房施工及验收规范》(GB50462-2008)等法律法规的要求,内部装修应符合《建筑内部装修设计防火规范》(GB50222-2017),选用装修材料的燃烧性能应符合要求。

(3)在机房电器设备选型时,应选用防火型、阻燃型或耐火型的电线,选择截面较大的导线,导线应尽量暗敷,在使用时杜绝电线乱扯乱拉和超负荷运行情况。

(4)机房的地板或地面应有静电泄放措施和接地构造,应采用防静电活动地板或防静电地面,工作台宜采用导静电或静电耗散材料,所有设备的金属外壳、各类金属管道、金属线槽、建筑物金属结构等必须进行等电位联结并接地;应定期对防静电及接地效果进行检查、测试,以确保其完好。

(5)由于高校机房人员流动量大,应做好消防培训工作,在墙上张贴操作规程,严格按照规定进行管理,防止人为原因造成的火灾。

4 结论

高校云计算数据中心机房是进行教学任务和实验实训的主要保障,一旦发生火灾等事故会造成大量的经济损失和数据丢失。因此本文采用事故树分析方法对机房火灾事故进行定性、定量分析,得到可能导致机房火灾事故的基本事件,并定量计算出各个基本事件对顶上事件发生起到的重要度,根据结构重要度系数大小针对性地提出了预防事故发生的对策措施。通过研究,发现事故树分析方法应用在高校机房火灾事故的预防中效果较好。

猜你喜欢

小径火灾事故机房
平疫结合的CT机房建设实践
一起亡人火灾事故原因的认定
开辟一条小径
对烟头引发火灾事故的调查
小径
基于VPN的机房局域网远程控制系统
莫名的火灾事故
高层建筑火灾事故引发的思考
浅谈一体化机房系统
桂小径油画作品