基于IRML网络模型的LNG卸料系统故障传播分析*
2022-05-19徐康凯胡瑾秋董绍华陈怡玥冯凌铵
徐康凯,胡瑾秋,董绍华,陈怡玥,冯凌铵
(中国石油大学(北京) 安全与海洋工程学院,北京 102249)
0 引言
港口LNG卸料系统在介质转运和储存过程中起重要作用。自20世纪60年代起,液化天然气工业开始发展海上运输产业,根据2000—2014年LNG行业事故统计[1],国内外陆地LNG工业共发生160余起事故,其中32起发生在卸料过程中。我国液化天然气产业处于新兴阶段,目前还没有关于卸料系统严重事故的数据记载,但据某接收站2018—2021 年的维修记录发现[2],卸料系统作为港口基础设施,除自身主结构出现故障外,装置的工艺系统、液压系统和控制系统均出现过不同程度的故障,并且故障存在级联效应。
针对系统的故障识别和传播,国内外通常使用危险与可操作分析(Hazard and Operability Studies,HAZOP)和故障模式影响和危害性分析(Failure Mode Effects and Criticality Analysis,FMECA)定性分析卸料系统工艺风险以及可能产生的事故路径。为定量研究卸料终端的风险和故障传播,人员采用以概率为基础的网络故障模型,Yun等[3]、Kammouh等[4]结合贝叶斯网络(Bayesian Network,BN)、动态贝叶斯网络(Dynamic Bayesian Networks,DBN)给出基础设施工艺的危险路径;Zhao等[5]在供水网络中提出隐马尔科夫模型(Hidden Markov Models,HMM),实时追踪用水情况和预测出用水高峰期,避免设施故障带来的用水隐患。然而故障传播模型难以确定变量之间的条件概率和时间片的关系。因此,国外学者从图论角度进行研究,Smith等[6]、Mogle等[7]分别运用FRAM、STAMP方法建立航空交通安全管理网络模型,明确异常故障发生情景,但2种方法均难以处理大规模的计算;国内学者在飞机系统故障风险评估、中心组件故障传播、数控车床故障传播机理等领域分别建立有向图模型[8-11],模型描述了系统内部深层因果关系及故障风险因素信息,解决传统故障风险评估方法应用中风险辨识与评估缺乏系统性和一致性的问题;马曦等[12]基于IRML建立油气加工系统多层次故障传播模型,使单层网络的级联故障的时间效应得以表征;Hu等[13]建立海上LNG卸料系统弹性基础设施模型,揭示由于恶劣天气因素,单层物理设备网络故障产生的机理。随工业系统的逐渐复杂,通常1个网络中的特定节点与另1个网络中的特定节点交互。基于此,引入相互依赖网络的概念和分析理论来描述LNG接收站物理设备网络(P-Net)、基于信息和通信的网络(C-Net)和基于人类行为的社会网络(H-Net)之间的相互作用,侧重于评估网络的静态指标[14]。本文重点以时间为函数,研究港口LNG卸料系统H-Net和C-Net的故障在P-Net中的传播规律。
1 LNG卸料系统网络建模及静态风险分析
1.1 单层网络的IRML模型
IRML将基础设施表示不同系统的聚合,作为一种图形化语言构建域、资源、服务的互联元素并通过它们之间的关系进行操作。LNG卸料系统物理设备层、信息层、人员操作层及IRML模型示意如图1所示。其中,物理设备层以服务层面建模,包括场站供电、船泵输送、卸料臂运输、紧急释放系统(Emergency Release System,ERS)、BOG回船平衡压力、人机交互实时监控以及LNG储存[15]。每个服务均由各自系统和域产生,控制关系起着重要作用。以卸料臂运输为例,在卸料过程中,中控室的数据库作为系统资源显示卸料臂的压力、温度和流量,控制器实时控制快速连接装置接头(Quick Connection Device Connector,QCDC),一旦工艺参数异常发生泄漏或船体漂移,QCDC自动断开双球阀关闭,卸料臂运输过程中控制和被控制的关系由箭头指向体现出来。物理设备层和信息层的服务也可依照此思路建立,明确装置的域和其中的控制关系。
图1 LNG卸料系统物理设备层、信息层、人员操作层及IRML模型示意
工业中大量事故是由于人的不规范行为造成的。在卸料过程和设备维修期间,中控室人员需要观察设备,对比操作和维护要求,以此做出决策并下达命令,现场人员接收命令后采取措施执行。同时,指挥员对实施程序进行监督,并对可能发生的结果进行判断。人员日常操作包括巡检、人工输入数据和记录、人员评估、手动报警和装置调整。由于人员身体状况、精神影响以及操作培训不到位,人员误操作在卸料过程中时常发生,具有一定风险性,在设备故障传播中有推动事故发展的危害作用。
1.2 卸料物理设备网络的静态风险分析
在IRML静态风险分析模块中,系统结构作为模型主要研究对象。LNG卸料系统物理设备GDS结构如图2所示。物理设备层节点描述见表1。Filippin等[15]认为IRML模型中的依赖结构可进一步将模型转化成目标依赖结构(Goal Dependency Structure,GDS),卸料系统基础设施物理设备层及节点含义依赖关系可以得到表示。GDS方法规定:1)若目标节点指向某一节点,则该节点属于目标节点的关键集。2)若某节点指向目标节点,则该节点属于目标节点的脆弱性集。对于每个关键集和脆弱性集都有1个耦合系数,其量化了目标节点到2集合的距离大小。由此可知,故障传播过程中,关键集体现故障传播的深度,而脆弱性集表示故障来源的广度。耦合系数的计算方法为目标节点到关键集(脆弱性集)中各节点平均距离的倒数。依照IRML静态风险分析过程,以GDS结构为对象,分别得到卸料系统物理设备层的关键、脆弱性集的节点,见表2。进一步计算网络节点的耦合系数,如图3所示。
图3 LNG卸料系统结构静态风险分析及耦合系数
表1 物理设备层节点描述
表2 物理设备层节点静态风险分析
图2 LNG卸料系统物理设备GDS结构
通过卸料设备物理层节点静态风险分析,G3具有最大的关键耦合系数和脆弱性系数;说明卸料臂节点受到扰动时,故障传播速度最快,同时严重程度最高;与之相关的G8,G7,G6节点具有较大的关键耦合系数,在卸料过程中,LNG的低温性会产生大量的BOG,若BOG系统受到干扰,设备承压升高,甚至会出现超压现象导致结构破坏,介质泄漏而爆炸;ERS安全联锁在卸料臂出现位置超限,介质泄漏时会启动,RTU一旦受到干扰,卸料臂无法及时断开,影响船臂安全;人员在中控室进行状态参数的监测,人员和信息传输需要得到保障,否则物理设备的实时数据不能及时有效回传,影响卸料进程和应急决策。学者在案例分析中体现了G5故障传播的动态性和严重性,G5具有较大的脆弱性系数,静态分析结果与其一致。在后续动态分析中,将进一步关注人员误操作和信息层的干扰对物理设备层故障的传播和影响。
1.3 多层依赖网络故障传播建模
故障的产生和传播具有多因素交叉和耦合特点,各层间节点故障依赖性的表征需要多层依赖网络建模。
本文基于卸料系统的多层网络结构展示物理-信息-人员的依赖关系,以此为基础研究卸料系统故障传播特点。静态的故障因素和动态的故障传播是风险控制的一体两面,故障因素和路径是风险影响的一个维度。在动态建模中,表征故障情景需要时间维度进行刻画,节点受扰动时间Td,节点缓冲时间Tf,节点恢复时间Tr见表3。随故障传播,每个节点赋予状态变量x,如果目标失效,则x=0,如果目标可用,则x=1。节点状态如式(1)所示:
表3 动态建模3类时间含义
r(x)=x1+x2+…+xn
(1)
式中:n为节点数量。
r(x)从扰动施加的瞬间开始分析,直到网络恢复至初始条件,或其结构崩溃。建模参数由故障模式决定,在LNG场站设备设施的维修台账和健康、安全和环境(Health、Safety and Environment,HSE)审核报告中,每件事件及其原因、故障报警时间、维修开始时间和持续时间等都有记录。本文根据前期调研情况,对人员误操作和信息层的故障事件进行整理。当人员操作和信息交互通讯出现异常时,船靠泊问题、探测时间、液压系统故障模式、安全联锁、监测仪器数据传输、维修效率方面均会受影响,见表4。
表4 人员误操作-信息层故障因素描述和影响
2 案例分析
2.1 人员误操作故障因素的传播
在卸料时,LNG介质的压力、流量、温度参数在中控室进行监测,可燃气体泄漏一方面依靠固定装置监测,另一方面是人员在卸料平台上观测到“白烟”并及时和中控室联系。由于卸料时间在10 h左右,人员很难做到注意力始终集中,在交接班时也会有监测的间隔,而错过最佳上报时间。场景中由于介质泄漏,人员没有及时上报,G6节点受到干扰,将此作为故障发生的起点,人员工作方式是在卸料过程中轮岗,设置Td以2 h为间隔的干扰模式,分别为2,4,6,8,10 h,LNG泄漏到最终引发火灾和爆炸需要时间积累,考虑到露天环境、海边天气及季节风的情况,缓冲时间Tf估计值一般为3.5~8.0 h,恢复时间Tr估计值一般为1.5~3.5 h。
初始状态如式(2)所示:
r(x)=x1+x2+x3+x4+x5+x6+x7+x8
(2)
每个节点没有故障干扰,初始值为1,r=8;在故障传播过程中,当0 图4 LNG卸料系统设备人员观测不同扰动时间下的故障传播(Tf =3.5 h,Tr =3.5 h) 对于G6的扰动情况,当Td=2 h,由于系统缓冲,系统的状态不会随时间变化而波动,r=8。当Td=4 h,系统状态有波动的情况。在经过缓冲时间后,系统的状态值r=7,说明G6失效,再经过1 h,系统状态值降为4,说明G6的故障在G2,G3中传播,人员不及时上报影响卸料臂运行,该时段是泄漏事故易发区;人员察觉故障,采取更具经验的人员交接,系统逐渐开始恢复直到各个节点正常,整个仿真时间r>4,系统没有达到失效状态。当Td=6 h,G6故障在G2,G3传播后,继续传播至G8,G5,由于没察觉泄漏事故,状态监测的失误最终传至储罐,影响BOG的处理,给卸料系统带来介质翻滚、火灾的风险;在T=5.5 h,r=3,系统进入失效状态,采取恢复手段后,直至时间T=9.5 h,整个系统趋于正常。当Td=8 h,传播时间T=6.5 h,r=1,故障传至G4,G7节点,卸料管线压力、温度、流量异常,同时人员信息不及时导致ERS联锁命令无法下达,系统状态进一步恶化,采取措施后,G6节点不能完全恢复,系统状态r=7,处于降级状态。当Td=10 h,在系统状态r=1后,由于节点扰动时间过长,系统不能恢复,完全失效。 通过仿真可以看出人员监测失误在卸料系统物理设备的传播情况。随人员误操作时间Td延长,故障传播深度变大,首先影响的是卸料臂和船泵装置,紧接着故障传至储罐和BOG处理设备,最终导致ERS和卸料管线异常。不同节点干扰时间,给系统带来不同程度的故障,当Td=2~8 h,故障程度可以恢复,当Td=10 h,系统崩溃失效。 SCADA系统故障一般出现在信息传输单元,RTU和IDE模块受局域网信号源干扰的影响,会有不稳定波动现象,严重会导致信号中断和通讯受阻,G7安全联锁和LNG流量调节命令不能及时发出,影响正常卸料从而引发危险事故。信息层的故障干扰时间小于人员误操作故障干扰时间,传输模块自身程序会有一定抵抗能力,然而仅靠自身防御不足以抵抗干扰。对于G7,设置Td=1 h,Tf=0.2,0.4,0.6,0.8 h,Tr=1 h。G7节点在不同缓冲时间下,仿真得到系统的故障传播情况如图5所示。 图5 SCADA故障不同缓冲时间下的故障传播(Td=1.0 h,Tr=1.0 h) 对于G7由于信号波动的故障传播路径,在不同缓冲时间下,系统故障最终传播至G3。4种场景最终都能恢复至初始状态,说明非蓄意的网络信息故障经过合理的恢复手段能减少其带来的风险,系统瘫痪可能性低。随缓冲时间增大,故障从G7传至G3的时间延长;同等恢复时间条件下,信息层防御性能越好,模块恢复更快,从仿真结果可知,Tf=0.8 h的恢复时间较Tf=0.2 h节省了4倍。 随信息技术的发展,SCADA信息网络的鲁棒性和可靠性增强,在抵御信号干扰、通讯受阻等非蓄意网络攻击方面展现了适应性和优越性。对于人为蓄意的网络攻击,其故障特点是干扰时间长,同时由于攻击目标针对网络的防御系统,导致故障缓冲时间大大降低,从非蓄意网络攻击规律可以合理推断,人为攻击故障传播更快,系统不可恢复的可能性极高,后果会远远超过预期。 1)分别建立物理设备层(P-NET)、人员操作层(H-NET)及信息层(C-NET)的IRML模型,从节点关键集、脆弱性集及耦合系数的角度,静态分析各节点故障来源广度和影响深度,得到LNG卸料系统物理设备层的故障脆弱节点G3(卸料臂)、G5(储罐)、G6(状态监测系统)、G7(ERS安全联锁)。 2)在静态分析基础上引入时间维度,从故障干扰时间、缓冲时间及恢复时间动态表征人员监测失误和SCADA非蓄意攻击的物理设备故障传播情况,对复杂的卸料系统的故障依赖行为的揭示具有重要意义。 3)基于依赖网络的研究,未来工作将继续对人员不安全行为的故障传播机理和人员蓄意攻击网络的故障模式进行深入探究,为设备维修决策和故障智能预警提供规律和数据支持。2.2 SCADA系统故障因素的传播
3 结论