关于海上油田SIS系统工作稳定性的探讨*
2023-06-18张浩焦仕立崔常府高伟张勇王荣伍玉辉
张浩 焦仕立 崔常府 高伟 张勇 王荣 伍玉辉
中海石油(中国)有限公司湛江分公司涠洲作业公司
罗克韦尔公司的ICS AADvance 系统作为较早取得SIL3 认证的控制系统,在海上采油平台的SIS系统(包括ESD紧急停车系统和FGS火气系统)上有着广泛应用。某海上油田群油气水中心处理平台拥有多套ICS系统,处理原油达数百万立方米,平台一旦发生关停,将会导致整个油田群关停。2019年6月14日、7月3日、8月27日,平台连续发生3次ESD 系统主备CPU(处理器模块)同时故障停机,导致油田群生产关停,对油田的平稳运行造成极大的影响。通过与厂家技术人员探讨,发现可能存在以下几个问题影响系统的稳定性,导致了系统停机[1]:偶发性两个CPU 同时停机导致平台关停;CPU扫描周期偏长,扫描周期不稳定;单CPU机架满载48块卡后背板电流偏高。
1 系统基本情况
1.1 现场ESD系统架构
AADvance 是一种工业控制器,是一个灵活、扩展性强的系统,其组件可被配置为单重化、双重化或三重化[2],可以为其配置单重化或容错的控制和安全应用程序。其单一处理器模块(CPU)组合成的系统符合SIL2要求,冗余处理器模块(2个或2 个以上)组合的系统满足SIL3 的要求[3]。海上采油平台为了实现容错功能满足SIL3 的要求,通常采用双重冗余的方式组成SIS 系统中的ESD 系统和FGS系统(图1)。
图1 现场ESD系统结构示意图Fig.1 Schematic diagram of ESD system structure on site
发生关停平台现场拥有两套ESD 系统和三套FGS 系统,其中ESD1 系统带载CPU 卡件(处理模块T9110)2 块、DI 卡件(数字量输入卡T9402)6块、AI卡件(模拟量输入卡T9432)8块、DO卡件(数字量输出卡T9451)34 块;ESD2 系统带载CPU卡件2 块、DI 卡件2 块、AI 卡件10 块、DO 卡件36块,FGS1、FGS2系统也都满载了48块卡件。其中T9110、T9402、T9432 额定功率4W,电压范围直流18~32V;T9451 额定功率3W,电压范围直流18~32V。
1.2 事故经过及初步分析
2019 年6 月14 日16:40,平台ESD 系统突然停机,上位机大部分设备无数据显示,现场部分电泵、SDV阀失控导致平台全部关停,同时造成上游平台随之关停。初步检查原因为ESD 系统ESD1 的两块CPU 同时故障,安全网交换机存在故障报警,FGS系统正常,PCS系统正常。现场更换安全网交换机后,断电复位ESD系统,系统硬件运行正常,ESD系统程序运行正常。
2019年7月3日00:22,平台ESD系统再次突然停机,导致平台全部关停,造成上游平台随之关停。初步检查原因也是ESD 系统ESD1 的两块CPU同时故障,此次关停时安全网交换机运行正常,FGS系统正常,PCS系统正常,可以排除交换机故障引起关停。断电复位ESD 系统,更换ESD1 系统的两块CPU 卡件及背板,重新下载程序,系统硬件运行正常,ESD系统程序运行正常。
2019 年8 月27 日12:37,平台中控ESD 系统又突然停机,导致本平台和上游平台第三次全部关停。检查原因为ESD 系统ESD1 两块CPU 同时故障,造成ESD系统崩溃,导致整个生产关停。现场FGS 系统正常,PCS 系统正常,可以初步认为ESD系统崩溃与CPU卡件硬件故障关联不大。
2 实验测试系统
对以下几方面进行了现场研究和考察:系统供电及带载能力分析;建立现场系统功率评估模型,评估系统功率;系统主备CPU 同时故障的概率与扫描周期的关系;研究一种油田ESD 系统不停产升级方法。通过搭建实验测试系统,评估系统功率、调整程序扫描方式和控制带载量对系统进行优化,并实际应用到现有系统,改善了系统的稳定性能,避免了故障的再次发生。现场实验系统搭建由2 块CPU 卡件、10 块AI 卡件、8 块DI 卡件、12 块DO卡件组成。
2.1 系统供电及带载能力分析
AADvance 系统所有卡件的工作电压范围均为18~32 V,常用电压为24 V,而系统的最大IO数量与其使用的环境温度存在一定的对应关系,如图2中的黄色曲线。
图2 系统在25 ℃环境温度下带载量与电压关系示意图Fig.2 Schematic diagram of the relationship between load capacity and voltage of the system at an ambient temperature of 25 ℃
平台中控室常年温度在25 ℃左右,图中蓝色区域为全部带载4 W 的DI/AI 卡件的危险区分界,黄色区域为带载50%DI/AI 卡,50%DO 卡(平均功率3.5 W的分界)的危险区分界,红色区域为全部带载DO卡件的危险区分界,通过简单的颜色差别即可直观判断系统卡件配置是否安全。与厂家确认后,目前已经逐步把平台AADvance 系统背板电压从24 V 提升到28 V,把系统工作区域从黄色区移位到安全区,提升系统的稳定性。实验测得在不同供电电压下电压与功率情况如表1所示,电压与电流的对应关系如图3所示,电压与功率的对应关系如图4所示。
表1 不同供电电压下电压和功率统计Tab.1 Voltageandpowerstatisticsunderdifferentsupply voltages
图3 系统电压与电流对应关系示意图Fig.3 Schematic diagram of the corresponding relationship between system voltage and current
图4 系统电压与功率对应关系示意图Fig.4 Schematic diagram of the corresponding relationship between system voltage and power
从此次实验可以看出,通过调整供电电压从24 V提升到30 V,系统供电电压提升25%,供电电流降低17%,功率只上升了2.6%,系统带载能力提升了17%。实验证明了通过提高系统电压、降低工作电流来提高系统负载能力的可行性。经现场实际应用,把目前的ESD 系统背板电压从24 V 稳步提升到28 V,背板电流降低了13%。
2.2 建立系统功率模型评估系统功率
ESD 系统的功率作为系统稳定性的重要指标,可以通过实验和模型计算出其实际功耗和最大功耗。实验在28 V 的稳定电源供电情况下(在用系统实际供电28 V),ESD 系统稳定在Run 工作模式时,首先去掉备I/O卡,再去掉主备I/O卡,测量并计算出每种类型的卡件工作状态下的平均功耗。其中AI 卡或DI 卡的A/D 转换功耗不受外接变送器等电流、电压影响,DO 卡件对外供电由外部电源引入,不增加背板负载。实验模型中DO卡件通道均未带载设备,DO 卡的单个通道晶闸管的功耗按照阳极与门极100 倍放大倍数计算,由DO 卡件直接输出的情况下,单通道最大驱动电流2A,单通道功耗24 V×2 A/100=0.48 W。通道外接继电器时,单通道最小驱动电流30 mA,正常驱动电流40 mA。单通道驱动正常功耗24 V×0.04 A/100=0.009 6 W,8通道全部输出为0.08 W。实验数据见表2,DO卡件输出结构如图5所示。
表2 卡件功耗试验记录Tab.2 Power consumption test record of the card
图5 DO卡件输出示意图Fig.5 Schematic diagram of DO card output
平均功耗计算:
式中:I1为去掉卡件前电流,A;I2为去掉备用卡件后电流,A;I3为主备卡件全去掉后电流,A;P1为单个备用卡平均功率,W;P2为主备用卡件平均功率,W;P3为卡件平均功率,W;V为供电电压,V;N1为备用卡数量;N2为卡件数量。
通过表2可得出系统功率评估模型:
式中:X为CPU卡件数(T9110型);Y为AI卡件数(T9432型);Z为DI卡件数(T9402型);U为DO 卡件数(T9451 型);W为全部有输出的通道数;P4为功率模型估算功率,W;P5为系统卡件额定功率,W。
根据现场实际安装卡件类型及数量(DO 卡件输出全部为继电器输出),假设DO 通道全部投用,ESD1 系统评估功率为109.21 瓦特,额定功率为174 瓦特;ESD2 系统评估功率为110.14 瓦特,额定功率为172 瓦特。现场实际测量ESD1 系统电流3.79 A,电源输出28 V;ESD2 系统电流3.76 A,电流输出28 V。具体测量参数见表3。
表3 功率模型评估与实测功率Tab.3 Power model evaluation and measured power
通过对实验系统的主备卡件进行插拔,测量在不同情况下的电流值,测算推导系统的功率评估模型。经过对现场系统测量,证明该模型评估功率与实际测量功率较为接近,此模型评估有效。系统评估功率仍有近40%的安全余量,由此可说明系统故障停机与系统是否超过额定功率无关。此功率评估模型可为其他油田AADvance 系统功率评估提供参考。
2.3 主备CPU同时死机的概率与扫描周期的关系
根据现场设备实际应用情况,重点研究ESD系统在Trigger cycle 模式下,主备CPU 同时故障停机的概率与持续超过CPU 的扫描周期设定值之间的关系[4]。通过在实验系统上复现停机故障,统计停机概率来评估该模式导致CPU 同时停机的可能性。系统扫描模式如图6所示。
图6 系统扫描模式示意图Fig.6 Schematic diagram of system scanning mode
本次实验将ESD 系统置于Trigger cycle 模式,通过调整程序大小使CPU 实际扫描周期稳定150 ms,在Trigger cycle 模式中分别把周期设置为100 ms、160 ms、200 ms的情况下,对CPU超时次数、Healthy报警和死机情况进行记录。经过2周运转,发生超时次数1 021次,在超过200次后,CPU卡件的状态灯Healthy 灯亮红灯;但是2 周内并未发生主备CPU 同时故障停机,运行1 个月后发现1次单CPU 故障的情况,说明在该模式下系统存在CPU故障停机风险。
经过不断调整Trigger Cycle 模式的设定周期,确定在使用该模式时,必须使Trigger Cycle 的设定时间是实际扫描周期的2 倍以上时,也就是负荷(CPU扫描周期/设置的扫描周期)低于50%的情况下,才能确保不发生扫描超时问题。目前ESD1 的CPU 扫描时间为180~470 ms,最长时达到750 ms,比出厂时要求的200 ms 偏高。同时对ESD2,FGS1及FGS2 控制器日志进行了分析检查,实际扫描时间分别为141 ms、152 ms、153 ms,不存在超时现象。
AADvance 系统厂家开发了不少标准化模块,但是在使用过程中发现,为了实现标准化,模块里面70%以上的功能是油田的ESD系统不需要的,这些多余的功能占据了CPU大量的工作时间。ESD系统在建造招标时,一般的扫描周期要求为300 ms以内,系统负荷不超过50%。但是该要求未考虑到中心平台普遍存在的后期新加卡件问题,未预留足够冗余量。目前平台的5 套AADvance 系统CPU 都是400M 主频,扫描周期普遍在120~160 ms 之间,其主要原因就是程序优化程度不够,未达到ESD系统快速稳定逻辑判断的要求。
在本次实验中,通过不断调整Trigger cycle 模式下的扫描周期设定值,证明了CPU 的扫描周期在持续超过设定值时,系统将存在CPU 故障停机风险。通过对程序的DO、DI 模块进行优化,尽量减少子程序的数量,精简模块的处理功能,用更简单和巧妙的方法实现逻辑的自锁等操作。最终实验结果可以把实验CPU 的扫描周期从150 ms 减少到120 ms以下,减少20%的CPU负荷。
2.4 ESD系统不停产升级方法
ESD 系统作为油田安全生产的重要安全屏障,一般设置为故障安全型,即CPU 停机或者离线下载程序,都会导致整个油田所有设备关停。但是在油气生产过程中,ESD系统不可避免地要进行增加卡件、调整程序结构等操作,大多数情况下这些操作都要求CPU停机才能进行。
在油田不停产进行相关操作时,需要对现场设备ESD关停信号进行旁通处理,包括对关断阀手动强制打开,配电柜跳电信号硬线旁通、上下游油田的连锁信号进行旁通处理等,这些都需要大量的准备工作,而且在功能强制到功能恢复的时间内,存在SIS 系统长时间失效的风险。本次实验对这个问题进行了相关总结,提出了2个减少停产损失、提高维修效率的关键方法。
2.4.1 DO卡设置为故障保持
把AADvance 系统DO 卡件通道设置为故障保持即DO卡件通道的Hold Last State状态,这样可以在CPU 故障停机或DO 卡件故障的过程中,保证DO 卡件输出不变,为后续应急处理争取时间。而在系统正常工作时,不影响程序运行产生的逻辑关停,DO 卡件通道可以正常输出[5]。现场中控为24小时有人值守,在中控组态画面对卡件进行状态监控,如有DO卡件发生故障报警可及时通知维修人员处理。如果发生紧急情况,可以采用立即对ESD机架电源断电的方法,实现平台的一级关停,也可对部分卡件的断电实现分级关停。但是该方法在AAdvance的CPU故障重启或停机重启后DO卡上电过程中存在闪跳问题,需要配合方法2使用。
2.4.2 DO卡件的输出继电器选型为可强制型
将ESD 系统所有输出到现场的DO 点都增加可强制继电器,在需要离线程序下载前把继电器打到强制状态进行旁通,即可短时间内完成ESD信号的旁通和恢复[6]。CPU 故障停机后对保持住的DO 点进行继电器强制,系统正常启动后再对继电器强制功能进行释放,这样即可实现不停产离线下载。建议在招标阶段要求ESD系统输出使用可强制型继电器,在油田现场使用信号旁通体系对该继电器的旁通加强管理。
在本次实验中,通过对DO 卡件的故障保持状态的设置与输出继电器的功能强制,实现了实验系统在不停产情况下离线下载程序。在现场实际作业过程中,通过加强现场监管与安全风险分析等人为控制方式,与本方法配合成功实现了SIS 系统的不停产升级。
3 结论
针对ESD 系统主备CPU 同时故障问题,提出搭建实验测试系统的方法,通过评估系统功率、调整程序扫描方式和评估带载量等手段对系统进行优化。实验系统进行测试后运用到现场的系统,提升了ESD系统工作的稳定性,成功避免了ESD系统主备CPU 同时故障停机造成的生产关停,保障了现场的安全生产,也节约了对SIS 系统更换的时间成本和资金成本。平台ESD系统稳定性提升后,2020年初至今未再次发生主备CPU 同时故障停机问题。相比2019年,直接提升生产时效3 h,减少停产原油产量损失1 500 m3,降低直接经济损失300 万元。此次问题的解决也为国内其他油田控制系统类似问题的解决提供了一种新的思路。
本文所使用的实验方法在解决ESD 系统主备CPU同时故障停机问题上取得了良好的效果,但控制系统稳定性还存在提高的空间。下一步需要研究何进一步优化程序缩短扫描时间、减少系统故障率,从而达到安全、稳定生产的目的。