从控制系统结构特点分析核设施控制室“黑屏”事件
2019-02-28魏永斌
魏永斌
(中核龙安有限公司,浙江 台州 317100)
0 引言
近几年来,国内多个核电厂发生了运行期间主控室突发全部“黑屏”,即主控室内所有操纵员站同时不可用的异常事件。在国内目前已经应用了数字化仪控系统的核电厂,一般将此类事件归结为电厂计算机信息和控制系统不可用事件。一旦电厂所有操纵员站同时“黑屏”,电厂将短时进入类似“盲运”的状态,此时核电厂需要按照其特定的事件响应规程迅速做出响应,并采取措施进行快速修复。
考虑到核设施控制室在安全性和稳定性方面的特殊要求,针对所有核设施,包括核电厂、后处理厂等,在其控制系统设计及开发阶段就需考虑防范控制室发生同时“黑屏”事件的措施。本文将参考国内核电厂近期发生的主控室同时“黑屏”事件经验反馈,结合三代核电机组控制系统设计、调试和运行经验,从控制系统结构特点出发,分析控制室发生同时“黑屏”事件的情况,并给出建议措施,以用于后续国内核设施控制系统及控制室设计参考。
1 国内核电厂近期主控室“黑屏”事件总结分析
在国家核安全局2015年组织编制的《运行核电厂数字化仪控系统(DCS)异常专题报告》[1]选取了22起相对重要的电厂计算机信息和控制系统(一般称KIC系统)典型异常进行了分析。总结近几年几起典型的核电厂主控室“黑屏”事件如下:
1)2014年12月,国内某核电厂2号机组由于冗余历史数据服务器数据同步过程与中央数据服务器数据交换过程叠加,SAR插入操作时因同步数据量大而使CCT超负荷停运,导致主控室操纵员站不可用32min。
2)2015年9月,国内某核电厂CN3 进程使SAR7-STR7-GTW1 服务器CPU消耗过高,导致CCT服务器运行变慢。在重启电厂计算机信息和控制系统(KIC)备用的中央数据处理服务器CCT1过程中,出现了主控4台操纵员站同时不可用的事件。
3)2016年5月,国内某核电厂由于DCS时钟系统中一级母钟提供的时钟源信号跳变故障,导致DCS2层与1层的接口服务器离线,进而导致两台机组主控突发黑屏事件。
上述电厂的DCS监控层(一般称KIC系统)基本运行流程如下:来自仪控1层的数据首先进入KIC系统前端处理服务器(CFR),然后传输到中央数据处理服务器(CCT)进行处理,处理结果再分别传输到实时数据处理服务器(STR)和历史数据存档服务器(SAR),操纵员工作站(OWP)则调用实时数据处理服务器(STR)和历史数据存档服务器(SAR)中的数据实现电厂监控。KIC系统中的前端处理服务器(CFR)负责连接DCS1层和2层子系统,是1层和2层数据的接口服务器;中央数据处理服务器(CCT)负责所有电厂计算机信息和控制系统(KIC)的数据处理;实时数据处理服务器(STR)负责电厂计算机信息和控制系统(KIC)实时数据处理和储存;历史数据存档服务器(SAR)负责电厂计算机信息和控制系统(KIC)的历史数据处理和储存。
分析一些典型事件及KIC系统结构后,总结出了以下几个可能导致其主控“黑屏”的风险点:
◆ DCS 2层与1层由不同的DCS平台构建,接口非常关键,由于两层软硬件由不同的厂家设计和供货,所以两层系统之间需要建立数据接口服务器(如CFR)进行数据交互,该数据接口服务器的可靠性直接影响2层系统监控功能的可靠性。
◆ DCS监控层数据处理量大,进程复杂,2层在收到1层数据后,需要通过各种专用服务器对所有数据进行二次运算和处理,各专用服务器运算数据量大,服务器之间的任何数据、进程冲突或异常等都有可能导致2层监控功能丧失。
◆ DCS时钟系统结构复杂,故障点多,DCS的1层、2层设备分别要与其接口的时钟服务器对时,同时接口服务器又要逐级与二级母钟、一级母钟进行对时,一旦上游时钟故障,很容易导致两层系统时钟混乱并出现服务停运。
2 新型核电机组控制系统结构特点及其控制室发生“黑屏”事件的可能性分析
目前,国内已经建成或正在新建的新型三代核电机组包括采用美国技术的AP1000、采用法国技术的EPR以及中国自主设计研发的华龙一号等,其中AP1000国内首批建设的4台机组均已陆续商运,研究分析AP1000机组的控制系统结构特点[2],可以发现:
1)其控制系统2层与1层基于同一个软硬件平台构建,故不存在两层之间设置专用接口的问题。
非安全级控制系统整体基于一个平台构建,这个平台覆盖了控制系统1层(控制与数据处理层)和2层(监控层)所有功能。在该平台上,所有的电厂人机接口,包括主控区的操纵员站、高级操纵员站、墙面大屏以及主控区以外的工程师站、就地控制站等均作为一个个标准的控制站点,同时“悬挂”在控制系统的高速以太网上。上述这种控制系统1层、2层“浑然一体”的结构,不需要中间数据处理服务器等专用接口设备。因此,不存在由于中间数据接口设备故障而导致主控室操纵员站全部“黑屏”的可能性。
2)其控制系统网络采用标准的开放式实时数据传输网络,网络上的所有站点地位平等,独立工作,单一站点故障并不影响其他站点的正常运行。
非安全级控制系统采用标准的开放式实时数据传输网络,整个网络为双层分布式结构,通过一组根交换机(ROOT级)将下层多组扩展交换机(FAN-OUT级)连接从而构成网络干线,FAN-OUT级则由8组24口的网络交换机组成,以提供足够的网络节点端口。对整个控制系统网络而言,每个交换机端口对应一个站点,整个控制系统网络中的所有站点处于同一网段,在该网段内,所有站点端口地位平等,独立工作,网络数据可以被任何站点调用,任意某个或几个站点故障并不影响其他站点的正常工作。因此,不存在一些站点故障进而导致整个主控室操纵员站全部“黑屏”的可能。
3)其控制系统网络由成熟的商业化的高速以太网设备构建,网络性能稳定可靠。
控制系统网络采用标准的基于交换机的快速以太网,优化了网络负荷,避免出现网络风暴,整个网络带宽达到100MB,可以支持每秒20万点的实时刷新速度,最大可以支持1000个网络节点(站点),远高于电站的实际应用,同时在控制系统软件设计和开发过程中,设计方针对控制系统网络实际负荷进行了严格限制和工厂测试,保证了控制系统周期性的网络数据广播不能超过总带宽的40%,75%的主控室操纵员站对同一历史数据的同时请求不能导致系统故障或重启。控制系统网络稳定可靠,由于网络故障导致主控室全部“黑屏”的概率极低。
4)其控制系统全网采用同一套GPS时钟系统,通过NTP网络协议自动对时。
控制系统全网所有站点使用唯一的一套GPS时钟系统,两台冗余的GPS时钟服务器通过各自的天线获取GPS卫星标准时间,之后通过DCS网络外部IP交换机接入DCS网络,作为外部NTP时间服务器向DCS网内所有用户授时(包括所有DCS网络站点和交换机),GPS时间服务器与DCS用户之间不存在其他层级的中间接口,所有站点的对时基准唯一,不存在控制系统1、2层之间由于采用不同的对时服务器而可能导致时间偏差,进而导致系统瘫痪,主控全部“黑屏”的情况。
5)其主控室操纵员站后台多重冗余设计,可有效避免同时故障。
主控室所有工作站的后台设备,包括主控室操纵员站、墙面大屏的主机设备,均为数据处理与显示系统设备,这些设备和其他数据处理与显示系统设备一起布置在远离主控室的另外两个房间。设计上为了避免这些主控室后台设备同时失效,采取了多重冗余设计,包括:
◆ 物理冗余
主控室所有工作站的后台主机设备被分为两组编入了数据处理与显示系统的两个冗余序列中,这两个序列分别布置在两个计算机房间,设备布置在不同的机柜中,两个序列的房间仅可以通过一道防火门互通,两个序列的位置分布有效实现了冗余序列间的物理隔离。
◆ 电源冗余
主控室所有工作站的后台设备按两组分布于两个序列,序列A的电源取自电厂非1E级直流和不间断电源序列1和4,序列B的电源取自电厂非1E级直流和不间断电源序列2和3;系统大部分设备采用冗余电源供电的工作模式,包括网络交换机、服务器等,这些设备同时使用所属序列的上述两路电源,主电源使用具有两小时电池后备能力的UPS电源,次电源使用正常调压后的电源,两路电源互为热备,主次之间可以实现无扰切换,主控室的后台设备虽然不支持上述冗余电源工作模式,只使用所属序列的UPS电源一路电源进行工作。
◆ 网络冗余
如前所述,控制系统网络采用标准的高速以太网体系,通过冗余网络配置的方式最大限度地保证了运行期间整个网络的可靠性。所有网络设备同样隶属于数据处理与显示系统,并按两个冗余序列进行冗余网络硬件配置和冗余电源配置等,主控室后台设备作为一个个标准工作站,均地位对等地接入控制系统高速网络中,每个设备具有多个网络接口,其中配置1个设备网口接入网络序列A,另一个设备网口接入网络序列B,并且接入端口分布在不同组的网络交换机上。
6)其主控室人机接口设备多重冗余设计,可有效避免同时故障。
除了上述主控室后台设备的多重冗余设计外,对于主控室内的人机接口设备,包括大屏幕、KVM(鼠标显示器键盘)接收器、显示器鼠标键盘等外设,在设计上也同样采用了多重冗余设计的理念。
◆ 硬件冗余
主控区内布置有3个操纵员台和1个高级操纵员台,每个操纵员台则分别配备了两套非安全级控制系统人机接口,分别对应控制系统网络上的两个工作站,同一个操纵员台上的两个工作站的主机在控制系统中分属两个序列;主控室内的14块墙面大屏对应的14台工作站也同样分两组隶属两个序列,设备同时失效的可能性极低。
◆ 电源冗余
主控室内的所有人机接口设备按位置分布分为两个序列,同时这两个序列设备的工作电源也取自不同的电厂电源序列,其中一组取自电厂非1E级直流和不间断电源序列1的不间断电源;另一组取自序列2的不间断电源,从而有效避免了电厂正常运行甚至电厂短时失电期间,主控室所有人机接口设备同时意外失电进而导致主控室操纵员站全部“黑屏”的发生。
3 问题及建议措施
通过以上分析可见,新型核电机组的控制系统在设计上具有诸多显著特点,采取了多项措施从而降低了主控室操纵员站同时“黑屏”的可能性,但即使设计再完备,也并不能完全避免运行期间发生类似极端事件。结合项目经验,对于后续采用类似新型控制系统结构的核设施,还需关注一些薄弱点并注意通过长期的技术维护手段来尽量避免发生控制室操纵员站全部“黑屏”或部分功能丧失的事件。
1)关注“咽喉”设备,进行重点监视维护
对于几处位于系统“咽喉”位置的关键设备,保守起见则要同时考虑防止其冗余序列同时失效的措施。包括:①负责整个控制系统网络主干的根交换机(ROOT级交换机)。
②负责主控人机接口与其后台主机之间物理连接的KVM路由器。
对于上述设备,建议运行期间,首先要加强设备巡检频度,对设备运行状态进行重点监视;同时在发现单侧设备故障后要以最高优先级安排进行纠正性维修以尽快恢复故障序列,确保冗余序列同时正常运行。
2)提前做好筹划,开展设备日常维护改造
控制系统设备采用了成熟的商业化设备构建,一方面,一旦某些环境条件持续接近或超过设备耐受限值,设备故障率会明显提高;另一方面,设备本身可靠性[3]会随着设备寿期逐渐下降,同时要注意部分现场设备型号目前已经停产。
对此建议首先对控制系统设备机房环境进行高标准管控和保守管控;其次要合理规划预防性维修和维护频度,对控制系统设备定期检查和清灰保养;对于厂家已停产或更新的设备,建议在设备故障率达到一定程度后,即考虑提前进行整体升级改造。
3)做好系统维护,加强系统整体安全管理。
控制系统设计上高度集成和统一,一旦出现系统共性软件缺陷或漏洞,影响面非常广;同时控制系统存在大量对外接口,这些接口的安全可靠程度也会影响整个控制系统的安全稳定性;整个控制系统以域的形式进行统一的安全管理,在对域的管理操作过程中一旦出现失误,则很有可能导致整个系统不可用或者可靠性降低。
对此建议采取措施,一是要对系统软件和病毒防护系统随时进行补丁升级,提高系统自身“免疫性”;二是对控制系统对外接口进行定期巡检,严格管控端口操作;三是对控制系统域的管理要严格谨慎,对全域策略变更前要做好充足的影响评估,保持域的稳定。
4 总结
通过本文分析可见,国内某些核电厂控制系统的结构特点导致其主控室发生同时“黑屏”事件的可能性增加,而新型核电机组的控制系统的结构设计和软硬件配置可以有效降低其主控室发生同时“黑屏”事件的可能性。为了进一步提高核设施控制室的安全性和可靠性,以保证控制系统正常运行期间,尽量避免发生控制室工作站同时“黑屏”或部分丧失功能的事件,除了设计采用先进的控制系统结构之外,还需要重点关注控制系统结构和软硬件体系中存在的薄弱点,并通过日常管理和技术维护手段补足短板。