核电站DCS网络广播风暴故障分析与防范措施
2016-11-18王誉捧
王誉捧
(福建宁德核电有限公司,福建 宁德 355200)
核电站DCS网络广播风暴故障分析与防范措施
王誉捧
(福建宁德核电有限公司,福建 宁德355200)
DCS的网络架构设计方案是核电站控制系统的重要组成部分,网络架构设计不合理或网络协议选取的不恰当,可能导致广播在网段内被大量复制,传播数据帧形成广播风暴,导致网络性能下降,甚至网络瘫痪。结合某核电站DCS网络广播风暴案例进行原因分析,并提出了有效避免网络广播风暴的防范措施,从而保证机组安全稳定运行。
DCS网络;TXP网络架构;网络广播风暴;工厂总线
0 引言
核电站DCS的网络架构设计方案是控制系统的重要组成部分,不同的网络架构将对控制系统产生重要影响。网络架构设计不合理或网络协议选取不恰当,可能导致广播在网段内被大量复制,传播数据帧形成广播风暴,阻塞网络,导致“数据丢失”及出现传递值1变0现象,最终致使主控室监视失去,触发相关逻辑误动作,对机组的安全稳定运行带来极大影响。因此,DCS的网络架构设计方案的选择和实施便成为目前需要认真研究的课题,以下结合某核电站DCS网络广播风暴故障案例进行分析。
1 DCS网络架构简介
某核电站CPR1000项目的非安全级DCS为德国西门子公司的Teleperm XP-2000(以下简称TXP)系统。TXP系统网络架构为双层环形网结构,即由下层工厂总线(Plant bus)和上层终端总线(Terminal bus)组成。
工厂总线和终端总线以相同的网络通信设备——交换机OSM(Optic Switch Module)为基础,依据OSM的RM(Redundancy Manager Mode)功能来实现冗余模式的虚拟环网,实现网络的相对可靠性。此外,工厂总线的各虚拟环网之间都通过分配主、从2个交换机OSM进行连接,来实现网络冗余功能。
根据核电站仪控设备要实现的功能要求,仪控系统划分为以下3个处理层级:
(1) LEVEL 0-I/O层(过程仪表层),即现场各类测量仪表,如温度、压力、流量、液位等传感器;现场执行器,如阀门。
(2) LEVEL 1-过程控制层,由工厂总线(Plant bus)与AS620自动化控制系统相接,用于自动、独立地实现电站控制及保护功能。
(3) LEVEL 2-操作监视层,由终端总线(Terminal bus)与OM690人—机接口系统相接,实现操作员人机对话和对电站设备进行操作、监视。
2 DCS网络广播风暴案例及原因分析
2.1网络广播风暴案例经过
某日,该电站机组调试人员误将工厂总线(Plant bus)虚拟环网上连接4号单元机组(调试中)和8号公用机组主、备交换机之间的通信监视专用线断开,导致主、备交换机接收不到反馈信号,均认为对方故障;标有S标记的备用状态交换机将自己所连的通信链路变为主通信连接,以致4台交换机之间形成实际的物理链路环(见图1中用粗线标出连接的交换机回路)。这导致网络冲突广播发送到所有连接的网络设备上,从而使数据的每一帧都在网络中重复广播,引起了网络广播风暴,形成网络阻塞,并影响到公用机组和相连3号单元机组(正常运营中)之间无法正常传输信号。3号机组主控失去画面监视,引发部分设备的控制条件信号值改变,导致3号机组部分设备停运或自动启动。
2.2网络广播风暴原因分析
经过现场实际调查分析,查询调试操作记录,除去人因失误(工作人员对环网冗余连接特性不熟悉,误断开主、备交换机间的通信监视专用连接线)原因外,最终确定造成网络堵塞的根本原因为:单元机组与公共机组之间网络通信设备形成实际的网络链路环,广播报文被无限复制、转发,引起网络阻塞。这是网络拓扑结构实现不合理所致。
以下对人因失误原因不做详述,只对设备相关的原因进行深入分析,以期解决根本问题。网络拓扑结构不合理主要体现在如下2个方面。
(1) 交换机连接构建的局域网(广播域)未进行划分。单元机组与公共机组通过交换机连接,使所有网络通信设备实际处在一个较大的局域网(广播域)中,从广播风暴产生机理来看,如果其中任意一个通信设备故障而引发广播报文,就会使得局域网内的全部通信设备进行报文转发,造成影响范围太大而不可控。因为交换机是数据链路层设备,其内部有一个MAC地址表,交换机将收到报文的目的MAC地址与MAC地址表中的地址匹配后进行点对点转发,但是地址表中一般不记录广播报文。如果交换机收到的是广播报文,其就会将报文向整个局域网络进行广播,即向除接收端口之外的所有端口转发,从而造成网络广播风暴,占据网络资源,也会使得通信设备收到大量无效报文而导致不能正常工作。
(2) 交换机网络端口速率未进行速率上限限制。为保证交换机进行最大数据吞吐量交换,一般网络端口速率不进行速率上限限制,但当多个输入数据流需要同一个输出端口,如果入口速率大于出口速率,在这个端口就会建立队列。如果没有足够的存储空间,数据包就会被丢弃,对突发数据流更是如此。
3 网络广播风暴防范措施
基于上述对网络广播风暴根本原因的分析,应当在梳理各交换机间数据流量负载基础上,采取以下对应防范措施:
(1) 采取策略协议形成虚拟局域网(VLAN)。VLAN可以把一个物理上的局域网划分成多个逻辑上的局域网,每个VLAN 就是一个广播域。VLAN内的主机间通过传统的以太网通信方式进行报文的交互,而不同VLAN内的主机之间在逻辑上相互隔离。
图1 网络阻塞故障案例示意
一般消除这种网络循环连接带来的网络广播风暴,可以使用STP协议(生成树协议),该协议是根据IEEE协会制定的802.1D标准建立的,用于在局域网中消除数据链路层物理环路的协议。另一种典型的非安全级DCS系统是广利核的HOLLIAS MACS系统,LEVEL 1层采用的即是基于在STP协议基础上衍生的MSTP(多生成树协议)搭建的网络拓扑结构。这种结构比较明显的优势为,通过MSTP多生成树协议形成内嵌的弹性分组环(RPR)环网结构,可将环路网络修剪成为一个无环的树型网络,避免网络广播风暴,同时每个VLAN都可以有自己的生成树,实现网络链路的负载均衡。
(2) 通过网关代替交换机从实体上进行隔离。单元机组与公共机组之间不采用交换机来直接连接,而改用网关连接,通过网关来进行数据转发,实现单元机组服务器与公共机组设备间数据的请求应答。从物理结构上来说,此种连接不会构成环网,且网关是不会转发广播报文的,因此相当于起到了隔离作用,不会在单元机组与公共机组间局部成环而导致广播风暴。
(3) 静态配置虚拟环网。以上2种方法均需更换网络通信硬件,以及选择并配置支持对应策略或处理数据转发的软件算法,改动范围较大。因此也可通过静态配置的方式来对当前设备进行设置,可在一定程度上缩小广播风暴影响范围。例如:在网络设备交换机上所有端口(除了级联端口和光纤环网端口)闭锁广播方式;使用静态MAC地址寻址,使得数据按照既定路径进行转发;对局域网内重要端口网络速度限制在10Mbps等。
目前该电站采用方法(3),在一定程度上抑制了广播风暴的发生,后续未发生因形成实际的物理链路环而导致的网络广播风暴。
而广利核的HOLLIASMACS系统在网络架构设计上采用了上述(1)、(2)2种方法,从目前相关机组应用情况来看,还未出现因广播风暴造成的主控失去画面监视、设备误动作的事件。
4 结束语
通过以上理论分析及实践证明,在进行DCS网络架构设计时,应该在分析数据流量负载基础上进行“多域管理结构”设计,可以根据对象的位置、范围、功能和操作特点等,把整个DCS系统通信网络分成若干相对独立的分系统,一个分系统构成一个域,并且各个域之间可以通过标准的协议或中间件进行数据交换。
这种网络架构可以缩小网络广播风暴影响范围,降低发生概率,在抵制网络广播风暴方面更科学、合理,更符合工业通信网络稳定性高、数据响应及时、处理数据负荷大的要求。
1 张宝龙,魏龙彪,苏本新,等.田湾核电站TXP系统调试与优化[J].中国仪器仪表,2013,33(3):51-54.
2 高益,黄俊伟.网络流量控制的分析与设计[J].北京电子科技学院学报,2008,16(2):68-69.
3 朱智达,冯小春,林高.无线局域网中STP协议的应用与研究[J].福建电脑,2010,26(10):64-65.
2016-01-02;
2016-02-02。
王誉捧(1984-),女,工程师,主要从事核电站仪控设备改造及物项替代相关工作,email:wangyupeng2@cgnpc.com.cn。