特高压直流控保系统网络风暴造成主机死机机理分析及网络测试方法研究
2017-09-26,,
, ,
(国家电网公司运行分公司宜宾管理处,四川 宜宾 644000)
特高压直流控保系统网络风暴造成主机死机机理分析及网络测试方法研究
禹佳,刘俊杰,孙文
(国家电网公司运行分公司宜宾管理处,四川 宜宾 644000)
基于特高压直流输电工程实际发生的由于控制保护系统网络风暴引发主机死机的事件,分析了相关机理,提出了造成主机死机的3个条件,并给出了事件发生原因,分析表明现有特高压直流控制保护系统中,主机网络报文筛查检测功能不完善,在出现长报文自锁时不能及时提醒CPU采取应对措施的严重缺陷。因此,在保护主机中增加了对超长报文的筛查检测功能,当信息子站与控制保护系统之间的报文超过255字节后,控保主机系统选择不进行接收。同时,为了验证网络性能及分析相关事故,提出了特高压换流站控制保护系统网络测试方案。实际事件分析体现了分析的正确性。
特高压直流;控保系统;网络风暴;测试方案
0 引 言
随着中国西部大开发和电力能源战略的推进,集中于四川金沙江、雅砻江流域的多条特高压直流输电工程已逐渐投运[1-3]。其中,宜宾地区两条额定电压±800 kV特高压直流输电线路,总额定容量达到14 400 MW,已经成为“西电东送”重要的电力通道。
由于特高压直流采用晶闸管这一电力电子元件进行交流与直流的换流,因此必须配置控制系统调节直流的电压和电流[3-5]。如今,特高压直流的控制保护系统由双极控制、极控制、阀组控制等多个环节共同组成。为了保证控制环节间相互协调,需要在不同环节间进行系统状态、控制指令等信号的通信。一旦网络系统出现故障,将导致特高压直流异常运行,甚至出现双极闭锁,后果极为严重。
复奉直流是国家电网公司第一条特高压直流工程,迄今为止已运行6年,其源源不断地将西部清洁能源输送至东部负荷中心。复奉直流采用ABB公司提供的DCC800直流控保系统,在2016年7月19日由于网络风暴导致双极保护主机状态丢失,引起了复奉直流双极闭锁,引发了业界极高的关注。
其实网络风暴所引起的安全问题在智能变电站已经得到了高度的重视,有学者在综述智能变电站二次系统过程层网络拓扑结构可靠性和实时性分析的文章[6]中就指出,当智能变电站单个设备通信链路异常时,有可能会引起多个设备数据链路发生崩塌式异常,进而导致整个二次网络系统瘫痪。
图1 LAN网络示意图
图2 控制保护系统监视总线(以1极为例)
然而,换流站中由于网络异常导致主机死机、双极闭锁等问题还鲜见报道。在此背景下,在介绍特高压直流控制保护系统典型结构的基础上,对网络风暴造成主机死机的机理进行了分析,并提出了特高压换流站控制保护系统网络测试方案。通过对复奉直流“7·19”典型事件的分析,验证了机理分析的正确性,并提出了相应的反故障措施。
1 特高压直流控制保护系统网络典型结构
以复奉直流为例,介绍特高压直流控制保护的典型结构。
复奉直流控制保护主机为ABB公司的DCC800系统,采用Intime实时操作系统。每台主机配置双网络分别接入交换机A和B,再通过BPSIA、BPSIB接入SCADA系统,SCADA系统由南瑞供货,如图1所示。
每套极控系统(PCPA1、PCPB1)均通过eTDM总线监视3套双极保护系统(BCPA2、BCPB2、BPC2)的状态,如图2。从PCP软件中能看到,在PCP控制主机无法检测到3套BCP保护主机状态时,会导致PCP控制主机发出极S停运的指令,可造成极停运。考虑到eTDM总线运行正常,极有可能是交换机故障引起双极控制保护主机死机,PS932板卡监测到主机状态不为ACTIVE,并将信息发送至极控。
2 网络风暴导致控制保护主机死机的机理及反事故措施
2.1机理分析
控制保护系统主机死机是一种极为罕见的事件。考虑到普通的数据掉包、交换机故障只会引起通信故障,因此若要引起特高压直流控制保护主机死机,须满足以下条件:
1)由于一旦网络数据不符合控制保护厂家的协议,则在网络层解包时即被忽略,无法到达应用层。因此,如果发生由于网络原因导致主机死机,必然是由于主机收到大量的符合厂家控制保护协议的数据,超过控制保护主机的内部缓存,引起主CPU读取超时,引起主机死机。
2)主机没有内部缓存溢出检测功能,或检测功能不完善,导致大量数据在内存中堆积,而主CPU没有及时发现。
3)若要引起大面积主机同时死机,那么大量数据还必须是通过网络广播的方式发送的。
根据上述条件可知,如果控制保护主机是由于网络原因出现死机,可以得出如下判断:
1)数据来源自控制保护设备本身,比如网关服务器;
2)考虑到换流站系统LAN中,主机间是不进行通信的,具有广播性质的数据主要是网关服务器的总召指令。
综上所述,由于网络风暴导致控制保护系统死机的主要原因是网关服务器与主机之间的通信存在问题,导致网关服务器发出的总召广播没有得到响应而频繁发送总召广播,长字节数据造成主机超时死机,亦即网络中出现死锁现象。一旦出现死锁,一组节点由于没有空闲缓冲区而无法接收和转发分组,节点之间相互等待并一直保持这一僵局,此时只能靠人工干预重新启动网络来解除死锁。
2.2反事故措施
通过分析表明,随着特高压直流运行时间的不断增长,设备老化等现象逐渐显现,网络异常导致流量剧增现象是难以避免的。因此,需要采取必要措施防止网络异常后引起故障扩大。而网络异常后导致事故进一步扩大的根本原因在于控保系统主机网络报文筛查检测功能不完善,在出现长报文自锁时不能及时提醒CPU采取应对措施。
因此主要的改进措施应是在保护主机中增加对超长报文的筛查检测功能,当信息子站与控制保护系统之间的报文超过255字节后,控保主机系统选择不进行接收(IEC 60870-5-1规定的最大用户数据的数目为255个字节,如果帧长影响到召唤的循环时间,特别是当发生传输差错时,还得进一步限制用户数据的数目)。
3 特高压直流控保系统网络测试方法研究
由于特高压直流控制保护系统网络对直流输电安全可靠性具有重要的意义,因此为了验证网络性能,分析相关事故,需要在投运前以及事件发生后对控保系统网络进行测试。
3.1测试平台
待测试交换机通过以太网口连接所有二次设备(服务器),二次设备连接在仿真的并可以交换相关电力数据的一次设备上,整个网络上的结构和数据交换情况需接近真实网络。所有网络设备之间通过建立于TCP/IP协议之上的IEC 60870-5-103协议进行通信。
网络测试器具有若干网络端口,每一个端口可以模拟一个网络设备,进行数据收发。测试可模拟多台网络设备,通过网线连接在交换机上。网络系统分析仪通过网线连接在交换机上,用以对网络情况进行监控并抓取数据报文。
3.2建议测试项目
1)吞吐量测试:恒定负载时间为60 s;测试次数为20次并取平均值;测试粒度为1%,帧长度选择分别为64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
2)时延测试:数据发送持续时间为120 s;重复次数为20次并取平均值;同时发送方和接受方有时间同步。
3)丢包率测试:负载量由100%开始按5%逐级递减,该测试会一直重复进行,直到存在连续3个迭代没有发生帧丢失;测试次数为20次;帧长度选择分别为64 B、128 B、256 B、512 B、1024 B、1280 B、1518 B。
4)背靠背测试:测试时间至少为2 s;测试次数为50次。
4 典型事件分析及处置
4.1事件描述
2015年7月19日14时40分,复龙站报SCM服务器与SCADA通讯故障,ABB后台与南瑞OWS双极直流场区域开关量状态及主机的监视全部变灰,失去监视功能,如图3所示。经分析判断为双极SI服务器(BPSIA、BPSIB)故障。
14时51分报出“PCP11A/B 系统与1台BCP MC2的通讯故障,PCP21A/B 系统与1台BCP MC2的通讯故障、PCP21A 与所有BCP MC2的通讯故障、PCP11B 与所有BCP MC2的通讯故障”,随后极控发出“PCP21/11 极控 5 min内慢停ON”的信号,双极功率控制OFF,单极功率控制ON,5 min后极Ⅰ和极Ⅱ功率分别以100 MW/min开始下降,直至极Ⅰ和极Ⅱ相继降至零。主要事件记录见表1。
表1 事件记录
图3 SCADA系统失去监视功能
4.2网络测试结果
7月24日至26日,在仿真试验室开展了网络测试工作,试验前,用复龙站换下的故障交换机替换下仿真试验室的交换机,启动所有控制保护主机和RTDS仿真器,开展72 h的运行观察以及交换机单体试验。
总体结果反映,数据帧长越小,对测试结果影响越大;反之,帧长越大,对测试结果影响越小。因为对于网络设备而言,在同一带宽下,帧长越小数据帧的数量就越大,那么网络设备处理这些数据帧花费的时间就会越多;反之帧长越大,数据帧的数量就越小,那么网络设备处理这些数据帧花费的时间就会越少,也就越容易处理。随着网络负载的逐渐增大,相关网络性能参数也纷纷降低,但并未出现网络拥塞导致设备之间通讯中断的情况,网络系统分析仪也一直可以抓取到相关一次设备之间的数据报文。通过测试结果分析认为,该被测试交换机的性能在上述4个指标的表现上属于正常。
试验时也发现,在网络中出现长字节数据时,主机与网关服务器间的通讯会频繁中断。
4.3事件原因分析
由上述分析结果表明,复龙站由于网络异常导致控制保护主机大面积死机,并引发双极闭锁直接原因是网络中发生了极小概率的故障,导致网关服务器与控制保护主机的通讯死锁,产生了大量的广播报文,而控制保护主机没有完善的检测手段,主CPU面对大量的报文运行超时死机。
4.4复奉直流功率缓降原因
复奉直流极控系统在检测到3套双极保护系统同时故障(NO_BIP_ACTV_AND_OK)延时5 min,或者检测到直流分压器SF6气体压力降低至跳闸值时(DC_VOLT_DIVIDER_S_STOP),将以100 MW/min的速度回降该极的功率。
图4 功率回降功能启动
而在该事件中,检查极控系统软件,发现故障时4套极控系统主机均检测到3套双极保护主机不在值班(ACTIVE)状态,极控启动直流功率回降,符合软件功能逻辑(即双极区域无保护运行时,极控启动功率回降)。
5 结 论
在介绍特高压直流控保系统典型结构的基础上,对网络风暴造成主机死机的机理进行了分析,并提出了特高压换流站控制保护系统网络测试方案,得出了以下结论:
1)网络风暴引起特高压直流控制保护主机死机,须满足以下条件:主机收到大量的符合厂家控制保护协议的数据,超过控制保护主机的内部缓存;主机没有内部缓存溢出检测功能,或检测功能不完善,导致大量数据在内存中堆积,而主CPU没有及时发现;大量数据还必须是通过网络广播的方式发送的。
2)由于网络风暴导致控制保护系统死机的主要原因是网关服务器与主机之间的通信存在问题,导致网关服务器发出的总召广播没有得到响应,频繁发送总召广播,长字节数据造成主机超时死机,亦即网络中出现死锁现象。
3)由于特高压直流控制保护系统网络对直流输电安全可靠性具有重要的意义,因此为了验证网络性能,分析相关事故,在投运前以及事件发生后须对控保系统网络进行测试。测试项目包括吞吐量测试、时延测试、丢包率测试和背靠背测试。
4)网络异常后导致事故进一步扩大的根本原因在于控保系统主机网络报文筛查检测功能不完善,在出现长报文自锁时不能及时提醒CPU采取应对措施。因此,主要的改进措施应是在保护主机中增加对超长报文的筛查检测功能,当信息子站与控制保护系统之间的报文超过255字节后,控保主机系统选择不进行接收。
[1] 郑晓冬,邰能灵,杨光亮,等.特高压直流输电系统的建模与仿真[J] .电力自动化设备,2012,32(7):10-14.
[2] 谢绍宇,王秀丽,王锡凡.交直流混联系统可靠性评估[J].电力自动化设备,2011,31(7):10-16.
[3] Aik D L H, Andersson G. Power Stability Analysis of Multi-infeed HVDC Systems[J].IEEE Trans. on Power Delivery, 1998,13(3):923-931.
[4] IEEE PES Transmission and Distribution Committee.IEEE Guide for Planning DC Links Terminating at AC Locations Having Low Short-circuit Capacities[R].Newyork:1997.
[5] 李少华,刘涛,苏匀,等.±800 kV特高压直流输电系统解锁/闭锁研究[J].电力系统保护与控制,2010,38(6):84-87.
[6] 阴玉婷,杨明玉,郑永康.智能变电站网络化二次系统及其在线监测研究综述[J].电气自动化,2014,36(1):1-4.
According to the actual network failure caused by network storm in UHVDC control and protection system, the relevant mechanism is analyzed, three conditions are put forward to host crashes, and the causes of the accident are given, which ultimately leads to the DC bipolar blocking event. Through the system simulation analysis of the blocking event, it is found that the DCC800 host network packet screening detection function is not perfect, in the emergence of long packets of self lock it cannot be timely remind CPU to take measures to deal with serious defects. Therefore, in the protection of the host the length of the packet screening detection function is added, when the message is more than 255 bytes between the station and the control protection system, the host computer control system selects not to receive. At the same time, in order to verify the performance of the network and analyze the related accidents, the network testing schemes for the control and protection system of UHVDC converter station are proposed. The analysis of actual event shows the correctness of the analysis.
UHVDC;control and protection system;network storm;testing scheme
TM76
:B
:1003-6954(2017)04-0034-04
2017-04-16)
禹 佳(1983),本科、高级工程师,研究方向为特高压直流输电技术; 刘俊杰(1989),本科、助理工程师,研究方向为特高压直流输电技术; 孙 文(1980),本科、高级工程师,研究方向为特高压直流输电技术。