地县调控一体化系统网络瓶颈故障的分析
2016-01-04余知真郑洪波潘伟唐晓玲
余知真 郑洪波 潘伟 唐晓玲
摘 要:“大运行”背景下,广域分布式地县调控一体化系统能很好地适应地县级智能电网调度自动化建设的需要,但同时存在故障点增多及运行可靠性降低等风险。该文通过对某地县调控一体化系统网络故障进行分析,发现了网络构架的薄弱点和系统消息进程的缺陷,并通过彻查并加固通讯链路、优化配线连接方式、修改县调交换机的路由选路原则、改进SCADA服务器与各主机间的询问应答机制等手段,实施了针对性的改进措施,取得了显著的效果,有效地抑制了网络风暴现象。
关键词:地县调控一体 广域分布 网络瓶颈 路由选路 应答机制
中图分类号:TP393.08 文献标识码:A 文章编号:1674-098X(2015)10(a)-0070-02
根据国网公司“大运行”体系[1]建设的要求,各地区积极推进地县调控一体化的工作[2]。广域分布式地县调控一体化系统能很好地适应地县智能电网调度自动化的需求,但是数据采集、应用、计算机节点的广域分布必然带来故障点增多及运行可靠性降低等风险[3]。该文分析了温州地县调控一体化系统一起网络瓶颈故障,发现原有网络构架的薄弱点和主站系统消息进程的缺陷,并从网络配置和主站消息应答机制上实施了改进措施,消除了存在的运行风险。
1 网络现状
温州地县调控一体化系统采用南瑞OPEN3000系统,由地调主系统、8个县调分布式子系统(乐清、瑞安、平阳、苍南、永嘉、泰顺、文成、洞头)和备用系统组成,采用广域分布式采集,基于通讯网络架构远程互联,后台网络结构采用三环网星形汇聚模式。温州地调主系统实现主网调控一体化的各项功能,各县调保留数据采集能力和应急系统独立运行能力[4]。地县调控一体化系统实现了地县资源的优化配置,但随之而来的故障点增多、缺陷定位难运行风险大等问题也日益突显。
2 故障描述及原因分析
2015年5月,地县调控一体化系统出现频繁的应答缓慢现象,图库调取出现严重时滞,部分系统节点甚至发生系统卡死。自动化人员进行排查如下。
(1)查看系统管理文件,地调主系统各服务器未发现异常现象。
(2)查看系统进程资源占用情况,终止部分资源占用率高的进程,缺陷仍未消除。
(3)查看消息日志文件,发现瑞安县局的#2维护工作站和洞头县局的#1维护工作站不断向地调主系统发送大量的数据申请的异常现象。
(4)对瑞安、洞头两个县局的网络状态进行测试,发现瑞安县局的网络速度为1609字节/秒,洞头县局为1357字节/秒,均远远未达到系统带宽。
(5)通过查看交换机上的各个互联端口的在生成树协议状态,得出瑞安县局和洞头县局出现数据申请堆积时的系统网络拓扑状况(图1)。系统出现卡死现象时,系统的实际拓扑路径已经发生改变,如图所示:原拓扑链路中4条链路出现假死状态,实际通讯已中断,导致瑞安县图1故障时温州地县调控系统网络拓扑局与洞头县局所有数据都通过DTSW1上送,DTSW1上出现通讯瓶颈,导致SCADA服务器与各服务器、工作站之间的指令堆积、通讯不畅。最直接的表象即为全系统图库调用、修改、保存等操作缓慢甚至无法执行,命令无法下发等。
3 整改措施
3.1 彻查并加固通讯链路
协同通信部门检查通讯问题链路,并且全面测试通讯所有链路的联通状况,对于存在隐患的交换机和通讯板卡予以重启甚至更换。
3.2 优化配线架间的连线方式,拆除冗余接线
原走线经过中间配线架跳转,再与OPEN3000网络屏上连地调主网的备调#1、#2交换机相连。此接线方式中间配线架的跳转线路增加了网络连通的故障点,加大了各接线端子间连接不可靠的风险,并且给网络故障的排除增加了难度,延长了排查时间。优化配线架间的连线方式,去除经过中间配线架跳转环节,将洞头县调直接连至地调主网的备调#1、#2交换机。
3.3 变更瑞安县调交换机的路由选路
温州调度自动化系统后台网采用MSTP协议,通过计算将整个网络修剪成无环的树形结构。MSTP协议在计算生成树时使用的算法中引入了域和内部路径开销等参数。8个县调同属一个域,因此在设计时主要依靠内部路径开销进行网络选路。本次网络故障事件中,引起网络堵塞的县调之一的瑞安县调通过洞头县调上送数据,而不是通过与温州局直接互联的链路(最优路径)上送,原因是未优化瑞安县调交换机互联端口的开销,造成选择次优路径。瑞安县调务业务量和数据流较大,未优化线路造成其处于网络拓扑树形结构的最末端,不利于网络的稳定和通讯效率。因此变更瑞安县局两台路由选路原则,使其直接连至温州地调18F-SW1、18F-SW1交换机,变更后最终稳定收敛的拓扑如下(见图2)。
3.4 改进SCADA服务器与各主机间的询问应答机制
OPEN3000系统SCADA服务器与各主机间的询问应答机制是轮询制,即SCADA服务器在判断网络通畅的前提下与A机通讯时,未收到A机的应答,则一直等待,不再继续与其他主机发生通讯。此机制在此次网络出现假死状况后,引起了全系统运行停滞的状态。为避免再次发生类似故障,对OPEN3000系统的消息进程进行改进,修改message_send进程,增加message_backend进程。改进后,当系统运行message_send进程,同时会拉起数个message_backend进程,message_backend进程的数量决定于系统中的主机数量,一个message_backend进程负责与一台主机进行通讯。这样,若SCADA服务器与一台主机发生通讯受阻时,不会影响全系统的通讯。
4 结语
通过对调度自动化主站网络故障进行分析,找出了网络构架的薄弱点和系统消息进程的缺陷,并实施了改进措施。通过彻查并加固通讯链路、对配线架间的连线方式的修改、对交换机的路由选路的修改和对SCADA服务器与各主机间的询问应答机制程序的改进,调度自动化主站网络再未发生过类似全系统运行停滞的状况,有效地抑制了网络风暴现象,稳固了系统运行。
参考文献
[1] 周巍,胡芸,陈秋红.“大运行”体系建设对地区电网调度的影响[J].中国电力教育,2011(18):104-108.
[2] 黄邵远.地县级调度自动化一体化主站系统建设思路[J].电力系统自动化,2009,33(20):100-103.
[3] 彭晖,葛以踊,吴庆曦,等.地县调控一体化系统分区解并列机制的设计与实现[J].电力系统自动化,2014,38(6):76-79.
[4] 陈宁,徐春雷,庄卫金,等.地县一体化调度自动化系统分布式数据采集方法[J].电力系统自动化,2011,35(24):89-92.