APP下载

直流换流站远动通道全部中断故障分析和功能改进

2014-12-11戴晓辉

中国科技纵横 2014年24期
关键词:动系统规约换流站

戴晓辉

(国网宁夏电力公司检修公司,宁夏银川 750001)

直流换流站远动通道全部中断故障分析和功能改进

戴晓辉

(国网宁夏电力公司检修公司,宁夏银川 750001)

本文通过银川东换流站基于惠普服务器远动系统通道全部中断故障现象,从远动系统的基本通信构架,硬件系统,软件系统三个方面进行故障分析定位,就发现的问题进行有针对性改进,并完善远动系统软件方面的设计缺陷,确保远动系统能安全稳定运行。

换流站 远动通信系统 通道 中断

远动通信系统是直流换流站控制保护系统的重要组成部分,它主要任务是在直流输电控制保护系统和远方调度中心之间完成数据交换,向远方调度中心发送换流站的运行状态信息,银川东换流站远动通信系统是由许继直流输电公司开发完成,全部网络构架和通信节点按照双网双机冗余配置,在双网和双机未同时故障的前提下是不会发生远动通道中断的,而双机和双网同时故障的概率非常小,所以整个网络构架和配置完全满足要求。

1 银川东换流站远动通讯系统软硬件结构

银川东换流站远动系统基础数据全部从极站控系统采集,经LAN网与数据服务器、极站控系统通讯,全部节点和网络都采用双机双网冗余配置,网络构架如图1所示。

远动系统软件结构中软件流程图如图2所示。

2 故障现象

2013年4月5日20点24分开始,银川东换流站远动工作站至国调、西北、宁夏、山东等六个调控机构通信全部中断,遥测、遥信数据无法上传。此时,银川东站OWS后台监控系统运行正常,也无远动异常报警信号。对GWS远动服务器进行检查,发现KVM键盘显示器无反应,远动系统维护客户端无法连接远动服务器。初步判断是双远动机死机。手动重启远动服务器后,银川东至相关调控机构数据通信业务恢复正常。

图1 远动通讯系统硬件结构图

图2 远动通讯软件流程图

3 现场检查和故障分析

远动双机死机故障发生时,银川东换流站直流满负荷运行,控制保护系统运行稳定,输送功率没有发生变化,远动服务器指示灯无明显异常,远动系统与极、站控主机的通讯连接正常;国调101通道一直处于不稳定状态,通道误码太高导致通道频繁中断。故障发生后现场复制了故障时系统的记录信息,对信息进行分析,对相应的软件代码进行排查,同时搭建了对应的测试环境,对照现场环境进行反复测试。

3.1 硬件分析

在故障发生后调取服务器工作日志对服务器当时硬件工作的情况进行分析,经分析当天服务器本身硬件无异常现象。

3.2 软件分析

图3 core文件报告

图4 core记录的程序出错点

在程序异常退出时,系统内核会在当前工作目录下生成一个core文件(一个内存映像,包含调试信息)。该文件可以指示导致程序出错的代码所在文件以及在文件中的位置,是帮助核查程序问题的有效依据。图3为从换流站现场拷贝过来的core文件内容:

根据core文件提示的内容,程序出错时运行点为文件Link_un balance_slave.cpp的第883行,图4为该文件中该函数的内容,以及程序出错点。

从此函数的代码中分析,这段代码是比较严谨的,在访问内存时对于访问区域有较严格的限制条件,不会导致内存访问越界出现。通过对memcpy上下文语境相关的源代码进行分析,内存操作是安全的。从core文件的调用堆栈信息中按照调用关系向前检查,从图4中可以得出其调用关系,该函数为一个线程的执行函数。

该线程的功能为IEC101规约数据处理,由IEC101链路层线程创建,其创建流程如图5所示。

从以上流程可知,每一个IEC101规约建立通信连接后,都会创建一个线程来处理此连接的数据收发。当判断此连接断开时,终止该线程,但是在设置线程安全停止标记后,并没有等待线程安全退出,而是调用了函数TerminateThread强制终止了该线程。当该线程处于等待状态时,调用此函数是不会有影响的,但是如果终止时该线程处于运行状态并有系统级函数调用时,调用此函数则可能引起异常。

图5 IEC101规约处理流程

图6 修改后的IEC101规约处理流程

图7 IEC104规约处理流程

3.3 故障重现

根据以上问题定位分析,搭建实验环境,模拟现场实际运行环境,通过技术手段,使IEC101规约链路频繁连接和断开,进行测试。运行一段时间后,出现了链路中断。在进行了约2300次的测试后,如按照平均每天10次中断计算,约7个月时间,IEC101通道和IEC104通道都出现了链路中断。

3.4 故障定位

在故障发生前一段时间内,101通道一直处于不稳定状态,时通时断,导致101数据处理线程频繁的创建和强制终止,虽然在强制终止时线程正在运行的概率很小,但是当累积数量达到一定程度时,发生了正在进行内存复制时强制终止线程,导致异常发生。

另外,当线程安全退出时,会释放占用的操作系统中此进程的线程池资源,但是强制结束的线程,其线程池资源是不会释放的,如果线程池资源耗尽,则该进程就不能成功创建新的线程,因此,程序即使没有异常退出,也可能导致连接中断。

由于其中一台远动服务由于线程池耗尽,故障发生前已经出现了链路中断,切换到另外一台继续运行,但是由于没有相应的事件上送,没有引起运行人员注意,直到第二台出现故障,导致和调度的所有通道都出现中断。

3.5 故障修复

在线程结束时,设置线程安全停止标记后,等待线程安全结束。修改内容如图6所示。

完成修改后,按照3.3节环境连续运行,进行了8096次测试,未出现异常。如按照每天平均10次计算,约相当于运行2年时间,链路没有出现异常,内存未见变化。

3.6 检查IEC104规约线程

经检查,104规约处理流程中没有强制结束线程现象,线程结束时是安全退出。图7是104规约的处理流程图。

4 处理方案

4.1 软件完善

根据对该问题的分析、故障定位和持续试验,修改远动服务程序,对银川东换流站远动系统的程序进行更换。

取消调用系统函数TerminateThread(link_handle,0),强制线程退出改为等待线程安全退出。

原程序如下:

if(link_handle!=0)

{

TerminateThread(link_handle,0);

link_handle = 0;

}

修改后的程序如下:

sleep(2);

if(link_handle!=0)

{

pthread_join(link_handle,0)

link_handle = 0;

}

4.2 完善监视和告警信息

(1)将远动工作站的运行信息:CPU、内存使用情况、IP地址、启动时间注册到运行人员监控系统,便于换流站运行人员了解远动工作站的运行工况;

(2)增加服务注册信息,指示各个进程的运行信息;

(3)增加告警信息,将远动系统运行状态变化时发生的事件告知运行人员;

(4)启用自启动功能,采用软件开门狗形式,在系统启动后自动启动远动服务程序、前置服务程序以及对时服务程序,当程序异常退出时,自动重启动相应的服务程序;

(5)增加第二平面网络通讯,已配合银川站调通了调度数据网第二平面网络通讯,为高速网络通道取代专线通道做好了准备。

5 结语

远动通信系统在每个变电站存在,他实现的功能也基本相同,但不同的设计者这些功能实现的方法不尽相同。相对于交流变电站,直流换流站站内通信比较复杂,对应的调度中心较多,可靠性和安全性要求较高,本文通过一起远动通信服务器双机死机导致通道全部中断故障,从网络构架,软硬件等方面分析查找原因,并提出可行的解决方案。希望能为以后有关自动化维护人员分析远动故障提供一定的思路和帮助。

[1]杨学巍,阎帅,付燕青,李喜林.电力系统厂站及调度自动化解析.《电子技术与软件工程》,2014年第5期.

[2]IEC 60870-5-103.远动设备及系统第5-103部分:传输规约——继电保护设备信息接口配套标准,1998.

[3]刘艳,韩肖清.面向对象数据库及其在电力系统中的应用[J].电力系统及其自动化学报,2001年01期.

[4]周翔.调度自动化系统故障现象及其处理方法[J].技术与市场,2011年08期.

[5]姚小平.调度自动化系统常见问题分析及解决办法的探讨[A].第三届安徽自然科学学术年会安徽省电机工程学会2005年学术年会论文集[C],2005年.

戴晓辉(1981—),男,硕士,工程师,电网调度自动化专业,长期从事变电站改造和监控系统维护工作。

猜你喜欢

动系统规约换流站
铁路远动系统几种组网方式IP地址的申请和设置
马勒推出新型模块化混动系统
电力系统通信规约库抽象设计与实现
一种在复杂环境中支持容错的高性能规约框架
直流输电换流站阀冷却水系统故障实例统计分析
一种改进的LLL模糊度规约算法
换流站电阻冷却面板鼓包分析
换流站阀厅避雷器停电例行试验研究
基于多普勒效应的车随人动系统
同塔双回牛从直流从西换流站直流控制保护系统分析