SCADA系统与第三方设备通讯中断分析
2014-08-15王式久谭洪伟范建全
王式久,张 博,谭洪伟,范建全
中国石油管道公司中原输油气分公司,山东德州 253000
0 引言
通讯系统包括信号源、发送设备、信道(有干扰源会造成干扰)、接收设备、信宿。对于SCADA 系统与第三方设备通讯来讲,信号源、发送设备就是第三方设备本身,信道包含了传输线、接口、转换设备,信宿是接收设备本身。干扰源可以是因发热、辐射、雷电等因素造成的电流、电压、频率突变,从而造成通讯中断。我们按照信号传输通路,从前级向后推移,介绍类似问题的判断、处理过程。
1 UPS 通讯中断经过
2013 年8 月,山东省某地区遭遇几十年不遇的强雷电袭击,当地气象台连续发布了雷电橙色预警。某输气站外接10KV 外电线路于1 日、10 日、12 日受强雷电影响3 次停电,其中2次线路被雷击断,1 次线路出现相间短路。8 月1 日、10 日停电后,某输气站在10 分钟之内启动站内天然气发电机组向站内设备供电,保障了正常生产运行;在12 日2 时30 外电中断时雷击十分严重,站内员工可以看见窗外雷电直击地面,距离不到10m,值班员与调度的固定电话通话也出现中断。根据当时的雷电情况,站内员工无法出门到发电机房启动发电机,直至3 时左右雷电远去才启动发电机合闸供电。在12 日雷电造成站内停电后,1#UPS、2#UPS 与SCADA 系统的通讯中断,上位机出现通讯中断报警。
2 故障分析
对SCADA 系统与UPS 之间的通讯进行分析,这一通路的先后顺序为UPS、通讯线缆及DB9 插头、LSU 232_2 有源1 转2接口、RCI、上位机。1)由于上位机显示其它第三方设备通讯正常,维修人员排除了上位机、RCI 故障;2)LSU 232_2 的作用是将UPS 的数据传送到两台冗余的RCI 通讯服务器,正常指示灯状态如下:LSU 232_2 的“A on”灯对应A line,“B on”对应B line,这两个灯亮则表明UPS 与对应的1#RCI 和2#RCI是正常通讯(其中有1 只灯亮就可以确认LSU 232_2 通讯正常);“TxD”或“RxD”灯闪烁则表示目前UPS 正在与RCI 进行数据的发送或接收(两灯均间断闪烁为正常状态);如以上所有指示灯都不亮了,可以用万用表检测LSU 232_2 电源输入端电压,看看供电是否正常。如果电压为0,则需检查电源线路情况,以恢复供电;如果电压正常(24VDC),且DB9 串口连接正常,则需判断LSU 232_2 是否故障。可用调试笔记本接到来至UPS 的串口,通过在电脑上运行串口调试工具,来检测是否能够接收到UPS 的数据。(1)若可以接收到UPS 的数据,则将来至UPS 的串口接至C line 口,分别用笔记本电脑接A line和B line 口,检测到是否可以接收到UPS 的数据。如果接收不到,则表明LSU 232_2 故障,需维修或更换;(2)接收不到UPS 的数据,则需查看来至UPS 的数据线路是否有断路或设备本身存在故障。根据上述方法维修人员也排除了LSU 232_2 故障,故障在UPS 通讯板。
3 UPS 通讯板
3.1 工作过程
UPS 的通讯板相当于一台计算机主机,显示操作板相当于键盘和显示器。微处理器工作时先从内存读取指令,通过控制器的译码,按指令的要求,从存储器中取出数据进行指定的运算和逻辑操作,完成数据采集、传输、显示,主要实现了UPS电压、电流、频率、电池状态、输出功率及有关的故障、报警信息的数据采集和交换。
3.2 故障排除
1)RJ11A 来自UPS 主机,向通讯板供电,传送数据。通讯板分别通过RJ11B 六针端口与操作显示板通讯;通过RS232端口与上位机通讯。因为操作显示面板的通讯、信息显示均正常,说明通讯板数据采集、处理单元的元器件工作正常,故障范围可以缩小到RS232 端口周边的电路;2)232 端口电路包括MAX232N 芯片、限流电阻、三脚电容、Y 电容、储能及滤波电容。将通讯板断电后拆下,使用万用表电阻档测得电阻与色环标称值一致,就能排除电阻问题;将电容拆下,使用指针万用表10K 电阻档,表笔接触电容的两管脚,电容充电表针右摆到一个最大阻值,随着电容放电,阻值下降,表针慢慢左摆,摆动速度越慢,用此方法可以检测电容的好坏;也可以用数字万用表二极管档在板卡上直接测量电容充电情况;3)MAX232N将5V 直流电压升至串口传输用的10V 电压,提供两对数据收发端,是连接通讯板与LSU 232_2 的桥梁。根据原理图,在通讯板正常工作情况下,用万用表测量MAX232N 芯片的2、6 引脚对地电压应在+8V、-8V 左右;16 引脚对地电压应在+5V 左右;如果2、6 引脚电压在3V 左右,基本可以判断MAN232N 坏掉;可以用示波器分别测量第9、10 脚,应该有波形变化,进一步排除前级故障,确认232N 坏掉;4)用以上判断方法,测得232 芯片及1 只1uF 电解电容故障,更换后通讯板故障排除。
3.3 延伸思考
1)由于4 块通讯板的损毁均发生在强雷击天气之后,所以板卡极有可能为感应雷入侵信号线产生浪涌电压所致。由于室外具有避雷网,同时UPS 进线端装有浪涌保护器,基本排除从电源系统入侵;2)另外第三方设备中的低压配电盘、流量计算机为485 接口,接口保护电路较好,并且接入 LSU 232_2之前先进入了ADAM-4520(485 转232,具有3000 VDC 隔离保护);发电机在停止状态;UPS 通讯板故障较为突出就不奇怪了;3)笔者建议在UPS 通讯板232 接口前加装1 只232 防雷器进行光电隔离,效果会好些。另外,由于MAX232N 芯片容易坏掉,在维修过程中增加了一只插座,方便了以后更换;4)经查询232 系列芯片中232E 产品,具有ESD 自我保护功能,可以尝试替换232N。
4 结论
正确处理SCADA 系统通讯中断问题需要理清思路,逐级排查故障点。专业技术人员用以上方法共修复多块通讯板,缩短了维修周期,降低了维修成本,问题的分析、判断及处理过程对于其它第三方设备中断的处理提供了思路,具有重要的借鉴意义。
[1]赵兰涛,苏彦华.Delphi 串口通信技术与工程实践,2004(1).
[2]哈斯(原著),傅正财(译).低压系统防雷保护.2版,2002.