信号安全数据网故障分析及改进对策
2020-10-29赵红霞
冯 飞,赵红霞
(中国铁路上海局集团有限公司徐州电务段,江苏徐州 221000)
信号安全数据网应用在CTCS-2级或CTCS-3级客运专线系统中,实现信号设备(TCC、CBI、TSRS、RBC)之间的安全信息交互。随着高速铁路的迅速发展,信号安全数据网出现的问题也日益严峻起来。如果一旦安全数据网出现故障,将有可能直接导致高铁系统无法工作,影响列车正常运行。本文通过对安全数据网常见案例进行分析,总结故障处理思路,并针对性的改进对策,旨在帮助维护人员提高维护能力。
1 信号安全数据网网络结构
信号安全数据网由车站、线路所、中继站,以及RBC机房中的工业级以太网交换机设备构成双套相互独立的冗余网环,环网设备间光纤铺设方式采用不同物理路径,即在每个环网中,采用不同路径的光纤构成环,在两个环网相同的网络路径处也采用不同路径的光纤来实现。同时为避免车站设备停电后造成网络中断,两个环中用于组成环网的中继设备也不应在同一个车站或中继站设置,最大限度地保障信号系统安全数据网的通信可靠性,如图1所示。各站交换机L串接采用左侧干线通道光缆,迂回通道中继器采用右侧干线通道光缆。各站交换机R串接采用右侧干线通道光缆,迂回通道中继器采用左侧干线通道光缆。另外,避免由于广播风暴数据引起整个网络瘫痪,每一独立子网中接入的网络设备超过一定数量时,将网络环路分割成不同子网。子环网划分利用三层工业以太网交换机实现,三层交换机间采用双冗余光缆进行连接,双通道冗余光缆应采用不同路径铺设,以提高通道的物理冗余性。左右网的子网划分界面不能设在同一车站或中继站,避免车站或中继站设备停电后造成通信中断。
图1 信号安全数据网连接示意图Fig.1 Schematic diagram of signal safety data network connection
全线所有车站的以太网交换机作为网络数据通信接入点,采用8芯光纤构成信号系统安全数据网,其中4芯光纤由线路一侧光缆提供,另4芯光纤由线路另一侧光缆提供,每侧光缆中应另增加2芯光纤作为信号安全数据网的备用光纤。网络中包括工业级以太网交换机、路由器或者协议转换器、专用光纤、ODF架、专用的网管系统等设备,如图2所示。其中,工业交换机是信号安全数据网的核心设备,其核心功能包括业务及管理数据包的转发和光信号中继放大。按照要求,信号安全数据网需设置综合网管系统,用于监控并管理网络,现场一般设置在中心机房或者主站机房,主要是以网络拓扑图形式实现信号安全数据网中所有交换机设备和通道状态、报警信息、电源状态和回放等监督维护功能。该综合网管系统还具备远程终端协议和远程登录工业交换机、FTP上传/下载工业交换机配置等功能,以服务器和客户端的形式提供远程信息复视等。
2 安全数据网环网协议
图2 网络管理系统示意图Fig.2 Schematic diagram of network management system
由于信号安全数据网是环网,一个冗余环网必须有且只有一个主站,主站在铁科设备的安全数据网终端是标注出来,其余均为从站,主站负责环网状态监测和环网倒换。同时为防止网络风暴的产生,目前安全数据网主要采用Dt-ring环网协议,可以通过对交换机端口状态检测并通过较少的协议报文,来决定环和端口的状态,从而保障冗余网络不成环。主站交换机的一侧端口中,一个为转发状态完成接发数据,并以一定周期从转发端口发送环协议报文,环网内交换机依次处理该报文。另一个为阻塞状态,不接发业务数据,仅接收环协议报文。主站交换机最后从阻塞端口接收到该报文,从而完成一次检测。正常的环网协议检测帧从转发端口发出到阻塞端口接收;当阻塞端口没有接收到检测包,认为环断开,主站迅速将阻塞端口转换为转发状态,完成一次环倒换。
在安全数据网终端的拓扑图中,不管是左环网还是右环网都可看到一条虚线,这就是环网中的逻辑断点。当环网中任意单一节点或者链路出现故障时,Dt-ring协议可以快速检测到故障信息并发生倒换,在一定时间内完成,这时备用端口恢复连接并进行数据传输。
3 常见故障案例分析
3.1 网络风暴
3.1.1 故障概况
2019年,12:47:11徐 盐RBC1的1系 与 所有连接站联锁的1网双系通信中断,12:47:13徐盐RBC1进行切系,由1系切换至2系主控。12:47:22徐盐RBC1的1系与徐州东线路所、徐州东徐兰场、后马庄站计算机联锁的1网双系通信恢复。
3.1.2 故障分析
通过查看安全数据网终端数据,安全数据网LAN1网中徐盐RBC1(172.74.203.175)与CBI2(徐州东徐兰场172.74.203.17)之间出现大量Dup Ack数据包,其中RBC1-I系为主系(172.74.203.175),CBI2-I系为主系(172.74.203.17),172.74.204.x网段与CBI的通信未出现该现象,如图3所示,表明网络出现乱序或者丢包现象。
图3 安全数据网数据Fig.3 Data of safety data network
12:47:16.341,CBI2-I系回复TCP ACK(#58804)中,Ack Numbe发生异常(10921→ 15301)。RBC1一直重新发送ACK(Seq=10921,Ack=34945),表示下一个想要的是Seq=10921包,而收到却是CBI2一直重新发送Ack(Seq=34945,Ack=15301),且Ack值不随着CBI的消息更新,进而造成RBC1与CBI2间互传大量Dup Ack数据包,如图4所示。
图4 RBC1与CBI2间在互传大量Dup Ack数据包Fig.4 A large number of Dup Ack packets are being transmitted between RBC1 and CBI2
12:47:18,RBC1-I系 向 所 有CBI设 备 的172.74.203.x网段的 TCP连接发送RST,关闭异常的连接后,RBC1-I系与CBI2-I系间的Dup Ack数据包发送停止。
随后工区人员查询维护终端,发现RBC向维护终端输出系统报警信息0x00C1,表明网络风暴发生/恢复检测。
3.1.3 故障原因
经过上述分析发现,此次故障是由于CBI发送的大量异常Ack包触发RBC网络风暴防御机制,因此RBC向该通道的所有TCP连接设备发送RST断开TCP通信,由于其他连接通道未出现该现象,因此不影响RBC与所有CBI的应用层通信。
3.2 安全数据网交换机掉电
3.2.1 故障概况
2018年,工区接到调度电话通知郑徐线安全数据网出现电源模块报警,工区人员查看安全数据网终端,发现网络拓扑图中TSRS-L交换机显示红色。同时下方报警类型显示电源状态报警,告警原因是未启动电源。
3.2.2 故障分析
通号的安全数据网终端用的软件是HIVISION,该软件用不同的颜色去显示交换机状态。正常情况下交换机无填充色,绿色表明发生故障已经恢复,黄色表明交换机通道类出现故障,红色表明交换机本身出现故障。
维护人员首先查看拓扑图,发现交换机填充色是红色,继续查看告警事件,告警类型是电源状态,告警原因是未启动电源。接着工区人员查看交换机状态,工区使用的交换机是赫斯曼MACH102型号的交换机,发现Fault灯亮红灯,同时电源指示灯P显示黄色,表明是单电源情况。正常情况下P灯应该是绿灯,Fault灯灭灯。
在信号系统中,信号安全数据网的电源都是冗余的,每一个交换机都是两路220 V或者24 V电源输入,而且是从电源屏直接输入,所以出现一路电源掉电情况下交换机报警,但是不会影响通信通道。
接着维护人员查看电源屏模块,显示有两路220 V电源输出。然后查看交换机电源接头,连接都牢固,最后发现空开处于悬空位置,导致交换机单点运行。维护人员合上空开设备,恢复正常运行。
3.2.3 故障原因
此次故障是由于交换机空开处于中间位置,没有闭合导致的。
3.3 安全数据网通道光功率过低
3.3.1 故障概况
联调联试期间需要对安全数据网通道进行测试,在测试期间发现A站和B站经常报警光功率过低,查看铁科安全数据网终端软件Kyvision Pro,发现A站和B站通道多次出现光功率过低报警,然后会恢复,但是报警经常反复出现。
3.3.2 故障分析
由于联调联试期间的安全数据网设备,还牵涉到通信专业,所以这次故障排查需要联合通信专业。信号人员在安全数据网终端站查看安全数据网信息,通信专业到报警站去排查,主要查看安全数据网的尾纤到ODF架之间的通道,从ODF架到通信机房之间的光缆铺设情况,同时对光线接头进行擦拭。通过排查,发现ODF的盖板压住尾纤通道,造成光衰耗过低。
3.3.3 故障原因
光纤铺设过程中,由于前期施工单位没有注意,在施工过程对光纤通道挤压,造成光功率过低。
4 改进对策
通过以上的分析,结合质量管理的思想,从人、机、法、环4个方面提出维护对策。
4.1 人员方面
第一,由于安全数据网涉及到通信相关领域知识,但是目前信号专业在该领域知识点比较薄弱,需要有针对性的提高。可以由通信段出面,邀请设备厂家和通信段职培基地人员对维护人员进行培训,重点是安全数据网报警数据分析和通信信号结合部的相关知识。
第二,加强维护人员对安全数据网组成结构的学习。经过分析可以看出安全数据网包含设备种类较多,比如设备间接口、物理通道种类和设备间接口信息,需要维护人员对此加强学习,由此方便去判断故障范围,到底是硬件还是软件问题。
第三,培养安全意识。每次拷贝数据一定要用专用的优盘,并进行格式化处理,建立健全相关的设备资料台账。
4.2 设备方面
第一,研究表明,三层交换机比两层交换机防范网络风暴更加有效,可以更多的升级成三层交换机,但是需要相关的配置。
第二,定期检查设备使用年限,对超出年限的设备及时进行更换。
第三、更换设备时,必须选择经过CRCC认证的设备。
4.3 方法方面
第一,刚开始组网时根据设备IP数量划分子网,子网间采用三层交换机,避免网络风暴发生时扩大故障范围。
第二,维护人员熟练掌握安全数据网作业指导书和相关维护标准,段、车间进行考试考评。
第三,定期通知通信专业人员来信号机械室对光通道进行各种相关测试,并保留好测试数据。
4.4 环境方面
第一,由于安全数据网里面传递的信息直接影响行车安全,所以严禁安全数据网介入外网,同时严禁安装不相关的软件,这不仅会影响程序运行,还会增加CPU利用率。
第二,对各种USB和其他外部接口进行封堵,光纤曲率半径不能太小。
第三,安装杀毒软件并且定期更新病毒库。
第四,注意机房的温度、湿度。
5 结束语
通过对安全数据网的相关介绍,以及常见的案例分析,结合质量管理的思想针对性的提出维护改进对策,为维护人员提供设备管理帮助以及故障排查思路。