上海轨道交通2号线信号数据传输系统典型故障分析及维护对策
2021-04-27沈丰
沈 丰
(上海地铁维护保障有限公司通号分公司,200235,上海 ∥ 助理工程师)
上海轨道交通2号线(以下简为“2号线”)DTS(信号数据传输系统),在整个信号系统中负责集中站与集中站间的数据转发、校验和控制,犹如人体中的大动脉一般,起着至关重要的作用。2016年,2号线东延伸段(张江高科站—浦东国际机场站)的东环网DTS发生了数次故障。这些故障影响范围大、面积广,处理时间长,严重影响了运营秩序,并造成了不良的社会影响。
通过不断改造、升级及优化,目前的环网系统速度快、容量大、性能相对稳定,信号传输的可靠性也有改善,但仍会发生故障。本文基于对DTS故障的分析,制定出合理、有效的预防维护措施及方法,以确保DTS的稳定与安全。
1 2号线DTS 的构成
2号线信号系统通信线路由2个独立工作的环网组成:徐泾东站至龙阳路站为西环网范围,龙阳路站至浦东国际机场站为东环网范围。
环网各节点(交换机)通过光纤直接串连在1条首尾相连的闭合环型通信线路中,只要任何1个节点发生故障,就有可能造成该环网的中断或瘫痪。而在主备热冗余环网(见图1)中,即使其中1个环网发生了故障,信号系统也能迅速切换至正常环网继续工作。为保证通信的稳定,2号线DTS采用主备热冗余环网结构。其中,主环网为LAN A(局域网A),备环网为LAN B(局域网B),各站MOXA Switch交换机为中继节点。
图1 主备热冗余环网结构示意图
各站点中的NVLE(非安全逻辑仿真控制器)、SCW(人机对话工作站)、Rugged TerminalServer(终端服务器)及AP(无线访问接入点)等设备,均通过交换机进行数据传输与转换协议的处理(见图2)。
图2 2号线站点联锁设备通信连接示意图
2 DTS典型故障
2号线DTS故障类型主要有:交换机阈值过高,造成交换机宕机;终端服务器串口数据异常,影响联锁通信等。
2.1 交换机阈值过高
2.1.1 故障现象
在浦东机场站、创新中路站及川沙站等多个集中站,ATS(列车自动监控)面板显示比实际滞后,控制中心调度员及车站值班员无法通过人工操作来干预。
2.1.2 故障分析
利用Wireshark抓包软件对交换机通信数据进行长时间检测发现,当交换机CPU(中央处理器)阈值≥90%时,通道内存在大量的RSTP(快速生成树协议)广播数据包。
使用FLUKE网络分析仪长时间监测全网通信状态,并汇总数据进行分析发现,大量的RSTP广播数据包是造成交换机阈值过高的主要原因。这些数据包主要流经LAN A或LAN B交换机的1-8端口(连接屏蔽门终端服务器的端口)、4-1及4-2端口(连接环网主干道的端口)。
进一步分析发现:如MOXA PT7828交换机CPU阈值≥50%,则说明交换机处理的网络数据量极大;当长时间阈值≥90%时,容易发生交换机宕机,从而使所有连接交换机的终端都无法通信;屏蔽门终端服务器发生异常,是交换机阈值过高的原因之一。
2.1.3 故障处理
当交换机阈值异常时,可开启MOXA交换机的广播风暴抑制功能。这一处理措施可抑制环网中广播帧数量的急剧增加,从而有效缓解交换机阈值过高的现象。
环网中的屏蔽门终端服务器数量较多,其故障数也居高不下。由于屏蔽门终端服务器跨接LAN A与LAN B,并分布在全网的每个节点上,因此,屏蔽门终端服务器一旦发生故障,就会有较高的概率导致双网同时发生故障,进而使信号系统瘫痪,形成极大安全隐患。对此提出割接屏蔽门终端服务器及AP至单网的解决方案:将广兰路站、创新中路站、川沙站、徐泾东站和虹桥2号航站楼站的屏蔽门终端服务器及AP割接至LAN A,将张江高科站、凌空路站、远东大道站、海天三路站和浦东国际机场站的屏蔽门终端服务器及AP割接至LAN B。
长时间的运营效果显示:通过开启MOXA交换机网络风暴抑制功能,优化网络结构并将屏蔽门终端服务器与AP割接至单网后,再未发生过类似故障。
2.2 终端服务器串口数据异常
2.2.1 故障现象
2016年6月,2号线的多个集中站上行进路无法正常排列,联锁失去通信;创新中路集中站控制线切断,相关联锁区域大范围列车无速度码,且人工无法干预操作等。经检查,确诊为创新中路60终端服务器串口数据异常故障。重置相关端口后,设备恢复正常运行。该故障造成列车晚点15 min。
2.2.2 故障分析
利用telnet远程虚拟终端服务和要登入的终端服务器IP(互联网协议)地址,观察串口通信数据,发现联锁通信数据中断。检查联锁 CPU板的相应通信通道发现,联锁系统正常将数据转发至联锁终端服务器,而终端服务器并未正常转发,导致邻站间联锁数据中断,无法正常排列进路,区间内列车均收不到正常速度码。
使用FLUKE网络分析仪长时间监测联锁通信终端服务器。分析监测数据发现,联锁终端服务器发生了数据环绕现象。邻站联锁系统通信数据通过RS 910终端服务器后,先进行协议转换(RS 232串口通讯协议转RJ 45网线TCP/IP协议),再基于安全型TCP/IP协议传输。可见,信号数据在传输前需经过TCP/IP三次握手。简单来说,TCP/IP三次握手过程为:设备A先产生1个随机序列号(Seq Number),并发送给设备B;设备B在序列号数值上加1形成确认号(ACK Number),并发给设备A,表示设备B已经收到设备A的发送请求,且允许通信;设备A收到正确的ACK Number后,再加1,并发送给设备B,完成TCP/IP三次握手。其中Seq Number是随机产生的二进制数。Seq Number在达到上限后,如再加1,就归位成0,进而形成数据环绕,无法完成TCP/IP三次握手,使通信中断。
由上述分析可知,联锁通信终端服务器RS 910本身存在固件缺陷。这是导致邻站联锁通信中断的主要原因。
2.2.3 故障处理
将该故障现象及相应的大量数据报告递送至供应商后,由供应商对固件升级补丁。该故障得以修复。
2.3 多站点与控制中心通信中断
2.3.1 故障现象
2016年1月26日,2号线东环网DTS通信中断故障,凌空路站61网段交换机宕机。此次故障造成凌空路站、远东大道站和浦东国际机场站61网段的交换机、NVLE和终端服务器通信中断。重启凌空路61网段交换机后,设备恢复正常运行。
2.3.2 故障分析
2号线东环网60网段交换机逻辑连接示意图如图3所示。图3中,张江高科站为master交换机,4-1端口为逻辑断点(防止环网形成环路)。
图3 2号线东环网60网段逻辑连接示意图
2号线东环网61网段的交换机逻辑连接示意图如图4所示。图4中,浦东机场站为 master交换机,4-1端口为逻辑断点。
图4 2号线东环网61网段逻辑连接示意图
2号线DTS系统环网交换机所用的MOXA PT-7828系列交换机,采用自主研发的Turbo Ring专用协议,其主交换机会通过监测物理层信号来主动侦测环网中的各交换机是否发生断电或线路断开等故障。如有交换机发生故障,则启用备用线路隔开故障点。在2号线东环网60网段中,张江高科站为逻辑主交换机,张江高科站的4-1端口与创新中路站的4-2端口之间为逻辑断点。如果广兰路站的交换机发生断电或线路断开等故障,则Turbo Ring协议会启用张江高科站的4-1端口与创新中路站的4-2端口之间的物理线路,使环网中只有广兰路站这1个站点受影响。然而,在日常运营中,交换机宕机时有发生,且宕机时交换机在物理层仍有连通,故Turbo Ring协议不会启用备用线路。在此情况下,只要广兰路站发生宕机,就会造成控制中心与广兰路站至川沙站都没有通信。
2.3.3 故障处理
鉴于故障起因分析,安排抢修人员到机房查看交换机、NVLE和终端服务器的通信状态和灯位。
当抢修人员配有笔记本电脑时:抢修人员将故障范围内及邻站每个机房的RS 530 A/B切换器切换到正常网段;人工配置笔记本电脑的IP地址(IP地址不得与网内其它信号设备相同)后,将笔记本电脑插入交换机插口连接交换机;打开MOXA PT-7828专用软件,点击Boardcast Search按钮,以查看界面中的信息;若环内1个或多个交换机并未在显示菜单中,则初步判断离本站最近的逻辑站点交换机可能存在故障;对故障网段交换机进行重启。
当抢修人员未配有笔记本电脑时:可通过信号机房内的NVLE进行操作;按照DTS交换机逻辑连接结构使用ping命令来排查大致故障点;如离本站最近的逻辑站点交换机无法ping通,基本可以判断该站交换机发生故障;重启故障交换机,确认其重启成功、无告警,且各连接端口通信正常,则故障排除。
3 常规的维护措施
本文基于2号线DTS典型故障的故障处理办法和预防经验,总结了常规的维护措施。
措施1:定期查看控制中心的H3C网络管理系统。增加中央网络管理系统的巡检频次及内容,通过控制中心H3C网络管理系统的SNMP(简单网络管理协议)功能来监测全网中间设备是否正常。监测内容包括:网络管理系统有无设备不可达、离线状态等告警;查看各站点交换机阈值是否≤50%,利用ping命令测试各网络节点间通道是否正常等。
措施2:定期查看终端服务器通信状态。每日必须通过“Telnet +电脑 IP地址” 命令远程登入各终端服务器以查看通信状态。登入终端服务器后,在Serial Port串行端口菜单中查看数据统计,正常的字节传输速度应为15bit/s, 正常的packet数据包传输速度应为1packet/s;若数据包传输量之和为0,则串口通信已经中断,需立即处理。
措施3:定期查看AP是否正常。每日必须通过“Telnet +电脑 IP地址” 命令来远程登入AC无线管理交换机,获取AP登入权限,以查看AP工作状态。
措施4:下载分析交换机系统数据及日志。在每次中央H3C网管系统告警后,需要下载MOXA交换机系统数据及日志并进行分析。交换机系统数据及日志可通过Edscfgui专用软件和虚拟终端(VTY)等多种方式下载。其中,使用Edscfgui专用软件最为方便,使用RJ 45网线连接笔记本电脑与交换机空闲端口,并将该端口VLAN ID(虚拟局域网账号)改成VLAN 1(管理ID)。打开专用软件Edscfgui.exe后,输入交换机IP地址与密码登入交换机管理模式,选择Configuration配置菜单中的Export Configuration输出系统配置文件命令进行下载。
措施5:下载分析终端服务器系统日志。当终端服务器发生串口通信数据异常时,及时下载RS 910终端服务器系统日志数据,以便分析查找故障原因。
4 结语
本文分析了2号线DTS设备发生故障的原因,总结了相关的维护经验。主要的故障处理措施及维护措施为:开启MOXA交换机网络风暴抑制功能,并优化网络配置结构;升级终端服务器固件;加强对中央H3C网络管理系统的巡视,定期查看终端服务器通信状态,查看AP是否正常。
这些经验也总结在《2号线设备排故手册》和《2号线信号DTS传输系统维规》中。实践结果表明,这些故障预防措施做到了事前控制,能有效降低DTS设备故障发生率,保证了设备的稳定运行。