高速铁路灾害监测系统现场监测设备脱离监控分析及改进措施研究
2018-07-10王娇娇李亚群
王娇娇,王 瑞,包 云,李亚群
(中国铁道科学研究院集团有限公司 电子计算技术研究所 100081)
截止2017年底,我国高速铁路运营里程已超过2.5万km,为保障列车安全运行,已开通的高速铁路均同步建设了高速铁路自然灾害及异物侵限监测系统(简称“灾害监测系统”),实现对铁路沿线风、雨、雪、地震及异物侵限的实时监测,同时具备报警、预警及联动触发功能[1-2]。系统为列车的安全运行发挥了重要的安全技术保障作用,但是,系统在长期运用过程中也逐渐暴露了一些问题,其中现场监测设备脱离监控便是其中的一个主要问题。针对灾害监测设备的可靠性问题,业内专家学者也展开了一系列研究工作。张翠兵[3]分析了导致异物侵限监测子系统运用失效的故障类型,并统计出各类设备故障对系统的影响程度;李晓宇等[4]从设计、建设、运用及维护等角度调研了灾害监测系统存在的问题,并给出优化措施及建议;李亚群等[5]提出了灾害监测系统关键设备监控单元的可靠性检验方法,完善系统的可靠性管理;除此之外,其他学者也对如何全方位完善灾害监测系统进行了探索工作[6-7]。本文在对全路灾害系统现场监测设备脱离监控情况调研的基础上,开展系统现场监测设备脱离监控故障的相关分析。
1 高速铁路灾害监测系统现场监测设备脱离监控情况分析
现场监测设备脱离监控是指终端查询不到当前灾害监测信息和设备状态信息的一种状况,包括监控终端监测到现场采集设备、监控单元及附属设备状态显示灰色,监测终端黑屏、死机,软、硬件故障导致的灾害监测系统无采集数据或数据不更新,通信中断、异常等现象。现场监测设备脱离监控会导致灾害监测系统无法反映现场情况、终端灰屏无法使用,甚至造成列车晚点或停运,是灾害监测系统故障中影响范围较大、故障排查较复杂的系统故障之一。
根据对全路灾害监测系统设备故障情况的统计分析,2013年1月至2017年5月,全路共发生现场监测设备脱离监控情况238次,具体故障原因如图1所示。从图中可以看出,传感器故障和网络故障是造成灾害监测系统现场监测设备脱离监控的主要原因,两者占总故障原因的38%,其次是电源故障、防雷模块故障等。
在此,按照设备脱离监控的影响范围将设备脱离监控分为两种情况:(1)大范围现场监测设备脱离监控,该情况影响范围大,如一处或多处监测终端灰屏、多监测点通信中断等;(2)局部监测点现场监测设备脱离监控,如单监测点无采集数据或监控数据不更新等。
图1 现场监测设备脱离监控原因统计
1.1 大范围现场监测设备脱离监控情况分析
2013年1 月~2017年5月,全路共发生54次大范围现场监测设备脱离监控情况,对列车运行造成了不同程度的不良影响。系统大范围脱离监控的原因如图2所示,可以看出,网络故障和电源故障是主要原因,系统的具体故障原因如图3所示。
(1) 网络故障
图2 大范围现场监测设备脱离监控总体原因统计
图3 大范围现场监测设备脱离监控具体原因统计
网络故障包括网络风暴、网线故障、路由器故障、终端网络传输故障、交换机故障、通信电缆被挖断等多种情况,是灾害监测系统较难排查的故障之一,如图4所示。网络出现故障时,不易分析和定位[8]。
图4 网络故障分类
其中,网络风暴是网络广播风暴(Network Broadcast Storm)的简称。当主机系统响应一个在网上不断循环的报文分组或者试图响应一个没有应答的系统时就会发生网络广播风暴[9]。导致网络风暴的可能因素有网络设备不符合要求、网卡损坏、网络环路故障及网络病毒入侵等。2016年1月某客运专线发生3次网络风暴问题,致使灾害监测系统监控终端灰屏、全线报警、无数据显示,系统分别于1 min、18 min、 1 h11 min后自动恢复,故障导致的不良影响十分严重。
(2) 电源故障
电源故障会导致监测点通信中断、监测终端无法正常显示等问题,故障原因通常包括施工断电、机房断电、UPS故障和电源线松动等。其中,施工断电导致的电源故障次数最多,经调研得知,主要由于相关单位检修作业前没有做好有效的沟通,如:需停电作业的情况下,供电段切断了供给配电箱的供电通道,而设备管理单位相关人员未对配电箱及时进行手动切换,最终电源电量耗尽,影响系统正常运行。
(3) 软件故障
导致软件故障原因有灾害
监测软件不稳定、未及时升级、缺乏定期维护等。
(4) 监控数据处理设备故障监控数据处理设备故障包括服务器故障、硬盘损坏、工控机死机和小型机故障。其中,服务器故障导致的监控数据处理设备故障次数最多,主要表现为服务
器宕机等。此外,机房环境差,服务器未进行定期重启、维护等会大大增加此类问题发生的概率。
(5) 终端故障
终端故障主要有主机故障和显示器故障,主机故障表现为主机死机或损坏两种情况:主机死机时,经重启后一般可以恢复正常;遇主机受损时,经现场修复或更换备用机可恢复正常。显示器故障时,需及时更换新的显示器。
1.2 局部监测点现场监测设备脱离监控分析
相比于大范围现场监测设备脱离监控,局部监测点现场监测设备脱离监控对系统造成的不良影响相对较小,但故障类型多样,排查工作复杂,同样要给以足够的重视。
2013年1 月~2017年5月,全路共发生184次局部监测点现场监测设备脱离监控的情况,原因统计如图5、图6所示。由图可知,传感器故障是导致局部监测点现场监测设备脱离监控最主要的原因,其次为网络故障、防雷模块故障、电源故障、监控单元主机故障等。
图5 局部监测点现场监测设备脱离监控总体原因统计
图6 局部监测点现场监测设备脱离监控具体原因统计
(1) 传感器故障
灾害监测系统现场传感器主要包括风、雨、风雨、异物侵限和地震传感器5种类型,故障分类统计如图7所示。传感器故障通常有设备本身损坏、传感器接线脱落两种表现。因此,初期选用合格的产品和后期及时的故障排查尤为重要。
图7 传感器故障分类
(2) 网络故障
导致网络故障的问题中,通信元件故障占比最多,约58%,其次还有传输通道故障、通信模块故障等。由图8可知,造成局部监测点现场监测设备脱离监控的网络故障主要成因是硬件设备的损坏,所以需要准备充足的备品备件。
图8 网络故障分类
(3) 防雷模块故障
防雷模块故障会直接影响雷电天气下设备的正常使用,需引起高度重视,以便及时发现问题,排除隐患。
(4) 电源故障
电源故障包括UPS故障、变压器故障和逆变电源故障。UPS故障是导致局部监测点现场监测设备脱离监控的主要电源故障。表现为UPS数据采集串口共享器故障、UPS电源空开跳闸等,日常维护工作中应进一步加强对UPS的故障排查。
(5) 监控单元主机故障
监控单元主机故障分为主机死机及主板老化、损坏等情况,需要重启主机或更换备用机、备用主板才能恢复正常运行。
(6) 其他故障
此外,数据传输单元、数据采集模块、软件故障等同样会导致局部监测点现场监测设备脱离监控。其中,数据传输单元故障分为数据采集箱故障和配电箱故障两类,配电箱故障居多,表现为自动切换模块故障、箱内空开跳闸等;数据采集模块故障包括气象板故障、CMM数据采集模块故障等;软件故障包括版本未及时更新、软件不稳定、互联互通程序接口服务器上软件故障等;长线收发器故障时,需要及时更换新设备;监控数据处理设备故障为2次服务器故障,对服务器进行重启即可恢复正常。
以上描述的设备故障中,恶劣天气是导致系统故障的间接原因之一。如雷雨天气会使得传感器或者基站内设备被雷击损坏,寒冷天气下设备故障的频率增大等。资料显示,某客运专线某公司管段1年内发生了10余次因环境温度过低导致传感器表面被冻住引起监测点闪灰的故障。因此,需将如何应对特殊气候环境下的设备维管问题纳入下一步工作范畴。
2 改进措施与建议
综合以上分析,提出以下几条改进措施和建议:
(1)加强结合部管理。灾害监测作为一个综合的专业,涉及到工务、电务、供电、信息等部门和站段,由铁路局工务处负责灾害监测系统的统一管理[10],各设备管理单位进行维修作业时应加强联系,共同确认影响范围及配合方式后方能作业,停电作业需要提前通知工务做好应急准备。
(2)加强设备日常巡检。各设备管理单位应根据实际情况定期对各自管辖设备进行检修,并做好检查记录,确保灾害监测系统各部位处于良好工作状态,保证良好的机房环境,备品备件充足,降低系统的故障风险,提高服务器系统稳定性和效能。
(3)加强网络故障的排查,提高网络安全保障能力。特别是传输通道、通信元件等易出现问题的部位需定期检查、维护。通过从技术、管理和运维等方面综合加强网络安全保障。在技术上,通过认证授权、数据加密、访问控制、边界防护等技术,确保系统网络安全;在管理上,建立网络安全全员培训机制,覆盖网络安全管理人员、技术人员和应用系统操作人员。另外,进行检查考核,包括政策法规和标准执行情况、重大网络安全事件及整改情况、网络安全技术防护要求完成情况等内容。
(4)完善灾害监测软件,增强软件容错能力与健壮性。定期(1个月、3个月等)对磁盘进行清理,删除无效日志,释放磁盘空间;每半年对服务器进行重启维护,使服务器操作系统重新初始化;至少每一年备份一次数据库,积累监测数据,便于开展大数据分析研究。
(5)对故障频发的设备进行监测,研究可替代的设备和技术。针对监控单元电源故障频发的问题,对其进行实时监控,并研发可靠性高的电源设备;针对异物侵限双电网故障多的问题,研发基于雷达和综合视频智能分析相结合的非接触式异物侵限监测设备,提高异物侵限监测的可靠性和适用范围。
(6)做好恶劣天气下设备的防护工作,如雷电天气下应安排人员及时做好防雷模块的故障排查,研发铁路沿线雷电预警产品,提前做好防范和应急处置工作;严寒天气下应有针对性的对相关线路上的传感器启用加热功能,防止设备由于覆冰或温度过低而无法发挥作用。
(7)开展灾害监测设备状态大数据分析。对灾害监测系统收集的设备状态数据开展大数据分析,及时掌握设备特性变化趋势,有针对性地进行维修和处理,预防设备故障发生,充分发挥数据对系统运用、维护的支撑作用。
(8)强化应急管理。建立路局灾害监测设备故障知识库,结合灾害监测系统设备故障出现频率及检查要求,编写相关故障应急处置预案,发生设备故障时,应按险情等级和影响程度及时启动应急预案。同时加强对员工的故障应急处置方面的培训,并且就培训内容对人员进行考核,定期组织应急演练,提高干部职工的应急处置能力。
3 结束语
本文通过对全路灾害监测系统现场监测设备脱离监控情况的调研,分析了系统现场监测设备的故障原因,并针对网络故障、电源故障、传感器故障等 具体问题,挖掘成因,提出改进建议,旨在降低灾害监测系统的故障率、提高可靠性,为高速铁路灾害监测系统的运用和维护提供参考。
[1] 中国铁路总公司. 高速铁路自然灾害及异物侵限监测系统总体技术方案:铁总科技[2013] 35号[Z]. 北京:中国铁道出版社,2013,2.
[2] 王 楠. 高速铁路防灾安全监控系统[J]. 铁路计算机应用,2012,21(7):56-56.
[3] 张翠兵. 异物侵限监测子系统运用失效的故障树分析[J]. 铁路计算机应用,2016,25(1):4-7.
[4] 李晓宇,张 鹏,戴贤春,等. 高速铁路自然灾害及异物侵限监测系统运用及管理优化研究[J]. 中国铁路,2013(10):21-25.
[5] 李亚群,姜 勇,雷 震,等. 高速铁路自然灾害及异物侵限监测系统监控单元设备可靠性验证试验方法研究[J]. 铁路计算机应用,2013,22(12):25-27.
[6] 武明生,秦成文,徐成伟. 高速铁路风监测设备比对试验方法的研究[J].铁路计算机应用,2013,22(2):5-8.
[7] Tao Wu, Yusong Yan, Xi Chen. Reduction of Power Consumption in Wireless Sensor Networks for Railway Disaster Prevention and Safety Monitoring System [C]//In:International Conference on Energy and Environmental Science (ICEES),2011:983-991.
[8] 姚鲲鹏,周 宇. 高速铁路自然灾害及异物侵限监测系统网络优化方案[J]. 电脑知识与技术,2016,12(34):64-67.
[9] 龚仁树. 基于CBTC的DCS通信系统介绍与网络风暴成因及其处理方式[J]. 铁路通信信号工程技术,2015,12(6):69-74.
[10] 中国铁路总公司.高速铁路自然灾害及异物侵限监测系统维护试行办法: 铁总运[2013] 142号[Z]. 北京:中国铁道出版社,2013,11.