通信集中监测及告警技术研究
2020-01-01王欣
王 欣
(北京全路通信信号研究设计院集团有限公司,北京 100070)
1 概述
城市轨道交通通信系统包含传输子系统、无线通信子系统、公务电话子系统、专用电话子系统、视频监控子系统、广播子系统、时钟子系统、电源子系统、乘客信息子系统等数十个子系统。这些通信子系统的运行状态直接影响地铁列车的稳定运行,所以维护人员及时、准确地了解整个通信系统设备的运行状态和告警信息,并能通过故障定位及诊断信息对设备故障进行及时有效处理是十分必要的。
为保证设备能够管理和维护,各通信子系统设有独立的网管,网管系统上通常显示该子系统内设备的状态及故障信息。但由于各子系统网管安装地点分散,维护人员无法对整个通信系统进行有效的集中维护管理,也无法对通信子系统间的故障进行联动分析,缺少故障的定位、诊断及处理措施建议,无法对通信系统进行高效的管理和维护。
本文针对通信系统维护的实际需求,研究通信集中监测及告警技术。通过对可扩展的接口适配、大数据处理、数据完整性设计等关键技术的研究,提出通信集中告警系统的架构和设计,实现整个通信系统设备的实时集中监测和管理、故障的快速定位与处理、设备性能管理与预警等功能,提高系统整体运行可靠性及运维效率,降低运维成本。
2 集中告警系统设计
2.1 系统架构
集中告警系统在控制中心设置服务器、交换机,在维护值班室设置终端,终端通过交换机与服务器相连接,通过以太网实现内部通信。
传输系统、无线通信系统、公务电话系统、专用电话系统、视频监控系统、广播系统、时钟系统、电源系统、乘客信息系统等子系统,分别通过以太网接口连接到集中告警系统的交换机上,实现与集中告警服务器的通信,并实时向集中告警系统提供设备状态及告警信息。
综合监控系统通过以太网接口与集中告警系统交换机相连,实现与集中告警系统服务器通信,集中告警系统通过以太网向综合监控系统提供设备状态信息。系统架构如图1 所示。
图1 集中告警系统架构示意图Fig.1 Architecture schematic diagram of centralized alarming system
2.2 软件架构
考虑到系统升级维护简单,多用户分布性访问,业务扩展方便等特点,系统采用B/S 软件架构。由于需要管理和接入的通信子系统较多,且不同厂家接口也不完全一致,为保证系统的可扩展性及易维护性,系统划分为数据服务子系统和告警展示子系统,具体软件架构如图2 所示。
数据服务子系统主要实现各通信子系统设备状态及告警信息的接收,数据处理,并将数据上报给告警展示子系统及综合监控系统。告警展示子系统接收数据服务子系统处理后的数据,存储到数据库中,并通过UI 界面实时呈现给维护人员。
为增加系统可靠性和可用性,采用结构化方法对系统进行模块划分。数据服务子系统分为数据接口模块、数据处理模块、数据上报模块。告警展示子系统分为数据接收模块、系统配置模块、拓扑管理模块、告警管理模块、性能管理模块、安全管理模块、自定义预警模块和数据存储模块。
2.3 系统功能
集中告警系统主要实现对各通信子系统设备运行状态和故障的诊断和呈现,具体功能如下。
1)数据采集:能够采集设备的运行状态信息和告警信息,处理后存储到数据库中。
2)拓扑管理:能够对拓扑图中的节点类型(如车站、车辆段、停车场等)和节点进行配置,并能够在拓扑图中以声光的形式展示各节点的告警等级、告警数量信息。
图2 集中告警系统软件架构示意图Fig.2 Software schematic diagram of centralized alarming system
3)告警管理:能够对告警过滤、告警转发、告警方式、自动确认方式等进行配置;能够根据过滤条件对告警信息实时显示;根据指定条件查询、统计告警信息,以图表的形式呈现并可导出。
4)性能管理:获取车站内机柜的环境(如温度、湿度等)信息,可根据指定条件查询、统计,并支持以图表的形式呈现和导出。
5)自定义预警:能够对性能参数阈值进行配置;能够根据用户定义的阈值判断设备是否存在预警,并在拓扑中展示。
6)故障分析:能够结合通信子系统间的故障信息联动分析,给出故障定位及处理措施建议。
7)安全管理:按照不同角色管理维护人员权限,记录用户的操作日志、登录日志及系统健康状态,并提供查询功能。
8)智能提醒:可从多个角度根据用户配置进行邮件、短信的智能提醒功能。
3 关键技术实现
3.1 可扩展的接口适配设计
集中告警系统南向对接数十个通信子系统,北向对接综合监控系统及EAM 资源管理系统。同一个子系统也可能是由不同厂家提供,且随着通信系统的发展,接入的子系统还会逐步增加,所以接口的灵活性和扩展性是系统后续可持续演进的重要因素之一。
系统采用独立的数据接口模块设计,南向支持UDP、SNMP 协议,可扩展其他基于IP 的协议(如TCP 等);北向支持modbus 协议,并预留UDP、TCP、REST 等接口协议。
3.2 大数据处理设计
集中告警系统采集各车站、各通信子系统的设备运行状态、告警信息、性能信息等,数据并发量大,对实时性要求高。为保证在数据并发时的处理速度及响应时间,系统采用多线程处理。为防止多线程带来的数据时序错误导致的告警信息不同步,将根据数据类别(告警或性能信息)、子系统类别对数据进行分类,再放到不同线程队列中处理。
集中告警系统需要将历史数据保留一年以上的时间,将会累计近TB 级的数据量,为保证查询、统计的响应速度,需要对数据库进行优化处理。对于存储告警信息的数据库表,以月为单位对数据库表进行分区;对于存储性能信息的数据库表,以日为单位对该表进行分区处理。
3.3 数据完整性设计
集中告警系统最重要的是能够实时、准确的反映设备的运行状态,所以能够及时、完整的接收、处理设备告警信息是系统的关键。
为保证数据的实时性和完整性,系统采用消息上报机制、消息重发机制,以及定时轮询机制。当各通信子系统设备出现告警时,应根据接口定义主动上报告警信息,数据服务子系统收到告警信息后回复确认消息,若该子系统在指定时间内未收到确认消息,应启动消息重发机制,再次发送告警信息,直至收到确认消息或达到重发上限次数。
同时,集中告警系统启动定时轮询机制,定期更新各通信子系统最新状态,保证系统能够为维护人员提供最新、最准确的设备状态信息。
4 应用成果
集中告警系统目前已成功应用于成都某地铁线路,实现各系统设备运行状态及告警信息的集中监控和管理、重大告警的过滤和分析、处理措施的优化和建议、运行环境的监测和预警等,并通过智能、友好的用户接口,使维护人员能及时、准确地掌握整个系统设备的运行状态,快速定位处理故障,发现系统潜在威胁和风险,从而提高运维效率,降低运维成本,保障系统整体运行的安全可靠。
5 结论和建议
本文研究了通信集中监测和告警技术,介绍系统架构、软件架构及系统功能设计,并说明系统的关键技术实现。经实际应用,证明了系统安全稳定运行。
考虑到信息技术及移动技术的快速发展,下一步将考虑系统与移动端的结合,建议后续对集中告警移动平台的设计进行深入研究。