城市轨道交通通信智能运维系统研究
2021-03-16房杰
房 杰
(中铁通信信号勘测设计院有限公司,北京 100036)
0 引 言
城市轨道交通专用通信系统是满足轨道交通运营、管理需求的综合业务通信网,主要包括传输系统、公务电话系统、专用电话系统、无线通信系统、广播系统、时钟系统、乘客信息系统、办公自动化系统、电源系统以及接地等,可以保障列车安全运行[1]。
目前,城市轨道交通专用通信系统通过建设集中告警系统实现本系统的设备监测和告警。集中告警系统是利用计算机网络技术和计算机本身的数据处理能力对专用通信系统中的各子系统进行集中管理,将各子系统的告警信息集中显示在告警终端,使通信维护人员能及时、准确地了解整个通信系统设备的运行状况和故障信息。该系统可以满足早期专用通信系统运维的需要,但随着各地区城市轨道交通建设规模越来越大、运维体系越来越庞大,传统的通信运维体系维护效率低、强度大、工作成本高,难以满足未来可持续发展的需要。本研究依托大数据分析、人工智能等技术手段建设通信智能运维系统,实现专用通信系统设备从计划修转为状态修,满足未来城市轨道交通通信运维的需要[2]。
1 系统概述
通信智能运维系统在城市轨道交通的线路控制中心设置智能运维系统设备,用于采集、汇总、分析、显示、存储并打印通信各子系统的设备运行状态信息,从而进行集中监测预警、状态预判、故障定位以及故障处理指导。此外,该系统还能将各子系统的设备运行状态和告警信息集中反映到告警设备和移动终端设备上,同时记录下收到的故障信息并保存到数据库中,具有访问权限的维护人员可以近程或远程登录网络平台,以快速准确掌握设备运行状态或及时处理各系统设备故障,为轨道交通安全运行提供保障[3]。
2 系统功能
2.1 信息采集功能
通信智能运维系统可以对告警信息和设备工作性能参数实时采集,且采集周期可调。
2.1.1 告警信息采集
(1)网元告警。通信各子系统的网管系统应实时采集各子系统网元设备上的所有报警信息,其中网元设备覆盖通信系统的所有网元。(2)性能超限报警。通过通信各子系统网管系统,实时采集各子系统的性能超限报警。(3)连接告警。当某一通信子系统网管系统持续一定时间不响应通信智能运维系统时,通信智能运维系统自动生成通信连接告警。
2.1.2 设备工作性能参数采集
(1)设备实时电流、电压及功耗。采集UPS输入电压、输出电压、电流、电池组电流、单节电池电压以及内阻等参数,其他各子系统采集服务器、交换机、存储设备、PIS播放控制器、广播功放、广播控制器、录音设备、母钟设备以及接口扩展箱等设备的实时电流、电压与功耗参数[4]。(2)交换机参数。采集各子系统交换机的端口实时速率、CPU利用率、CPU温度、内存使用情况、设备温度、端口在线状态、IP冲突、风扇状态、光口收发光功率等参数。(3)服务器和工作站相关参数。采集CPU利用率、CPU温度、内存使用情况、网口实时网速、应用进程及占用CPU和内存资源以及硬盘使用情况等参数。(4)电源系统相关参数。采集交、直流输出电源的电压、电流、频率等参数;采集UPS的输出电压、电流、频率等参数;采集蓄电池组与单节蓄电池的电压、内阻、温度以及电池充电量等参数。
2.2 智能分析功能
智能运维系统应能采集通信子系统的工作性能参数,跟踪参数变化趋势并加以分析。系统可对设备参数设置预警和告警阀值,在设备参数接近该阈值时进行预警,指导维护人员提前介入。预警功能要采集、统计及展示的性能参数包括:①各系统服务器、交换机、录音设备、视频监视终端以及各系统网管终端等的CPU利用率、CPU温度、内存使用情况、应用进程、占用CPU和内存资源的情况、网口实时网速、硬盘使用情况以及实时电流、电压、功耗等;②电源系统两路输入电源和交/直流输出电源的电压、电流、频率等;③开关电源设备的各路交流输入电流电压频率、负载电流电压、整流器状态、免维护电池电压、电池内阻以及电池充电量等。
2.3 拓扑显示功能
拓扑显示功能提供良好用户界面,以图形方式显示网络拓扑,设备的运行状态在网络拓扑上实时动态显示。在拓扑图上动态反映各通信子系统网元预警和告警,当前网络的运行可以通过声音和颜色的变化来反映。同时还显示选定对象的基本信息,包括名称、位置、状态、当前告警条数、当前告警的级别、告警内容以及原因的简单描述等[5]。
2.4 告警信息管理功能
(1)信息即时推送。智能运维系统设备能对通信各子系统的运行状况进行24小时不间断信息采集,并将告警信息通过App即时推送到预定管理人员的移动终端。(2)告警信息过滤。通信智能运维系统可以控制告警接收条件实现告警过滤功能,可以设置接收到哪些报警或未接收到哪些报警,便于对一些不重要或不关心的告警信息进行过滤,使维护管理人员能够集中精力对网络中重要的告警信息进行监视和处理,提高工作效率。(3)告警信息输出。通信智能运维系统可以根据告警源、发生地点、告警级别、告警状态、告警类型以及产生时间等条件对告警信息进行查询和统计,查询统计结果以报表、图形方式显示,并可对其进行存储和输出打印。
2.5 移动终端App功能
移动终端App支持巡检、日常任务处理、历史信息查询、专家库帮助、现场图像或视频采集、维修记录上传以及备品备件查询等,移动终端App功能通过运营商公网实现。
2.6 专家库功能
专家库对常规问题提供必要的帮助,同时维修人员可通过该功能查询工程相关资料(设备产品说明书、产品维修手册、竣工图纸、历史维修记录等)。通过智能运维系统收集通信各子系统的相关资料添加至专家库,并不断完善专家库。
2.7 系统安全管理功能
智能通信运维系统应具有检测和控制用户登录和操作系统的功能,确保只有具有相应权限的用户才能注册和操作。
3 系统构成
通信智能运维系统主要由两部分构成,即中心智能分析处理部分与底层信息感知部分,如图1所示。中心智能分析处理部分负责完成运维数据整合、数据分析、数据处理、数据应用;底层信息感知部分完成结构化、半结构化信息采集,一部分数据通过其他通信子系统主动上传获取,另一部分信息通过主动感知获取。
图1 通信智能运维系统
3.1 中心智能分析处理部分
在中心智能分析处理部分设置中心服务器区、监控管理调度工作站、告警终端、数据存储设备,并通过网络安全隔离设备与公网对接。
3.1.1 中心服务器区
中心服务器区主要由应用服务器、智能分析服务器、应急预案服务器、接口服务器以及网管服务器等构成,可以完成运维数据的采集、管理、分析,实时掌握现场情况,准确判断故障对运营的影响,及时做出恰当的处理,完成生产组织管理、维修计划及规程管理、工单管理、应急案例库、现场人员定位、设备及物资管理以及重大故障应急调度等工作。
本系统可以自动推送维修任务,统计展示维修进度、工单进度跟踪和设备运行信息,自动统计生成检修月度和年度报告。利用手持终端设备对现场人员赋能,提高对通信设备的检修、抢险、救援等作业效率,实现故障抢修、紧急救援场景下的人员及物质统一调配指挥等。
3.1.2 监控管理调度工作站
监控管理调度工作站包括集中监控工作站、智能运维调度工作站、应急预案工作站以及网管工作站。工作人员可在集中监控工作站监视通信各子系统的工作状态与通信机房的运行状态,包括线路地图、故障地点展示、人员位置显示、备品备件位置显示、值班室位置显示、故障详情及疑难问题跟踪管理等。在智能运维调度工作站,工作人员可以完成报表统计、日常维护计划制定以及运维物资管理等工作。在故障情况下,由应急预案工作站下发应急预案、调配救援物资、记录现场抢修过程等。网管工作站主要完成本系统的状态监测、运维管理、系统配置等功能。
3.1.3 告警终端
本系统设置声光告警设备,对故障信息可以进行声音、光电显示告警,并可以根据故障等级显示不同的声、光信号。此前,重要故障信息可以推送至相应维护人员的移动终端。
3.1.4 数据存储设备
数据存储设备一部分记录底层信息感知部分上传的通信各子系统的设备运行状态信息、通信各子系统的设备运行环境信息,另一部分记录各类告警信息,可供智能分析服务器周期性调取,形成设备健康评估及寿命预测报表,为状态修/预测修提供指导。此外,为特定的通信智能运维人员配备手持终端设备,通过公网接收智能运维系统下发的派班任务,并可在移动端上传作业现场图片和反馈处理结果,实现派班任务的闭环处理。
3.2 底层信息感知部分
底层信息感知部分主要采集通信各子系统设备运行状态与运行环境信息。全面采集各终端设备的运行状态及设备工作参数信息,通过通信各子系统的网管服务器多维度自动且不间断上报。设置传感器监测机房环境温湿度,设置自动巡检机器人代替人工巡检,并可周期性地将网管服务器无法监测到的设备运行状态信息上传至中心智能分析处理部分。
4 结 论
通信智能运维系统综合运用物联网、大数据、人工智能等多种技术,提供设备实时状态监测、智能分析与数据挖掘、设备健康评估及寿命预测、运营指标统计分析与质量评价、生产维修与应急指挥调度、运维信息化跟踪以及运维信息可视化展示等功能,可以有效满足未来轨道交通智能运维的需求,实现运维模式从“计划/故障修”转变为“状态修/预测修”,大大降低了人力成本,提高了运营效率和运维质量。