轨道交通通信系统向智能运维演进的思考
2021-09-10荆晶
荆晶
摘 要:现在社会上各行各业都在进行智能化改造,智能化程度都在不断提高。本文在全面了解目前轨道交通行业通信系统运维现状的基础上,并参考国内外通信运营商的系统运维现状,针对轨道交通行业的通信系统提出一些智能化网络运行维护的应用需求场景和建设思路。
关键词:智能运维;数据中台;故障诊断;质量评价;应急指挥
1 通信系统运维现状
目前轨道交通行业涉及众多的通信系统,包括传输、数据网、无线网、电话交换及接入网、调度系统、动力环监、视频监控、漏缆监测、应急通信、光缆监测、车载监测、以及各种监测检测系统。在运行层面构建了多样化的专业网管和监测检测系统网管,有针对性地提供各个专业及通信子系统的网络监控、配置和状态采集、查看能力,主要服务对象是网管中心、监控中心等专门岗位。
虽然在网络规模上没有运营商的网络规模大,但其实际维护难度却常常超过运营商。
随着大数据、云计算、人工智能等技术的飞速发展,国内外的标准化组织、运营商及服务商都在积极探索网络智能化运维的需求、架构、算法和应用场景,并逐步由概念进入落地阶段。
本文在以上现状分析的基础上,提出一些针对轨道交通行业通信系统智能运维的建设思路。
2 遇到的问题
目前,为了提高对各通信系统的支撑效果,已经建立了若干运维支撑类系统,包括综合网管、专业网管、各类监测检测系统。这些系统均相互独立,客观上以“数据孤岛”的形式存在,之间的数据无法互通,缺少有效的联动。虽然这些系统提升了运维效率,但依然高度依赖维护及管理人员的经验、精力和责任心,运维工作量大、效率低、效果参差不齐。
随着大数据、云计算、人工智能等技术的飞速发展,国内外的标准化组织、运营商及服务商都在积极探索通信网络智能化运维的需求、架构、算法和应用场景,并逐步由概念进入落地阶段。
3 智能运维系统的规划
首先通过从各专业网管的北向接口,对各系统网络运行数据进行采集和存储,实现对各通信系统数据进行实时采集和集中管理;在实时采集网络运行数据的基础上,网络综合监控、故障诊断、质量评价、应急指挥等功能。
3.1 通信系统数据集中管控
通信系统数据统一集中管控是实现通信智能运维的核心与基础。主要实现数据集成、数据存储、数据维护、数据服务等功能,形成实际上的通信系统数据中台。
首先面向各专业网管、监测检测等系统进行数据收集;所收集数据包括各系统实时告警信息、设备及业务资源信息、系统性能指标等。然后分专业系统进行数据集成,实现采集结果数据的抽取、清洗、转换及加载等过程。再按照数据类型进行存储,包含事件类数据(如告警事件、接口信令、故障记录等)、指标类数据(如性能指标、质量分析结果、话统计数器等)和对象类数据(如设备资源、网络资源等)。除上述结构化生产数据之外,还包括对非结构化生产数据的存储能力,如图片、视频等。
另外对于无法自动采集的基础数据,可通过人工维护的方式将站点、设备放置点、机房、机架、光缆线路等信息进行录入或导入。
3.2 设备综合监控
通过所收集的实时告警信息,进行标准化处理,将不同专业、不同厂家的告警按统一的标准进行分类,并统一呈现。根据实际需求对不同类型的告警重新设置告警级别,并在监控界面中显示。
通过资源信息,呈现各系统的设备拓扑连接图、设备面板图、业务承载信息等。配合GIS地图,以电子地图为背景显示通信站点及机房的分布情况,在GIS地图上查看站点、机房及设备分布情况。当设备有告警时,可在GIS图层上查看告警提示。
3.3 故障智能诊断
通过实时告警监控、告警标准化处理、工程告警管理、告警诊断分析、告警统计分析等功能,实现通信网络故障的全面展现和智能诊断。
工程告警管理:用户可根据施工停机计划,将相应的通信设备设置为工程模式,在此模式下的通信设备将不显示任何实时告警。用户也可将施工停机计划导入系统,系统自动将计划内的设备设置为工程模式。待施工结束后,取消设备的工程模式,实时告警声光提示重新生效。
告警诊断分析:通过自定义相关规则,对多个告警事件进行相关性分析,自定义的规则包括时间相关性(间隔时间)、资源相关性(告警对象是否一致)、事件相关性(告警名称因果关系);根据规则对当前所有活跃告警信息进行关联分析,呈现分析结果,包括告警定位信息、根源告警和衍生告警等。根据告警名称、告警对象关联出一段时间内的历史告警信息、影响业务信息、原因分析、处理建议等。
故障工单收发:在实时告警界面选择需要派发的告警一键生成工单信息并直接派发,可将告警相关信息自动填充到工单中,并关联出在历史故障处理过程中形成的故障处理建议;处理人员收到工单并完成故障处理后,进行工单回复。可以根据工单完成时间、工单状态等维度对不同单位的故障工单进行统计,统计对象包括区域、工单受理人、工单处理时间等。
3.4 质量评价健康管理
通过收集专业网管、设备检修记录等多来源数据,进行数据处理和评价,最后对各系统进行评价结果的展现。评价结果包括设备质量、工作质量、系统运用质量。设备质量是指设备的客观状态质量,包括机械强度和电气性能;设备质量的评价以设备检修记录和网管动态指标为评价依据。工作质量是指维护、管理人員在生产活动中所达到的质量,包括技术水平、工作态度和维护管理任务的执行程度;工作质量的评价以生产计划的完成情况和问题库的解决情况为评价依据。系统运用质量是指通信系统在使用过程中的动态质量,是运用中的系统、设备及电路在规定的技术条件下所能完成其功能的程度;运用质量以网管动态指标为依据。
3.5 作业过程管控
对各专业的设备设施信息进行规范化处理,制定统一的检修过程数据模型,对所有检修项目进行规范化和标准化,实现各维护单位检修计划的自动编制和检修对象表自动生成。现场检修人员按照标准化的记录格式逐项勾选、填记,填写检修结果,最大程度的实现检修过程标准化,并且通过上传照片、视频等形式,实现管理部门对检修结果的可视化管理。一线检修人员可通过移动终端进行检修结果的记录和上传。
3.6 应急调度指挥
以应急指挥为核心,应急资源管控和应急调度为支点,建立应急调度指挥体系,实现应急视频指挥、现场情况反馈、专家远程支持、资料分享等。为指挥中心和应急抢险作业提供实时的音视频交流手段,有效保障指挥的有序性和即时性,并对指挥过程进行全程录制和保存,以供事后总结和分析。
4 新技术的应用
建设私有云平台,将各专业网管系统统一部署在云平台上,发挥云平台弹性计算、部署简单、稳定可靠等优点,建设通信智能运维平台。同时保证私有云平台与公网之间的网络安全。
5 结束语
通信系统运维工作向智能化方向演进,已是行业发展的大势所趋。但是如何进行智能化运维、采用哪些先进技术达到智能化效果,却没有统一的标准或规范供运维人员参考。本文是从集中监控管理的角度提出了通信智能运维的一些想法。
参考文献:
[1]龙章勇,卜爱琴.铁路通信概论[M].中国铁道出版社,2014.
[2]蓝茜英,蒋笑冰.铁路专用通信[M].中国铁道出版社,2011.
[3]刘治民.地铁通信智能运维系统应用和实践[J].中国新通信,2019,21(11):18.
[4]胡建华.面向业务的智能运维系统探索与实践[J].2018.
[5]徐良燕.电力通信运维中关于智能化支撑的探索[M].中国期刊网,2020.