上海城市轨道交通通信系统智能运维需求分析
2021-12-08袁志骞
袁志骞
(上海地铁维护保障有限公司通号分公司, 200235, 上海∥工程师)
上海城市轨道交通通信系统作为主要的运营管理手段和数据交互媒介,随着近年来的通信技术快速革新,已逐渐发展成为一个由传输、专用无线、专用电话、公务电话、技术防范(以下简称“技防”)、广播、乘客信息、时钟、通信电源、光电缆等多个子系统组成的庞大系统。各类通信终端和资源覆盖了整个上海城市轨道交通,各通信子系统具有种类和制式多样、终端数量巨大、覆盖范围广等特点。目前,上海城市轨道交通逐步迈向超大规模网络化运营,为满足设备高可靠性的运维需求,通信系统在故障快速定位、跨系统联动分析、状态修策略制定等方面面临着更高的运维管理要求。虽然各类通信子系统的网络管理(以下简称“网管”)系统和信息化管理系统提供了一定的设备运维管理手段,但仍普遍存在集成系统网管功能不够完善、各子系统数据相对独立、跨专业综合分析主要依靠工程师个人经验等问题,且对设备在长期应用过程中产生的大量数据缺乏收集和分析的手段。因此,迫切需要结合大数据和人工智能等技术,构建通信设备的智能运维系统来支撑城市轨道交通的超大规模网络化运营。本文梳理了上海城市轨道交通线网层面通信系统智能运维的建设需求,以期为通信系统智能运维建设的远期目标提供参考。
1 上海城市轨道交通通信系统现状分析
1.1 各通信子系统的种类和型号多样、制式复杂
上海城市轨道交通通信系统的子系统较多。通信子系统按属性可分为资源、行车和运营3类,其中:资源类子系统包括传输、光电缆、时钟和通信电源等;行车类子系统包括专用无线、专用电话和公务电话等;运营类子系统包括技防、广播和乘客信息等。此外,由于上海城市轨道交通各线路的建设时期不同,且部分线路为分期/分段开通,各通信子设备建设时随通信技术发展情况选用了不同制式、不同厂家和不同型号的设备,这为通信系统的设备管理和技术储备带来较大挑战。
1.2 覆盖范围广、设备体量大
为满足上海城市轨道交通运营的各类通信需求,通信系统各子系统设备覆盖了上海城市轨道交通所有车站、运营控制中心、车辆场段、管理指挥区域和轨行区,目前配置了通信机房共计449间,通信设备运维的体量巨大,运维作业面几乎涵盖了上海城市轨道交通的所有区域。以终端设备为例,截至2021年6月底,上海城市轨道交通网络内有各类无线终端12 130台,各类电话终端48 000台,各类屏幕4 995块,各类摄像头40 000余个。
1.3 数据分析能力弱、自动化程度低
各通信子系统均设置有网管,以实现对各自系统的设备管理和状态监测,但是却普遍存在智能化程度低、无数据积累和挖掘分析功能等问题。随着城市轨道交通线网规模的持续扩大,原本由人工进行现场巡视和检测的工作模式给设备的运维管理带来非常大的压力,急需进行技术升级。例如,对公务/专用电话语音质量、乘客信息屏幕画质和视频图像质量的巡视,以及对城市轨道交通区域内无线电环境情况、漏缆和天线质量的检测等均需实现自动化和智能化。
1.4 运维模式升级条件不完善
以往上海城市轨道交通通信系统的运维工作主要以计划修和故障修为主,计划修模式下消耗的资源较大,且过修现象普遍存在,而故障修又较为被动,无法满足设备保障要求。为了提高通信系统的运维保障水平,传统的计划修和故障修模式需逐渐演变为状态修模式。与信号、车辆、工务等其他专业相比,通信设备的状态没有明显的线性劣化过程,这导致了通信设备状态修的触发点较难把握。另外,既有线路设备在设计时没有为状态修设计一定的安全边界,也没有为通信系统提供一个安全的状态修触发点,因而在既有设备上较难全面实现状态修模式。
1.5 跨子系统故障定位速度慢
由于通信系统成网络化部署,覆盖范围广、专业接口较多,处理故障的过程中经常需要多部门协同进行跨车站、跨线路、跨专业的排查,且需要工程师结合故障现象进行逻辑分析和现场测试排查后才能确定故障点,因而,通信设备的故障修复周期较长,消耗的人力较多。
1.6 设备管理体系化程度不强
上海城市轨道交通通信系统设备的种类、型号繁多,各类业务数据变动频繁,因而对各通信子系统的设备台账和业务台账管理尤为重要。目前,上海城市轨道交通通信系统的设备和业务台账管理主要以人工更新电子表格的方式为主,虽然也有多个信息化系统对固定资产管理、运维合约管理、业务开通流程、备品备件维修等业务进行信息化管理,但这些业务的信息化管理较为分散,设备管理部门对现场设备的实时掌握程度不足,设备管理体系化程度不强,与设备的全生命周期管理目标仍存在较大差距。
如图1所示,针对目前上海城市轨道交通通信系统的现状,本文从数据采集需求和业务功能需求两方面对通信系统的智能运维建设提出建议,为后续的新建线路提供建设参考。
图1 上海城市轨道交通通信系统智能运维需求分析
2 数据采集需求分析
2.1 确定采集范围
通信系统需实现对各子系统设备数据采集的全覆盖,其监测采集范围包括对各子系统的设备状态和告警信息,故障可定位至现场最小可更换单元。具体要求包括:①对传输、专用无线、专用电话等关键业务系统,需实现设备性能数据采集;②对专用无线、专用电话、技防、广播、乘客信息等用户终端较多的系统,需实现用户操作信息采集;③对无线环境(如区间场强、越区切换、误码率、同频和邻频干扰等)、设备房环境(如温湿度、粉尘、烟感、水浸等)、电源(如外电网、电源屏、UPS(不间断电源)、电池等),需实现对设备运行环境的监测采集。
2.2 确定采集数据的类别
通信系统中的传输、专用无线(原装部分)、电话等子系统具有较为完备的设备数据监测采集能力,而其他集成子系统的数据采集则较为单一,且实时性较低,不能满足多样化感知需求。采集数据类别主要包括日志数据、故障告警、设备状态、性能信息等。
2.2.1 日志数据
为实现对各通信子系统进行多维度的综合分析,采集的日志数据需包括系统运行日志、用户操作日志和维护操作日志。
1) 系统运行日志包括通用主机设备、网络设备及各类专用设备在运行过程中产生的硬件设备运行日志,以及各业务系统在运行时涉及到的核心进程、应用业务程序、数据库、中间件等产生的软件日志。通过对此类数据的采集分析,可评估系统的运维状态和健康度趋势。
2) 用户操作日志指用户在操作使用设备的过程中产生的日志,如操作用户、操作时间、操作命令、操作设备等。可通过对用户操作日志数据的分析挖掘,对各通信子系统设备的操作成功率、操作响应灵敏度、描绘用户操作特征等进行评估,以此达到预判故障、优化系统配置、迭代提升系统设计的目的。
3) 维护操作日志主要用于记录运维人员对各通信子系统的运维操作,如登录账户、操作时间、查询记录、操作记录等,实现对各通信子系统运维质量和安全的管控。同时,通过对处理故障期间操作记录的分析,可不断优化各通信子系统的故障排除策略和步骤,缩短故障修复时间。
2.2.2 告警数据
各通信子系统的告警数据主要由网管和第三方监测系统提供,可较为准确、及时地反映当前各子系统面临的主要问题,如业务中断、冗余丧失、终端设备离线、无线网络覆盖不良等。智能运维系统对各通信子系统的告警数据进行分级后,可作为智能检测故障排除的触发条件,启动智能故障排除逻辑。通过对各通信子系统的告警数据进行进一步的关联分析,可实现对故障影响范围的评估和预判。
2.2.3 状态数据
各通信子系统的状态数据主要包括设备的基础信息数据和性能数据,其中基础信息数据包括生产厂商、设备型号、生产批次、制造日期、创建日期等基本信息;性能数据采集类型如表1所示。状态数据应结合各子系统及其设备特点进行采集。
表1 各通信子系统设备性能数据采集类型
2.3 确定采集机理
各通信子系统网管对设备各类数据的采集相对较为完善,故通信智能运维的数据采集主要通过子系统的网管对接方式完成。此外,考虑到如无线环境监测、乘客信息发布质量监测、机房状态监测等数据具有分析价值,但这些数据的监测超出了既有通信子系统网管监测范围的数据采集需求,可由通信智能运维系统直接进行采集。
2.3.1 系统对接采集
通信智能运维系统需兼容SNMP(简单网络管理协议),以及MODBUS、Webservice、CORBA等主流的协议和接口,实现与各通信子系统的接口对接,采集智能运维系统所需的各类数据。专用无线、高速数据网、技防、上层网时钟、公务电话软交换、专用电话软交换等线网级通信子系统在线网核心侧与智能运维系统进行对接,而乘客信息、广播、线路传输、线路时间、电源等线路级通信子系统则在线路核心侧与智能运维系统进行对接。
2.3.2 直接采集数据
在超大规模网络化运维的背景下,以及在大带宽无线通信技术、数字图像识别技术、传感器技术的加持下,在既有各通信子系统自身监测范围之外、原本由人工完成的系统性能检测和状态检查工作,可通过通信智能运维系统直接进行高效、实时的数据采集。例如,通过无线终端升级或加装监测设备的方式,实现对区间和重点部位的无线环境监测数据采集;通过既有技防子系统的摄像机或在特定位置加装摄像机,实现对车站PIS(乘客信息系统)屏幕的状态数据采集;通过加装温度、湿度、粉尘、水浸等传感器,实现对无人值守机房环境监测数据的采集。
2.4 建立采集数据的网络架构
建立通信系统智能运维数据采集的网络架构,需结合与之对接的各通信子系统的架构特点和传输网络条件,按线网级系统、线路级系统和直采数据分类后分别进行汇聚采集。考虑到对接子系统数据的采集协议和数据采集模式可能存在差异,且不同子系统所处的网域限制可能影响数据的双向交互,故在汇聚交换机侧设置数据采集处理服务器,将采集到的数据结构化后通过高速数据网传送至通信智能运维系统。
图2为通信系统智能运维数据的采集逻辑架构。在建设采集网络时,需考虑信息安全策略,配备必要的信息安全硬件并制定相应策略。同时,为实现智能运维数据的采集汇总,需根据上海城市轨道交通目前的传输线网资源情况和各被采集子系统设备的分布情况,结合全线网IP(互联网协议)的地址规划和信息安全要求,对智能运维数据采集汇聚网络架构和IP地址进行规划。
图2 通信系统智能运维数据的采集逻辑架构Fig.2 Data acquisition logic architecture for intelligent operation and maintenance of communication system
3 业务功能需求分析
3.1 设备状态预警和跨子系统故障快速定位
由计划修向状态修逐步过渡过程中,在一段时间数据积累的基础上,智能运维系统可归纳出设备故障发生前后各通信子系统自身和关联子系统的数据特征,形成故障状态特征库,明确故障预警的触发条件,并在设备性能劣化形成故障前提示运维人员介入处理,以降低故障发生概率、提升状态修水平。
由于各通信子系统业务多样,内外部接口众多,在日常设备故障排查过程中经常需要结合各相关子系统网管反馈的系统状态,由各级运维人员协同配合,以人工方式进行逐级逐层排查。故障排查的效率较低、速度较慢,无法满足超大规模网络化运维要求。由此,需要依托智能运维系统,建立跨子系统状态数据分析、排查策略库,采用端到端检测等手段快速定位故障点,明确故障影响范围,并给出设备故障的进一步排查和处理意见。
3.2 指导制定设备的年度运维策略
传统的计划修模式下,维护人员根据设备维护规程规定的运维检修频次对设备开展维护工作,通过年度设备评估梳理出设备的薄弱环节,由各通信子系统的工程师制定具体设备的运维和整治计划,确定次年的重点工作内容和相关工作的实施次序。维护人员以人工方式逐级进行设备评估梳理的周期较长,供决策参考的设备信息相对滞后,且由于计划修模式下人工采集的设备数据量有限、颗粒度较大,一定程度上对运维策略的准确性产生影响,因此,每年设备运维策略和整治计划的制定对工程师的业务水平和管理经验要求较高。
为了能够合理、精准地制定全线网各通信子系统设备的运维策略,需要智能运维系统对采集到的多维度设备状态数据进行深入分析,提供有较强时效性的设备评估结果,为运维策略提供参考意见,辅助各通信子系统的工程师完成设备的年度运维整治计划。
3.3 历史数据分析和运维经验聚合优化
为持续迭代各通信子系统的软硬件设计,调整、优化运维策略,智能运维系统需在长时间积累历史数据后对数据进行分析和挖掘,对各通信子系统进行软硬件的横向、纵向比较,掌握各子系统的运行状态趋势,找出同类子系统之间的差异特征。在此基础上,进一步将设备运行环境、系统运行状态、运维介入、用户使用、运行成本等情况进行关联分析,总结归纳出各子系统运行过程中的不利因素,为弥补现场设备的运行短板提供指导,并指明既有系统的运维重点,为后续系统的设计优化提供依据。
在运维过程中,智能运维系统需将运维工程师对每次设备故障的处理情况及故障设备的状态、性能、告警、故障时长、近期维护情况等数据进行匹配存档,形成一定的数据积累后,对数据进行挖掘和分析,梳理故障现场、状态数据、处理措施等因素之间的关联关系,构建排除设备故障的知识图谱,归纳总结出最佳的故障排除流程。
3.4 设备系统化动态管理
为应对通信系统设备种类、型号繁多,以及各类业务数据变动频繁等系统特性,智能运维系统需对各通信子系统的在用设备、业务配置和备件库存进行系统化管理,提供方便、快捷的在用设备台账查询功能,并与生产管理系统对接,在日常维护、抢修、业务调整等工作开展的过程中同步更新设备台账、业务配置和备件库存数据,实现设施设备的全生命周期管理,为智能运维系统对运维资源的优化配置提供支撑。
3.5 智能运维平台持续优化
通信设备的使用需求随运营模式的变化而变化,设备随通信技术发展而不断升级。由于运维要求和理念会持续调整和创新,智能运维系统较难通过一次性设计即可满足当下和未来的所有需求。随着新技术、新设备的引入,以及对设备运维研究的不断深化,智能运维平台需要具备扩展升级的能力,不断纳入新的数据类型,以模块化嵌入的方式增加新的应用模块,随着上海城市轨道交通通信系统的发展不断进行迭代升级。
4 结语
在当下大数据、人工智能等技术高速发展的背景下,上海城市轨道交通通信系统必须积极跟随技术发展的趋势,结合系统自身的情况和运维现状,深入分析运维管理需求,加速推进状态修模式。通过建设智能运维系统,可提升通信系统的整体运维水平,优化运维资源配置和设计标准,从而更好地适应城市轨道交通超大规模网络化运营的发展需要。