基于潜在告警挖掘的政企专线全方位自动化监控体系探索与实践
2022-09-17晁夫君王文浩马嘉斌代金凤李树贤张涛
[晁夫君 王文浩 马嘉斌 代金凤 李树贤 张涛]
1 引言
目前组网类专线的维护主要根据客户申告,维护人员通过厂家EMS 进行网络告警查看,逐级筛选出影响专线的信息后进行故障处理,且由于历史原因部分远端接入设备因厂家、版本问题处于无监管状态,故障发现与处理滞后,严重影响用户感知。如何挖掘设备隐形告警并测试与使用,构造组网专线全方位监控体系,实现组网专线端到端精准监控、自动派单能力,先于用户发现故障,提升用户感知,是当前运营商亟需解决的重要课题。
2 组网模式及监控现状
当前三大运营商政企专线组网普遍采用SDH/MSTP+局端MSAP+远端PDH/光收发器的方式接入。随着全光网络的演进,部分政企专线已纳入综合网管统一管理。但PDH 因无开销通道,天然不具备监管能力,大量光收起器也因厂家、版本问题处于无监管状态,归纳为以下4 种组网模式。
(1)组网模式1:局端机房通过MSTP 设备下2 M信号落地,通过PDH 光端机光缆到达用户端,再通过一套PDH 光端机为用户提供V35 电接口,拓扑如图1 所示。
图1 组网模式1 拓扑图
(2)组网模式2:局端机房通过MSTP 设备下2M信号落地,通过PDH 光端机光缆到达用户端,再一套PDH 光端机与协议转换器组合,为用户提供RJ45 网线口,拓扑如图2 所示。
图2 组网模式2 拓扑图
(3)组网模式3:局端机房通过MSTP 设备下以太网电信号落地,通过光纤收发器光缆到达用户端,再一套光纤收发器为用户提供RJ45 网线口,拓扑如图3 所示。
图3 组网模式3 拓扑图
(4)组网模式4:局端机房MSTP 设备对接MSAP设备,然后以太网光口落地通过光缆到达用户端,再一套光纤收发器为用户提供RJ45 网线口,拓扑如图4 所示。
图4 组网模式4 拓扑图
3 告警挖掘与分析
为了实现对传输专线设备的全面监控,提高运维效率,同时充分利旧现有设备和网管资源以降低改造成本,优化现网问题,展开了对专线隐形告警测试与应用实践。经测试,大部分的故障均能产生相应的告警信息,如表1 所示。
4 端到端监控应用
根据日常故障处理经验,局端至用户端光缆中断导致业务中断的概率最大,因此解决局端与用户端之间光缆中断的监控问题应该成为今后政企专线监控能力提升的最基本要求(组网模式3 的改造),若通过大规模改造业务组网模式提升监控能力,则需要投资设备进行替换,综合考虑维护成本,充分利用挖掘的潜在告警,实现组网专线端到端监控。
(1)瑞斯康达、中兴皖通和华环的光收发器均可以设置LFP(链路故障转移)模式,通过在局端机房现场修改光纤收发器的拨码开关即可。当启用了LFP 功能后,当光缆发生中断时,局端机房光纤收发器会强制中断输出以太网信号(接口Link Down),使得局端机房MSTP 设备以太网电口上报ETH-LOS 告警,达到业务监控目的。
缺点:一线代维人员需要知晓原理并改变维护习惯,看到局端机房光纤收发器出现ETH-LOS 告警时,应优先测试能否收到光,判断是否是光缆原因。
(2)局端机房一般使用集成接入设备,而用户端单个业务一般使用单体设备。有条件的市公司可以在局端机房集成接入设备采购相应的监控模块,通过网线将监控拉回MSAP 服务器,使得瑞斯康达、中兴皖通、华环厂家的集成接入设备纳入网管监控,监控回传可以使用DCN 或者传输通道的方式实现。
表1 告警信息测试表
(3)组网模式1 目前只有个别境外企业跨域电路使用,可通过UP-E1-AIS 告警及时发现故障,待用户设备更换时可同步改造为组网模式4 的方式接入。
(4)组网模式2 的方式老旧,接入设备多并且无法端到端监控,在有条件的情况下通过设备替换逐步改造成组网模式4,并且用户端光收发器建议直接替换成与MSAP 同厂家设备,即实现业务端到端监控。
5 自动化监控体系构建
客户监控是一个完整的生产体系,涉及资源数据、网管能力和流程闭环等多方面的工作,在实现厂家网管端到端监控的基础上,如何构建完整的自动化监控体系需要统筹考虑解决。
5.1 业务办理及监控一体化流程构建
由于传输综合网管长期以来面向网络进行管理,未纳入业务开通流程对业务进行管理。实现对业务管理需通过传输综合网管将客户、电路进行关联,构建业务开通和监控一体化流程,包括用户申请、业务受理、资源核查、设备采购与安装、管线施工、业务配置与激活、管线配置、线路调测和终端施工、外线施工、本地调测/全程调测等过程,如图5 所示。
图5 业务办理与监控一体化流程图
传输综合网管所涉及的业务管理包括开通、关闭、调整等流程,实现各流程流转过程中网管间(与OSS 系统、与线路系统)的信息交互,实现业务相关工单的管理功能:
(1)传输综合网管从OSS 来的入参(线路:线路配置信息、电路编号。设备:接入机房、设备网元、设备端口)。
(2)传输综合网管根据入参情况,进行业务配置及激活后回设备单。
(3)传输综合网管将从OSS 来的入参,传递给线路系统。最后传输综合网管收到线路系统配置回单后,再传递给OSS。
(4)电路代号由CRM 生成。
如图6 所示,业务办理完成后,CRM 生成电路代号后将客户信息传递到传输综合网管,通过传输综合网管选择设备和端口,实现客户信息与设备端口的关联。再通过传输综合网管实现客户电路端到端串接,将电路运行状态传送给大客户网管,即可实现客户电路端到端监控。
图6 自动化监控体系网络结构图
5.2 传输综合网管功能部署与实现
传输综合网管实现对政企客户电路端到端管理,需要部署通道的端到端串联、客户电路与通道之间的关联、告警与客户通道之间的关联功能,并在此基础上具备资源录入、资源更新等管理能力。
5.2.1 实现通道的端到端串联
通道端到端计算需要EMS 网管拓扑完备、跨系统跨EMS 网管手工拓扑完备,在此基础上传输综合网管具备通道计算能力。需要地市在传输综合网管中进行手工拓扑录入。
5.2.2 实现客户电路与传输通道之间的关联
自动化监控体系实现前的存量电路,通过在末端设备末端端口上进行电路代号标记,传输综合网管开发相应功能,自动提取电路代号,从而建立物理端口与客户业务之间的关联。
通过自动化监控体系开通的增量电路,传输综合网管与省服开建立了专线业务自动开通接口,目前本地网域内及省内跨域电路的自动开通,电路开通后,传输综合网管存储电路信息,待网管路径生成后,每周定时计算路径信息,并根据电路端口信息进行自动的路径关联;对于关联不成功的电路输出报表。对于省际跨域电路,需要在长途资源电路开通后,相关地市在传输综合网管中手工录入电路信息和端口信息,传输综合网管定期实现路径自动关联。
5.2.3 实现告警与电路通道之间的关联
在实现上述通道串联、电路与通道之间关联的基础上,当电路通道中任一设备节点上报告警时,全量告警均推送至大客户网管。
6 全方位自动化监控体系实践
鉴于目前流程体系、数据质量和网管手段的现状,通过先存量后增量、先跨域后本地,基于集团大客户网管和省内网管支撑系统实现重点客户电路主动监控需求进行全方位自动化监控体系实践。通过开启末端设备告警转移功能实现了对末端无法纳管设备的监控,通过自动化监控体系实现了电路的告警监控和路径推送,效果呈现如图7 所示。
图7 自动化监控体系效果呈现图
7 结束语
通过对潜在告警的挖掘实现客户电路的端到端监控,通过传输综合网管功能开发实现监控自动化,结合资源摸查实现存量电路监控,再辅以对组网规范进行约束,构建了一套基于潜在告警挖掘的政企专线全方位自动化监控体系。该体系的建立和完善,需要管理手段、技术手段共同发挥作用,主要涉及到流程闭环、数据准备、功能具备等三部分工作内容,其中流程闭环是核心,数据准备是难点,功能具备是手段。