智能监控应用平台告警关联大数据分析算法探讨
2022-01-17国网北京市顺义供电公司吕昕宇朱达川仇远航贾梦頔
国网北京市顺义供电公司 徐 震 吕昕宇 朱达川 仇远航 贾梦頔
1 当前网络监控工作存在的问题
网络设备出现故障后,关联设备无法利用网络设备发送信息,也不能确定故障实际情况,在短期内会产生较多的告警信息,主要包括主告警和衍生告警,丰富网管设备的告警信息,同时增加了告警处理工作的难度,管理人员很难根据告警信息确定故障根网元[1]。
当前确定故障根网元的过程中主要采用人工分析法和告警关联分析法,此外可划分告警关联分析法为基于规则的关联和基于案例的关联等。其中基于专家经验和规则及案例的关联缺乏适应性和拓展性,不利于精确性的定位问题;根据数据挖掘和人工神经网络的关联方法综合考虑网络结构和网元特性,关联结构缺乏准确性,因此无法满足实际工作需求。引入新业务和新技术的过程中,不利于发挥出传统告警关联的作用。当前网络监控工作运营中,业务增长和关联处理工作缺乏适应性。
不断增多告警量,却没有提高告警监控效率,因为告警量和故障量之间缺乏对应性,从而严重浪费人力资源。发生单个故障将会产生大量的告警信息,监控人员需要逐条处理告警信息,因此延长了工作时间,且很难定位根因网元[2]。因为通信网络具有复杂的结构,同时涉及到巨大的数据量,不断扩大网络规模后将会增加网络异常告警处理难度。持续性的引入新技术和新业务后将会加剧网络结构的复杂性,告警信息将会呈现出爆炸式增长,故障定位难度也会因此增加,在未来发展过程中很难提高运维效率。
2 智能监控应用平台告警关联大数据分析算法
当前主要是根据关联规则和传统维护经验实现告警关联和故障定位,但已缺乏挖掘价值,而利用基于大数据关联算法缺乏精确性,无法在实际生产中利用。通过分析多次故障,可根据告警关联模式和传统工作经验提出基于距离的告警关联大数据分析算法。
因为网络事件之间缺乏关联性,因此大数据分析的核心是利用相关关系分析法,量化不同数据的数理关系,可根据网络时间段距离分析网络时间的相关性,通常距离较小说明相关性较大,因此可根据距离度量两条告警信息的相关性[3]。网络事件间的发生事件差和实践发生位置的拓扑关系影响到网络实践距离,针对告警信息,告警发生时间差和发生位置间拓扑距离关系关系到告警距离。因此通过自定义告警距离和自学习最优距离阈值,利用机器学习算法聚类和分类海量的告警信息,可自动关联同一类别的告警。
图1 基于距离的告警关联算法
2.1 计算告警相异度
根据告警时间和现网拓扑定义两条告警信息的距离:d(a1,a2)=W1×d(t1,t2)+W1×d(ne1,ne2),告警距离数值d(a1,a2)处于0~1范围内,获得数值较小说明两条告警直接具有很强的关联性。如果距离数值在0.4以内说明两条告警属于同一种告警;时间距离d(t1,t2):结合两条告警的时间差判断是否处于时间窗t范围内,如差值小于时间窗说明两条告警具有很强的关联度,反之说明二者缺乏关联性。
网元距离d(ne1,ne2):根据告警网元,提取告警信息特征和资源数据,因此计算网元距离,提取的信息包括网元名称和网元类型等,网元距离计算框架主要主要包括两个判断逻辑独立的部分,可结合实际情况合理调整[4]。其中第一部分为精细化计算网元距离,主要是判断网元是否相等、是否存在链路关系,需根据链路表完成判断工作;第二部分是大粒度计算网元距离。如难以获得精确性的计算结果,需根据专业业务相关性逻辑完成判断。可拓展并定制每部分的业务逻辑。实现告警关联,需根据网元类型接口字典表判断上位树立的专业。
2.2 确定告警类别
根据告警相异度确定告警距离,利用机器学习算法聚类和分类海量的告警信息。如可利用DBSCAN聚类算法自动化定量定簇告警特征。利用K-近邻分类算法确定输入样本最接近的K个邻居,因此完成告警分类,每个告警具有唯一类编号簇。样本数量直接关系到算法的时间复杂度,需要比较样本个体[5]。
3 电信网络智能监控应用平台架构
利用智能监控应用平台主要包括采集和计算及应用三方面:采集层可互通全网故障管理系统和EOMS工单系统告警以及工单数据;计算层可聚类和分析海量数据,同时可实时算法挖掘;应用层主要包括PC端和手机端两种方式。平台上层主要包括多维告警分析和告警实时关联以及故障定位。
多维告警分析。接入全网告警,可在多个维度提取告警特征,因此确定特征向量。在多个方面训练特征向量可建立预测模型,因此确定问题网元,并在日常监控生产流程中纳入问题网元,闭环解决问题[6];告警实时关联和规则挖掘。根据告警时间和线网拓扑等维度,建立告警距离核心算法模型,实时分析每一条告警,并确定唯一的标签,确定相近时间内网元告警的关联性。根据平台输出的实时关联规则可精确性的判断故障,持续性的优化告警关联规则,可提高告警压缩比例,故障命中率也会因此提高;快速定位故障。问题网元具有唯一的故障根网元,根据告警关联输出信息可块定位故障根网元。平台利用电信网络智能监控功能,有利于提高一线网络运维水平,可专项分析告警和工单等运维数据,一体化的发现、定位、处理问题。打通网络监控生产流程的各个环节。
3 智能监控应用平台告警关联大数据分析算法部署和实施效果
聚合原有关联规则:以下是2020年12月12日某运营商4个试点省运行结果,利用基于距离的告警关联算法,智能监控应用平台可聚合原有规则:专业内无线(A省)、核心(B省)、承载(C省)、传输(D省)及跨专业核心-承载(B省)的传统告警关联规则数量(个)、新规则刷领(个)、规则准确性验证分别为45/4/>90%,65/3/>90%,17/2/>90%,35/2/>90%,15/4/70%左右(缺乏详细的资源数据)。
提高告警压缩比:根据试点省运行结果,通过基于距离的告警关联算法,可提高智能监控应用平台的告警压缩比。通过不同专业压缩比提升数据可看出,其中具有明显提升效果的为核心专业和承载专业,无线专业因为原来部署了人工挖掘关联规则,因此压缩比提升效果并不明显:专业内无线(A省)、核心(B省)、承载(C省)、传输(D省)及跨专业核心-承载(B省)的原有告警压缩比、目前告警压缩比分别为3:1/5:1,1.5:1/8:1,1.3:1/10:1,1.1:1/3:1,1.6:1/4:1。
测试故障案例:2020年5月自动重启某个MSS,其中55个网元发生较多的告警,并可实现自动关联,利用原有人工挖掘方式的告警关联规则很难实现告警关联,利用基于距离的告警关联算法可获得显著的告警压缩效果。
引入资源拓扑信息:通过建模和量化可自动关联相关告警,故障命中率因此提高。如没有引入核心网和承载网的直连关系将会引发网元故障。根据传统告警关联算法很难关联海量的告警,利用新算法引入pool信息,确定核心网和承载网的直连关系,可压缩多条告警为一张工单使工单故障命中率因此提高[7]。
综上,在今后发展过程中,需不断完善智能监控应用平台的功能,满足一线生产需求。可接入实时告警,实时扫描和智能分析全专业告警。引入更加精确的资源信息,并联基本信息和工程信息等维度,可更加精确的定位故障。此外可引入人工智能技术,优分析告警关联性,在全网应用告警关联大数据分析算法,提升网络监控生产的智能化和自动化。