APP下载

集中监控下告警压缩研究与应用

2021-06-28王曼

科学与信息化 2021年17期
关键词:离线举例关联

王曼

中移铁通有限公司河北分公司 河北 石家庄 050000

引言

随着通信网络的发展,各种业务和用户量的不断增加,致使集中监控平台告警数量也在持续增长,如何从大量告警中筛选出根源告警,快速、准确的定位故障原因和影响业务情况,这给网管监控人员带来极大挑战。通过告警压缩,不仅可以减少告警数量,同时有利于对网管监控人员快速故障定位,告警压缩是建立在一定的告警关联关系和处理规则基础上的。本文以Cache告警为例,探索告警压缩方法。

1 告警关联关系

根据告警关联关系,一个被分析的告警可能引发其他多种告警,告警相关性分析需要查找根源告警和其关联告警,进行压缩规则输出。告警关联关系主要分为三类:

1.1 主次关联关系

规则描述:如果告警A和告警B为同专业内同批次发生的告警,告警A的产生导致同时产生告警B。那么告警A与告警B为主次关联关系,告警A为主要告警,告警B为次要告警。集中监控人员只需要对主告警原因进行排查。

规则举例:告警A Cache设备吞吐速率高于上线告警(主要告警),告警B Cache设备回源速率高于上线告警(次要告警)。设备吞吐速率高于上线告警和设备回源速率高于上线告警均由单个设备流量超过阈值产生,且超过部分会自动分配到其他设备上。如果同一节点内设备同时出现这两个告警,属于主次关联关系。

1.2 阈值触发

规则描述:如果同一节点或设备在某一时间段反复出现告警A,若告警A满足阈值触发条件,则对告警A进行压缩,衍生出一条新的告警。集中监控人员只需要查看衍生告警即可。

规则举例:告警A Cache设备服务流量达到门限告警(同一节点内设备反复出现),衍生告警:Cache设备服务流量达到门限告警(同节点设备告警超过XX次/时)。Cache设备服务流量达到门限告警,产生原因为单个设备流量超过阈值,超过部分会自动分配到其他设备。如果分组内设备反复出现此告警,属于阈值触发,满足触发条件,输出衍生告警。

1.3 同源关联关系

规则描述:如果告警A和告警B之间因果关系不明显,但根据资源拓扑信息存在某种程度上潜在的因果关系,将此类告警合并衍生出一条新的告警。集中监控人员只需要查看衍生告警即可。

规则举例:告警A 设备离线告警(MLB设备),告警B 设备离线告警(Web Cache设备),告警C 设备离线告警(SLB-Cache设备),衍生告警:设备离线告警(设备=IP X.X.X.X)。同一网元MLB、Web Cache、SLB-Cache,同时报设备离线告警,则该台服务器故障,合并衍生出一条设备离线告警[1]。

2 告警处理规则

告警处理规则是在对告警相关性进行分析的基础上,结合告警关联关系,制定出的一系列压缩规则。规则的制定需要对大量的告警进行分析,并结合丰富的维护经验,在不影响业务的基础上,确保告警的真实有效性。在此过程中,对于阈值的选取一定要合适,过小会削弱告警压缩的效果,致使衍生告警冗余,原始告警消除的效果不够理想;过大会影响告警准确率,忽略本来有效的原始告警。

下图以分析的Cache告警为例,列举部分压缩规则。

表1 阈值触发、同源关联压缩规则举例

2.1 应用案例

从集中监控平台查看Cache设备每月产生上万条告警,其中cache设备服务流量超限告警占比较高。压缩前,此类告警当月出现了6790条,通过对此类告警实施表1中制定的压缩规则,过滤后当月呈现在监控界面上的衍生告警仅100条,极大净化了告警界面,减少了监控人员的清除告警工作量,压缩效率达98%。

图1 告警压缩效果示意

3 结束语

根据告警的关联关系和告警相关性规则对集中监控平台中的告警进行压缩,可以有效减少告警中的冗余信息,有利于告警的快速定位,提高网络故障处理效率。

猜你喜欢

离线举例关联
基于卷积神经网络的离线笔迹鉴别系统
异步电机离线参数辨识方法
新版Windows 10补丁离线安装更简单
数学竞赛中数列不等式的常见解法举例
“一带一路”递进,关联民生更紧
奇趣搭配
抽象函数应用举例
智趣
等差数列与数表
试论棋例裁决难点——无关联①