基于动态时间窗口及告警等级权重的告警相关性研究
2021-03-24廖倩倩
廖倩倩
(中国移动通信集团广西有限公司桂林分公司,广西桂林 541004)
0 引言
随着移动通信技术及业务的快速发展,移动通信网络已经成为人们日常生活、工作中不可缺少的组成部分,保障移动通信网络的良好运行已成为电信运营商的首要工作之一。
目前电信运营商普遍采用集中监控模式,各类设备的故障信息都通过告警监控平台集中呈现。平台每天产生海量告警,而现阶段,对这些告警的处理仍然依赖维护人员自身的经验。如何从海量的告警中找出告警之间的关联,过滤掉衍生冗余告警,减少呈现给维护人员的告警数量,找出根源故障,已经成为当前网络运维越来越关注的问题。
1 告警关联研究现状
目前,广大的科研人员及通信网络工作者已对告警关联技术进行了大量的研究。按照所采用技术手段的不同,现有的告警关联技术可以分为基于相似性的方法、基于场景的方法、基于因果的方法和基于数据挖掘的方法[1]。这其中,数据挖掘方法因其挖掘的高效性成为当前研究的热点。
关联规则的数据挖掘研究主要集中在频繁模式的算法上,其中Apriori算法和FP-growth算法影响力较大。相较而言,Apriori算法需多次遍历数据库,产生大量的候选集,效率较低;而FP-growth算法的构建只需要扫描两遍数据库,不需要生成候选集,因此当前得到较广泛的采用。
也有学者提出基于动态时间弯曲曲线(DTW)的告警相关性分析[2],该方法充分利用了告警的开始时间、结束时间信息,解决了告警延迟时间变化的问题,但该算法需要计算每一个告警与其他告警的D T W 距离,若用在告警设备多、设备厂家多、告警类型多的现网中耗时较大。
2 基于动态时间窗口及告警级别加权的告警相关性研究
综合考虑各类方法的优缺点,本文提出一种基于动态时间窗口及告警等级加权,综合考虑告警开始时间及结束时间,利用FP-growth算法实现告警之间关联规则的挖掘。
本文告警相关性挖掘流程如图1 所示。
图1 告警相关性规则挖掘流程Fig.1 Alarm correlation rule mining process
2.1 告警数据精炼
现网中一条告警包含多个字段,而告警相关性挖掘感兴趣的字段仅为告警设备、告警事件标准名、告警等级、告警开始时间、告警结束时间。因此,需要对原始的告警数据进行精简,保留感兴趣的字段即可。此外,每条告警需要有唯一的标识,本文采用“设备+告警事件标准名”做为告警的ID。同时考虑告警ID过长,为了提高效率,对告警进行编码,如表1所示。
表1 某段时间精炼后的告警数据Tab.1 Alarm data after refining in a certain period of time
图2 动态时间窗口Fig.2 Dynamic time window
2.2 告警事务提取
利用FP-growth算法挖掘告警相关性,需要将告警数据转换为告警事务。告警事务是指同时发生的若干个告警事件的集合[3]。我们认为同一个事务内的告警是在同一时间发生的,存在着相互关联的可能性。
本文分别按历史告警的开始时间、结束时间,采用动态时间窗口对历史告警进行告警事务划分,并根据告警等级进行事务权重处理。
2.2.1 动态时间窗口选取
传统的生成告警事务的方法,通常采用固定窗口宽度、固定步长的滑动窗口,同一窗口的内的告警被认为是同一时间发生的,这种方法比较直观,容易实现。但告警的发生在时间上并不是均匀分布,可能在某一段时间内告警量非常大,甚至由一个故障引起告警风暴,而在某些时段网络又非常稳定,没有告警产生。如果采用固定宽度、固定步长的时间滑动窗口,就会造成在故障频发时无法完整充分的捕获告警事务,而在网络稳定的时候效率底下的问题。同时窗口的宽度以及滑动步长,都会影响到告警相关性提取的有效性,通常要反复尝试多个值才能找出最优方案,效率较低。
为了有效的提取告警事务,本文提出了采用动态时间窗口提取告警事务的方法。通过对现网历史告警数据进行统计,44%的告警时长在10分钟以内。该告警持续时间内出现的其他故障告警,都可能与该告警有关联。
因此窗口选取规则为:若本次告警发生时间,与前一个告警发生时间间隔小于10 分钟,则认为该告警与前一告警处于同一窗口,反之则重新建立一个新窗口。为了剔除频繁闪断告警的影响,若窗口中一分钟内出现过相同告警,则忽略该次告警,反之则重新建立一个新窗口。以表1 的告警数据为列,动态时间窗口从中提取出3 组告警事务,如图2所示。
表2 告警等级权重处理Tab.2 Alarm level weight processing
2.2.2 根据告警等级进行事务权重处理
移动通信的告警按其影响程度共分为4级,根据现网告警数据统计,各级告警数量占比并不均匀,维护人员最为关注、对网络稳定影响最大的一级告警仅占1%,二级告警占比低于20%,三级告警占比77%以上,四级告警占比低于2%。为了使需要重点关注的一、二告警不被淹没在众多告警中,本文提出一种根据告警等级进行事务权重处理的方法。即,当告警事务中包含一级告警,则该告警事务在告警事务库中记录3 次;若包含二级告警,则该告警事务记录2次;否则该告警事务只记录1次。如图2提取出的告警事务,因A31是二级告警,因此该告警所在的事务在告警事务库中记录两次,如表2所示。
2.2.3 提取告警结束时间的关联性
大部分学者研究告警相关性时,仅考虑告警开始时间,未考虑告警结束时间,但告警结束时间同样包含大量的关联信息,如表3 所示。因此本文对告警结束时间也按照动态时间窗口(2.2.1)及告警等级权重(2.2.2)进行告警事务划分,并作为分析数据与告警开始时间事务集一起进行FP-growth频繁项计算。
2.3 频繁项挖掘
采用FP-growth算法对提取出来的告警事务集挖掘各次频繁项集。第1次扫描事务数据库获得频繁1项集,并排序作为项头表。第2次扫描事务数据库,建立FP-Tree树,得出频繁项集。
2.4 告警规则生成
告警规则的制定普遍使用的两个指标:Support(支持度)、Confidence(置信度)。支持度是指告警事件出现的频度。置信度是指在产生告警A 的前提下,产生告警B 的概率。
一个有效的告警关联规则,必须同时具有较高的置信度与支持度。但即使满足最小支持度、最小置信度,仍然不一定是维护人员感兴趣的有效规则,需经过专家筛选。
根据告警管理要求与告警自身含义与时间窗的关系分为:主次告警关联模型与衍生告警关联模型[4]。本文从历史告警中提取告警规则主要针对主次告警规则模型。
主次告警又可以分为串行模式和并发模式。
表3 告警开始时间、结束时间提取事务对比Tab.3 Comparison of alarm start time and end time extraction transactions
串行模式:当告警A发生后,必然有告警B发生,告警A是告警B发生的根源,当告警A恢复后,告警B也自动恢复[5]。本文用符号“->”表示,将多条串行模式告警简化归并为一条根源告警, 以减少呈现给维护人员的告警数量,同时帮助维护人员快速定位故障根源。
并发模式:当告警A发生时,必然有告警B发生,但出现的先后顺序不一定。本文用符号“&”表示,多条并发模式告警集可以合并为一个合告警,以减少告警数量。
告警A、告警B可以是某一个告警,也可以是某几个告警组成的告警集。
3 实验分析
本文采用广西移动公司某地市局站连续2个月的动力系统告警作为样本进行分析,分别采用4 种算法进行测试,如表4所示,频繁度设置为3%,置信度80%。
3.1 算法执行时间对比
从实验数据得出,如图3所示,告警相关性算法的执行85%以上的时间耗费在告警事务的提取上,本文提出的动态时间窗口提取事务的算法耗时明显低于传统的固定滑动窗口算法。即使在算法中加入权重处理、及对告警结束时间提取事务,所用时间仍然低于传统的固定滑动窗口算法。
3.2 有效规则对比
对比算法1和算法2,传统的固定滑动窗口提取出241条事务,本文提出的动态时间窗口提取出115条事务,如图4 所示。较传统的固定滑动窗口,本文提出的动态时间窗口将事务数精简掉5 2.3%,提取出的规则数不但没减少,反而提升了33.3%。
表4 测算算法Tab.4 Calculation algorithm
图4 事务数量Fig.4 Number of transactions
表5 有效规则Tab.5 Effective rules
对比算法2和算法3,若仅仅采用动态时间窗口,则对发生频率小,但意义重大的一、二级告警不敏感,导致很多重要规则丢失。增加了告警等级权重算法后,提取出的规则数较单纯采用动态时间窗提升了50.0%。
对比算法3和算法4,增加告警结束时间的挖掘后,规则的准确性进一步提升。如表5所示,检测出序号2和序号5的规则合并为一条,同时剔除了序号9规则。
4 结语
为了有效的找出告警之间的关联性,本文提出了一种基于动态时间窗口及告警等级权重,综合考虑告警开始时间及结束时间,利用FP-growth算法实现告警之间关联规则挖掘的算法。通过实验证明,与传统的滑动窗口提取事务相比,该算法的执行耗时较少,提取出的规则较为全面和准确,对于快速定位根源故障,减少告警数量具有重大意义。未来的研究方向和工作包括但不限于: 采用Spark技术进行规则挖掘;针对网络设备的增减、网络拓扑的调整进行告警关联规则增量挖掘。