轨道交通集中告警系统告警相关性研究
2021-09-10吴迅齐艳
吴迅 齐艳
摘 要:随着各地地铁线路的增加,各种设备故障告警量也越来越多,各种等级的告警量也较多,有时会有大量的告警是由某个告警衍生出来的,运营人员只能靠专业知识和经验去识别哪些告警是根因告警,也没有预测重大告警的能力。
关键词:轨道交通;告警;相关性
0 引言
集中告警系统负责对通信各子系统告警数据的采集和展示,因此,对集中告警系统的告警数据进行相关性分析显得尤为重要。传统的相关性分析方法由于过多地依赖专家知识而难以适应复杂、多变的情况,采用数据挖掘的算法则可以弥补这方面的不足。
1 算法确定
目前关联规则挖掘的研究主要集中在设计发现频繁模式的算法上,主要算法分两类:Apriori算法及其改进和频繁模式增长算法(FP-Growth: Frequent Pattern Growth)及其改进算法。从算法效率上来看,FP-Growth算法要高于Apriori,故在集中告警系统告警相关性分析中使用FP-Growth算法。
2 告警分析流程
告警分析是一個处理过程,通常分为告警的预处理阶段,告警挖掘阶段(即告警关联规则的挖掘)、告警的后处理阶段(即对结果解释、评估以及进一步地调整合并等)。
2.1 数据预处理阶段
这个阶段分为三个子步骤:数据选取、数据预处理、数据变换。
数据选取的目的是确定发现任务的操作对象,即目标数据。在告警相关性分析中主要是从告警库中将不同网元发送的告警进行统一格式处理,根据用户需要(给定的时间段)从中选出需要分析的告警数据。
2.2 数据预处理
将目标数据处理成便于挖掘的形式,通常包括去噪声、缺值数据处理、消除重复记录、完成数据类型转换等操作。这一步对于告警关联性分析至关重要。
(1)去噪声。删除告警中由于各种原因而无法识别的数据。
(2)消除重复记录。在告警记录中通常有很多重复记录,如告警网元,告警类型和告警发生时间相同的告警记录应该在告警相关性分析中将其删除。
另外,告警持续时间小于阈值(如2秒、5秒或10秒)的告警记录删除。
2.3 告警的后处理阶段
主要对结果进行解释、评估等。
3 集中告警-FP-Growth算法应用分析
挖掘告警的序列模式就是发现整个告警数据库中告警序列之间的关联关系,如果告警A、B发生后,告警C经常在很短的时间内发生,则表明告警A、B和告警C之间存在着一定的关联关系。如下图:
这种告警间的关联关系至少要满足“经常在一起发生”这个条件。所谓“经常”是指某种序列模式不是偶然出现的,要具有一定的规律性,需要达到一定的频度,才能够表示他们之间可能有关联关系;所谓“在一起”是指这些有关联的告警时间跨度不能太大,否则挖掘出来的规则也毫无意义。例如在图1中若告警A、B发生一年之后告警C发生,这样的关系是没有价值的。因此具有关联关系的告警应在一定的时间间隔内发生。
在序列模式挖掘中,一般首先通过时间窗对告警序列进行划分,认为在同一个时间窗内的告警可能存在关联关系,不在同一个时间窗内的告警没有关系。通常情况下时间窗以固定的滑动步长从告警序列的起点向终点滑动,如图2所示:
然后,统计告警序列模式在每个时间窗口中的发生情况,来确定其是否为频繁项集。图2 中为一告警序列S,其中{A-F}为告警类型,采用长度为win的滑动时间窗从S的初始时间开始,以单位步长向后滑动,直到S的末尾,由此形成告警窗口(告警子序列)集合W(S,win)。
告警数据是一个时间序列,在遍历告警数据库时,需要采用滑动窗口,这个窗口从第一条告警记录开始,滑向最后一条告警记录,因此还需要定义窗口的滑动速度,即滑动步长。窗口滑动步长越大,算法的执行效率越高,但规则的准确性会下降;相反步长越小,关联规则准确性提高的同时会降低算法的执行效率,占用系统资源,一般情况下,为了保证相邻窗口间有足够的重叠,滑动步长通常小于窗口宽度大小的一半。
告警序列关系分为以下三种情况:
串行关系:告警序列包含A、B,且告警A会导致告警B出现,则A与B为串行关系。
并行关系:告警序列包含A、B,告警A和B通常一起发生,但它们出现的顺序不定,则A和B为并行关系。
混合关系:告警序列包含A、B、和C,且通常告警A和B共同发生后会引起告警C发生,那么A、B和C为混合关系。
结合集中告警的告警数据,取告警时间窗口为10分钟,滑动步长为4分钟。
4 数据获取
将某地铁线路各个子系统的告警按车站分开导入不同的excel表格,告警记录时间从2017年11月30日到2018年4月25日。
只对告警量较多的子系统进行告警相关性分析,经过筛选为传输和电源。
对20个车站的各子系统告警量最多的一个车站进行统计,告警情况如下:
(1)传输系统。共839条告警,共31个告警码,虽也有不少复重告警,但有些是分散的,可以尝试做相关性分析。
(2)电源系统。共2651条告警,共24个告警码,重复告警较分散,可以尝试做相关性分析。
5 相关性分析
选取传输系统数据使用FP-GROWTH算法进行分析:
传输系统共839条告警,以10分钟为告警时间窗口,4分钟为滑动步长来统计告警序列,将数据通过该算法进行计算,取支持度数为40,可计算出满足支持度数的频繁项集:
1 告警A为5441,告警B为4430时,置信度为0.818181818
2 告警A为4430,告警B为5441时,置信度为0.818181818
3 告警A为4506,告警B为5548时,置信度为0.818181818
5441告警内容为:以太网物理接口 Ethernet端口半双工连接。
4330告警内容为:以太网物理接口 Ethernet端口未连接。
4506告警内容为:VCG(RPR Span)端口保护倒换事件(PSE) 。
5548告警内容为:RPR 端口拓扑不一致。
咨询了传输专业的工程师,得知:
在发生告警“以太网物理接口 Ethernet端口未连接”的情况下,一定会发生“以太网物理接口 Ethernet端口半双工连接”;
在发生告警“VCG(RPR Span)端口保护倒换事件(PSE) ”,一定会发生“RPR 端口拓扑不一致”;
即规则2和规则3成立。
规则1和规则2包括的告警码是相同的,互为因果,但反而置信度较低的一方是正确的,可见并不是置信度高的就一定成立,当然这也可能是由于数据预处理不当造成的。
参考文献:
[1]张彬,郭军.基于数据挖掘的智能化移动通信网络故障管理关键技术研究[J].计算机科学,2006(10):36-40.
[2]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004(2):17-18.