APP下载

智能告警在监控管理中的应用

2022-02-06广东飞达交通工程有限公司傅宏伟

电力设备管理 2022年23期
关键词:项集置信度排序

广东飞达交通工程有限公司 傅宏伟

引言

高速公路作为我国交通运输基础设施建设的重要构成,已在由信息化转向数字化、智能化的快速发展阶段。高速智能化发展方向主要集中在对管理系统的智能升级上,由监控系统、通信系统、收费系统三大系统组成的高速智能化交通系统,涵盖了庞杂的数据信息,如何做好这些数据的统一管理、调用、分析、故障发现、告警准确及时等运维工作,是推动高速数字化、智能化的关键所在。数据统一化管理后,由于各系统的告警信息的汇聚也带来另外一个问题:各个业务系统及IT基础设施产生大量的重复告警、错误告警增加了监控人员识别及确认时间,尤其在网络异常及设备/系统故障情况下,大量的重复、无效告警形成告警风暴,干扰了监控人员正常工作,严重降低工作效率。

1 系统架构

告警总体处理系统架构如图1。数据层:集中接入高速公路上主线、隧道、桥梁、服务区机电系统的所有告警数据,包括机电设备、IT基础设施、AIOT相关设备告警数据;处理层:系统基于配置管理库及人工策略库,关联规则库经过告警收敛处理输出有效告警;应用层:告警经过收敛分析处理以及分类、分优先级别进行系统展示和提醒。

图1 总体处理系统架构图

告警收敛流程:告警收敛是指部分告警产生时往往会伴随着其它告警。此时可只对根本原因产生告警,其它告警收敛为子告警一并发送通知,以此降低告警总体数量,降低监控人员的重复确认的工作频率。其主要包括正确告警重复、错误告警多次的数量压缩,告警关联关系合并。

告警数量压缩是指同一重复告警在指定的时间内压缩为一条告警,重复告警发生时只累计告警的数量,不增加告警推送,当一条告警确认为误报时,后续产生的同类型告警自动确认为误报,直到设备故障恢复为止;告警关联关系合并是指相关联的设备针对同一故障发出多个告警,系统根据设备的关联关系依赖性、从属关系及关联规则对告警进行甄别和合并[1]。

告警收敛流程分为五个步骤:告警收敛规则发现、实时告警输入、基于人工策略过滤、基于收敛关联规则进行处理和告警输出及智能提醒。

1.1 告警收敛规则生成

本文选用一种基于机器学习领域经典的FPgrowth(Frequent Pattern Growth)模型算法的告警收敛方案,其作用是找到项集数据中的频繁项并生成关联规则,较Apriori算法具有更高的效率。项集表示一组项目(告警)的集合,对于告警关联分析,一起告警事件可看作为一个项集,支持度为项集的频率。置信度反映了关联规则的可靠程度,其值为项集M支持度与N支持度比值。提升度可表示关联规则的相关性程度,提升度高于1时表示正相关,低于1时表示负相关。提升度的数值越大正相关程度越高,越小负相关程度越高。当提升度等于1时表示不相关。

支持度:(X→Y)=P(X,Y)/P(I)=P(X∪Y)/P(I)=num(XUY)/num(I);置信度:(X→Y)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X);提升度:(X→Y)=P(Y|X)/P(Y)。

FP-growth告警收敛规则发现的流程如下:定义项目最小支持度,轮询所有原始数据,计算所有告警项的支持度,从原始告警数据集中剔除小于最小支持度告警数据项目,按照最小支持度大小对告警数据重新排序;针对上一步告警数据,轮询原始数据,创建FP树并逐个添加项集;轮询FP树获取关联规则,并计算置信度。为更直观地展示这一过程,从如下示例数据入手。

1.1.1 计算项的支持度

原始数据中各项集编号/项集分别为:1/ABCEFO,2/ACG,3/EI,4/ACDEG,5/ACEGL,6/EJ,7/ABECEFP,8/ACD,9/ACEGM,10/ACEGN。统计原始数据中各项的支持度,为更加直观的展示实际效果,将项一共出现在了几个项集中作为该项的支持度,比如对于项“A”,在项集1、2、4、5、7、8、9、10中都出现过,共出现在了8个项集中,则A的支持度为8,其余各项的支持度为:A、C、E为8,G为5,B、D、F为2,I、J、L、M、N、P、O为1。

1.1.2 确定支持度阈值

同样的,FP-Growth算法也需要确定支持度阈值,假定支持度阈值设定为2;筛选频繁项。不满足支持度阈值的项将被删去,则保留的项和支持度如下:A、C、E为8,G为5,B、D、F为2;根据项的支持度对项集排序。为了构建树结构需要将剩余项按照支持度进行排序,亦即按照A、C、E、G、B、D、F这一顺序排序项集。(同支持度的项可以按照项的出现顺序进行排序,不同支持度的项按照支持度排序,如G的支持度为5、小于E的支持度,则排在E后)。

1.1.3 创建树并逐个添加项集

获得经过排序后的频繁项集后,将建立项头表和FP树,项头表可以被认为是频繁项及节点链表的组合,FP树可被认为是将项集内的节点一一映射到树中,树上的每个节点为一个项,这些节点都可通过项头表内的节点链表访问到,也可通过树的根节点访问到。如图2所示,扫描项集编号为1的项集[A、C、E、B、F]后,可建立项头标以及树,项头表第一列为项的编号,第二列为该项的支持度,第三列为节点链表的起始点。重复上述步骤,直到扫描完成所有项集,可得图3结果,其中部分项无法仅用一个节点表示,如G在项集2和5中,项集分别为[A、C、G]和[A、C、E、G、D],因此需采用链表链接两个节点。

表1 根据项的支持度对项集排序

图2 FP树型图

图3 FP树型图

1.1.4 扫描FP树并获得关联规则

建立FP树后挖掘关联规则,需要引入FPGrowth算法特有的条件模式基的概念,条件模式基是指某个项的前缀路径的集合,即从根节点到该项所有节点走过的路径组成的新的树。如,假定希望挖掘与D有关的规则,则D的条件模式基为图4标红部分。获得D的条件模式基后,可看出共有两个主要分支,即A-C-E-G-D和A-C-D,由于末端节点D的出现次数都为1,因此以上两个分支的出现次数也为1,这一点通过原始数据也可看出。接着能判断其中的公共分支为A-C-D,在两个分支中各出现1次,一共出现了2次,由于支持度阈值为2,因此[A、C、D]为频繁项集之一,其子集[A,C],[A,D],[C,D]也就都是频繁项集。至此演示了如何挖掘频繁项集。

图4 FP树型图

1.1.5 生成关联规则并计算置信度

在特定的场景下,如果仅仅是频繁项集并不能满足使用者的需求,还需要将他们转化为关联规则,并针对这些关联规则的可信程度进行评估。关联规则的格式为:项X=>项Y,这意味着获得了一条规则,规则的含义为在项X存在的情况下、有很大概率项Y也会存在。而置信度则是对这一规则的可信程度的考量,置信度100%意味着项X存在的情况下项Y永远存在,而50%则意味着项X存在时只有50%的概率同时出现项Y。这一指标可以通过计算项X和项Y的出现次数与项X单独出现次数的比值获得。

1.2 基于人工策略过滤

策略规则与监控业务紧密相关,允许监控人员根据业务需求进行配置和管理,告警合并可按照配置单元、主机、监控策略(时间段)、业务规则等合并;按照主机合并策略,是指当多个告警来自一台主机,系统将这些告警压缩为一条告警,将多余的告警累计为该告警的关联数量,从而达到告警压缩收敛的效果。

按照配置单元合并是指当多个告警来自于配置单元相关联的配置项时,系统根据配置项相的依赖关系和主从关系,将强依赖和从属关系配置项产生的告警归并到一起发送;按监控策略合并是指若一个监控策略下多台机器或实例产生告警,则该策略下多余告警合并到一起;按业务规则合并是指按照预先指定的业务规则进行告警合并[2]。

1.3 告警输出及智能提醒

合并后的告警根据系统的严重等级及通知方式(告警警报、语音播报、系统弹窗)智能的分发给监控人员进行确认和处理。

2 试点效果

告警收敛算法2022年2月在紫惠高速隧道通行安全管控系统中应用,经半年的持续优化升级和运行,系统可对监测到的告警数据进行统计分析。本文对系统在2022年2月1日~2022年7月30日的告警数据进行统计,从图5可知系统告警收敛率平均达到89%。

图5 统计分析图

目前该告警收敛算法已应用于隧道安全管控系统智能告警子模块并正式在紫惠高速上线使用,系统运行半年运行效果良好,系统能有效归并重复告警和甄别错误告警,提升告警的精准性和及时性,从而减少监控人员的告警信息人工判别和确认的大量重复劳动。

在系统实际的运行中发现,告警的收敛效率跟收敛规则有关,同时告警系统本身的告警质量也对告警收敛效率影响较大。在下一步工作中将采用深度学习算法优化告警事件关联模型,提升重复告警的收敛率,同时对各个业务系统的告警采集方法及告警判断的标准进行改进及优化,从而提高告警收敛率。

猜你喜欢

项集置信度排序
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
作者简介
恐怖排序
节日排序
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
一种自底向上的最大频繁项集挖掘方法