基于告警加权的智能光网络故障诊断算法*
2018-12-20蓝明超
杨 剑,蓝明超
(国防科技大学 信息通信学院,陕西 西安 710106)
随着智能光网络规模的不断扩大,对故障诊断也提出了更高的要求[1-3].开展故障诊断研究,需要从告警数据分析入手,告警关联技术可以进行告警相关性分析,挖掘根源告警,进而诊断故障[4-6],因此是进行故障诊断的常用方法.目前,通过告警关联进行故障诊断已有多种研究方法,比如文献[7]提出的基于改进BP神经网络的故障诊断法;文献[8]提出的基于层次分析法的网络故障诊断系统架构;文献[9]提出的基于模糊推理的网络故障诊断法等.但是上述方法仍然存在着以下问题:首先,多数告警关联分析算法都是挖掘根源告警,但仅仅分析根源告警无法提取出完整的故障信息,而且挖掘出的根源告警有可能出现多个共存的情况;其次,在进行故障诊断时,主要是通过网络维护人员结合自身经验给出故障原因,这种方法不仅耗费人力,也存在效率及准确度低下的问题;最后,由于智能光网络新增控制平面,导致告警数据库会同时接收来自三个不同平面上的告警,在这种情况下,运用上述方法准确诊断故障是非常困难的.针对当前研究存在的问题,本文提出一种基于告警加权的故障诊断算法,其核心思想是保留告警关联关系的所有置信度,采用大数定理的方法对告警事件进行加权处理,再在此基础上进行多告警组合下的原因分析,最后根据不同概率的原因组合进行故障诊断.采用这种算法可以结合智能光网络的故障特点,提高告警分析的方向性和有效性,为故障诊断提供帮助,更具实用性和优越性.
1 基于大数定理的告警加权处理
1.1 大数定理基本概念
大数定理是概率论中关于大量随机现象的极限定理,通过用“频率”收敛于“概率”来使大量随机事件的数据结果趋于频率稳定性,达到数据处理最优化的目的[10].大数定理的简单定义如下:
假设存在一组相互独立且同分布的随机变量X1,X2,X3,…,Xn,设它们的方差存在,记为σ2,又设它们的公共均值存在,并记为μ,则对于任意给定的ε>0,有如下公式:
1.2 基于大数定理的告警加权基本思路及步骤
在告警关联中,通过告警关联性分析可以得到不同支持度与置信度下的强关联告警关联规则,规定最小支持度和最小置信度有助于挖掘根源告警,要想确定频繁告警事务集中各告警的权重,只需规定最小支持度,筛选出频繁项集,保留频繁项集下各告警关联关系的所有置信度.这样做的目的主要有以下两个方面:一方面,通过规定最小支持度可以将海量告警数据中的频繁项集筛选出来作为确定告警权重的目标事务集;另一方面,保留告警关联关系中所有的置信度可以比较一个告警事务集中所有告警事件间的关联关系,以此确定各个告警事件的权重.
大数定理的告警加权处理的核心思想就是将告警权重频率化,即根据告警关联规则的置信度和告警级别,将告警事务集作为一个集合,每个告警事件作为一个随机事件,通过大规模的模拟计算将每个告警事件在这个集合中出现的频率数值作为权重进行处理.其步骤主要分为三步:① 收集数据.收集的数据包括一个强关联告警,事件的所有属性,分为已知条件告警和对应产生的关联告警,以及产生关联告警的置信度,同时确定告警关联事件中所有告警事件的告警级别,按紧急、主要、次要、提示分别量化处理.② 随机生成事件,每次生成两个以上告警事件,如果两个事件相同的话,判定为一个事件合并去重,根据各个告警关联关系的置信度并结合各告警事件量化的告警级别进行变化,多次计算,统计各告警事件的出现次数.③ 多次重复步骤②,综合统计各个告警事件的出现频率,得到各个告警事件的概率,用概率代替频率,将获得的概率数值作为各个告警事件的权重.
基于大数定理的告警加权处理的思路图如图1所示.通过告警加权不但可以为告警关联事件中的各个告警赋予不同权重,同时也为该关联条件下同一告警级别的告警优先级提供了参考,这样不仅把每个告警事件按权重进行了排序,更为后期在通过告警原因进行故障定位时,给出了每个告警分析的重要程度,有利于更准确地诊断网络故障.
2 基于告警加权的智能光网络故障诊断算法基本思路
基于告警加权的智能光网络故障诊断算法的思路图如图2所示.该算法设计思路可以分为3个步骤:① 收集告警事务集,建立告警加权模块.依据基于大数定理的告警加权处理,首先将收集到的告警事务集中每个告警进行加权排序,分析比较告警事务集中各告警的重要程度.② 获取告警原因及概率.依据每个告警的详细告警信息,分析每个告警可能产生的告警原因,并确定每个告警原因所占的比重.在告警原因比重的确定中,可以通过告警信息说明中的原因比重分配,也可以通过前期网管人员处理单个告警问题时的数据记录进行确定,如果这些信息因为某些因素无法获取,则可以在告警原因的比重分配中采取等概率方法进行分配.③ 产生多告警组合下原因分析结果,进行故障诊断.结合不同权重下的告警事件以及每个告警事件的原因分配概率进行多告警组合下的原因组合,依据古典概型得到不同原因组合下的概率,最后根据不同概率下的原因组合进行贝叶斯推理确定故障原因进而进行故障诊断.
3 算法实现及分析
表1 某告警关联关系表Tab.1 An alarm correlation table
实验采用的仿真数据来源于中部地区五省两市的智能光网络告警数据.通过前期对告警数据进行告警相关性分析,挖掘出大量保留所有置信度下的频繁告警事务集,分别对这些告警事务集进行故障定位分析.以其中一个告警事务集为例,该告警事务集中各告警事件及相互关联关系下的置信度如表1所示.各个告警事件的告警级别及产生每个告警事件的原因如表2所示.
根据上述表格的信息,该告警关联关系共有3种告警事件,6种告警关联规则,9种告警原因.按照算法流程,首先通过告警加权模块确定各告警的权重,输入各告警关联关系及对应的置信度,进行权重计算,得到的该告警事务集下各告警事件的权重结果如表3所示.
表2 告警级别及告警原因表Tab.2 Alarm levels and causes list
通过权重可以看出,在此告警事务集下,TU_AIS告警是比重最大的告警,其次是R_LOS告警,最后是LTI告警.因此,在对这些告警进行分析时,TU_AIS告警是重点分析对象,因而需着重分析引发其告警的原因,并结合其他两个告警的原因进行多告警分析故障诊断.
表3 告警事件权重Tab.3 Alarm event weight
表4 部分原因分析及概率表Tab.4 Partial cause analysis and probability table
确定好告警权重之后,进入多告警组合原因分析模块进行原因分析.通过告警原因表可以看到,该告警事务集中每个告警分别对应4种告警原因,本次实验对告警原因取等概率进行分配,即产生告警的每种原因均为0.25.随后进行多告警组合下原因分析,当这3种告警同时发生时,同时产生这3种告警的部分原因分析及概率如表4所示.
通过对告警加权处理进行告警原因分析得到的结果可以看出,根据不同概率下的原因分析进行故障诊断,不仅将多个告警信息提取出来合并到一条信息,而且克服了对根源告警分析时无法完全获取故障信息的问题,为通过智能光网络告警进行故障定位提供了参考.
综上可知,本文提出的基于告警加权的故障诊断算法不仅对告警事务集中各个告警事件进行了加权处理,解决了告警分析的优先级问题,而且可以根据各个权重下的告警事件的原因得到不同概率的告警原因组合,解决了故障诊断的准确性问题.同时,该算法可以适应智能光网络的故障特点,克服传统方法的缺陷,具有实用性和优越性.