故障关联的多故障概率诊断
2019-12-02涂婷婷李德军
涂婷婷 李德军
【摘 要】通信网通常是由多个业务网络共同构成的,当网络出现故障时,会导致全网告警风暴产生。为在大量告警信息中准确进行故障定位和诊断,论文设计了故障自动诊断系统和相应的维护平台。本系统在通信网管理系统中得到了充分利用,实际应用结果表明,通信网故障诊断系统对光缆阻断等故障的诊断准确率能够达到90%以上。
【Abstract】 The communication network is usually composed of multiple service networks. When the network fails, it will lead to the alarm storm of the whole network. In order to locate and diagnose faults accurately in a large amount of alarm information, this paper designs an automatic fault diagnosis system and corresponding maintenance platform. The system has been fully utilized in the communication network management system. The practical application results show that the diagnostic accuracy of the communication network fault diagnosis system for cable blocking and other faults can reach more than 90%.
【关键词】故障关联;多故障;概率;诊断
【Keywords】fault correlation; multiple-fault; probability; diagnosis
【中图分类号】TP311.5 【文獻标志码】A 【文章编号】1673-1069(2019)10-0167-03
1 引言
通信网络管理的主要任务是对网络进行实时监控,确保网络在日常运行中的稳定、高效和可靠。随着通信技术的快速发展和业务量的增长,网络运行告警规模与频度也相应增长。特别是在大型复杂异构型网络中,判断引发设备告警的原因更加复杂,需要投入大量的人力物力进行监控。如何对海量的告警数据进行分析和判断,找出根源故障成为当前研究的热点。
在当前的研究中,一是通过研究网络告警数据的分布特性,提出使用多等级告警处理模型从而提升故障关联分析效率的方法;
二是提出使用神经网络对告警数据进行分类,实现对网络告警分析的方法。在本研究中提出了采用故障规则推理引擎,分析现有告警数据,挖掘出根源故障从而提高故障诊断率的方法。
2 规则引擎原理
规则引擎最初来源于专家系统。该系统属于人工智能领域,用于人类推理方式的模拟,通过使用探索方法实现推理并证明这种推理的过程。规则引擎是基于规则方式实现推理的一种重要引擎。该引擎的规则依托一阶逻辑呈现的二元结构,其关注准确表达命题和一阶逻辑表达,不能含有模糊定义。规则引擎能够用于处理大量规则的推理场景,并将事实数据与产生式规则匹配,最后通过推理获得结论[1]。
2.1 规则引擎组成
规则引擎是由规则库、推理机以及事实这三大部分共同构成,如图1所示。
规则库能够用于推理规则的储存,规则是由结论、条件构成的语句,当满足该条件时能够激活结论。推理机能够实现引擎匹配,决定符合事实的规则,并设置规则优先级,符合条件的规则会被加入当前议程中。事实是指对象之间的多元关系。
模式匹配器可决定规则匹配的方式,议程用于管理模式匹配器挑选规则的执行次序,执行引擎可用于规则执行。
2.2 推理过程
规则引擎可以通过规则维护人员根历史据经验对告警分析归纳并形成规则或者对告警数据进行挖掘和案例学习后形成规则。规则形成后,推理引擎通过算法匹配决定执行顺序。从一定程度上来看,规则条件、匹配效率直接影响引擎性能。推理引擎需要迅速检测工作区域中的数据对象,从规则中找到符合相应条件的规则进行数据分析。大部分规则引擎产品的算法都来自于Charles Forgy博士于1979年提出Rete算法及其变体。Rete匹配算法是目前效率最高的一个前向链形推理算法,其核心思想是将分离的匹配项根据内容动态构造匹配树,以达到显著降低计算量的效果[2]。
规则引擎的具体推理流程如下:
①将初始数据(事实)输入推理机中;
②利用模式匹配器比较规则库中的数据和规则;
③如果执行规则存在冲突,即同时激活了多个规则,将冲突的规则放入冲突集合;
④解决冲突,将激活的规则按顺序放入议程中;
⑤使用执行引擎执行相应的规则,直到所有规则执行完成。
3 基于规则引擎的故障诊断系统
3.1 系统架构
基于规则引擎故障诊断系统主要由两部分构成:规则管理模块和故障处理模块,如2图所示。
①规则管理模块通过对故障规则库的维护实现对规则的管理工作。对故障规则库的维护分为手工编辑和自动学习两种方式。手动编辑是依靠规则维护人员通过规则维护平台,依据专家经验手动定义、编辑产生故障关联规则。自动学习是依靠对海量告警信息进行数据挖掘和对样本长期案例学习,自动形成故障关联规则的方式。
②故障处理模块主要用于故障的关联诊断。规则处理引擎关联各方资源对告警信息实现分析处理,准确定位网络中存在的故障问题,找到故障原因,发布分析预警信息,降低网络故障对整个网络运行产生的不利影响。其主要部件包括:第一,规则处理引擎。其是系统的核心。通过获取告警、拓扑信息并与故障关联规则实现逻辑判断,最终分析出产生告警的根源故障以及该故障在整个网络中的具体位置,并将其录入信息库中。同时,规则处理引擎能够实现信息压缩、合并处理,过滤一些重复性的告警信息。第二,故障工单处置。对规则引擎分析出的故障结果保存到故障信息库中,由故障专家判断后,交由故障工单处理模块按相应步骤完成故障处理。典型故障工单处理流程如下所示:首先,需要对分析结果进行故障确认。一旦被确认为是故障问题,则会自动生成故障工单,并交由相应的故障维修人员。其次,故障维修人员在签收故障工单之后开展专业性故障处理,完成故障维修后填写故障回执单。最后,由管理员确认后即可完成整个故障处理。
3.2 告警转故障规则
本系统可以通过手动编辑或者自动学习两种方式形成故障关联诊断规则。生产的规则还需要专家经验判断形成最终的诊断规则[3]。
表1为一条自动生成的光缆阻断告警转故障的规则。如果该告警源为非波分系统群路盘发生光信号告警,同时,与其相关的对端非波分群路盘会发生远端接收失效告警,这种情况下可以判断为连接两个机盘的单缆阻断。生成的故障,属于紧急故障,无需考虑故障闪断时间。
4 系统应用
利用规则推理的方法对通信网络设备进行故障相关性研究,设计故障关联推理规则,获得一些有价值的告警规则和定位根源告警信息,结合网络拓扑结构图表明所挖掘的关联规则的合理性,并通过这些告警规则分析通信网络存在的新告警信息,推测告警原因已经成为故障根源分析技术的一种通用性做法。
在本研究中所设计的故障诊断系统目前已经应用于通信网管理系统的故障诊断中。首先通过信息采集设备采集和检测通信网故障告警信息;其次利用本系统对海量故障告警信息关联定位分析;再次根据通信网故障专家的故障确认,形成故障工单;最后由专业的故障维修人員进行故障处置[4]。
根据通信网故障专家和工作人员的实际经验,针对目前通信网的故障问题可以将其分为线路故障、端口故障、光缆阻断,路由器故障等。系统在实际应用场景中,对现场运行结果进行统计,针对19类共2609个网元,一周63224条原始告警信息和一个月143316条告警信息进行了详细地对比分析试验,利用该系统对故障的诊断正确率可达到90%以上。
虽然本研究当前阶段已经初步实现了故障的采集、分类、诊断和预测,但是还存在比较大的提升空间。主要问题包括:①大量的关联规则还需要由人工制定;②对海量数据的关联规则样本学习和数据挖掘的结果还未实现完全的自动化,还需根据专家经验进行人工干预和判断准确性;③对当前火热的数据挖掘技术的研究和探寻还不足;④对故障工单的制定和派发也需要人工的介入,未能实现工单的自动生成,派发过程也未实现智能化。对于这些问题在未来还需要进一步研究和补充,为本故障诊断系统指明未来的研究方向。
5 结语
通信技术不断发展,由于通信网拓扑结构复杂,尤其是在大型复杂异构型网络中,利用网络拓扑信息进行故障分析的传统方法在海量告警信息风暴下,应用难度越来越大。研制和优化故障分析诊断系统是无可辩驳的发展趋势。本系统能够协助专业网管系统提高故障关联诊断能力,帮助工作人员及时发现网络故障问题,有效降低诊断时间,以提升网络运行的可靠性。未来本系统还需要进一步提高故障关联诊断率,加强故障诊断的准确性。
【参考文献】
【1】徐俊洁,陈荣.基于故障关联的多故障概率诊断方法[J].计算机科学,2017(4):124-130.
【2】赵旭东.电力通信网络故障问题分析及对策研究[J].信息通信,2017(1):268-269.
【3】谭武坤,杨秋辉,陈伟.基于贝叶斯网络的通信网络故障定位方法[J].计算机应用,2018,38(S2):222-225+240.
【4】张书林,刘军,闫龙川,等.基于深度学习的电力骨干通信网故障诊断研究[J].软件,2018,39(3):202-206.