APP下载

基于策略的分布式网络故障管理设计

2011-06-14李景田霍永华韩卫占

无线电工程 2011年2期
关键词:网络故障网络管理误码率

李景田,霍永华,韩卫占

(中国电子科技集团公司第五十四研究所,河北石家庄050081)

0 引言

网络实体的分布性和异构性以及被管设备的多样性和复杂性,使得网络管理变得越来越重要,故障管理是最重要的网络管理。在现今的网络环境中,管理系统必须及时发现网络运行时所出现的故障,并要有较强的智能性;能够报告故障事件,自主地进行事件关联性分析、故障诊断、故障定位、故障报告和故障修复等一系列操作。所有这些问题的解决都必须依靠一套有效的网络故障管理系统。

1 问题提出

面对日益复杂的异构分布网络,传统的集中式SNMP故障管理越来越无能为力,暴露出许多缺点:由于设备类型多样,没有统一的技术标准,管理难度大,管理工作复杂;管理系统的可扩展性差,网络管理工作都是通过管理端进行的,当网络规模扩大时,收集的告警信息量过大,有可能成为系统的“瓶颈”;SNMP自身的缺陷:采用轮询机制,管理端和客户端之间大量的信息交换造成了网络带宽的极大浪费;安全性较差。

网络管理功能的日益复杂与传统网管之间的矛盾迫切要求采用一种灵活高效的管理方法。

2 策略网管

基于策略的网络故障管理是指网络管理是基于策略的实施来实现的,满足策略中的条件时执行策略中定义的行为。首先,基于策略的网络管理基于规则,因此对于策略的建立,修改和删除十分简单;其次,由于一条策略可以运用于一类相同类型的执行对象,所以大量的网络配置任务可以得到缩减;最后,许多异类网络可以通过统一的策略集进行管理。

基于策略网络管理由策略管理工具、策略数据库、策略服务器(PDP)和策略客户端(PEP)构成,如图1所示。

图1 基于策略的网管系统

2.1 策略管理工具

策略管理工具为网络管理人员提供了对策略进行制定、编辑、存贮、删除和编辑的易于使用的图形用户界面主要有如下功能:通过与策略数据库的交互,完成策略规则的存储、删除和修改功能;完成策略规则的语法和语义检查功能,进行策略冲突检测;为管理员提供一个易于使用的策略编辑和修改图形用户界面。

2.2 策略数据库

策略数据库用来存储故障管理策略:用于故障管理,包括故障检测、故障诊断、故障修复和故障日志记录信息的规则。

由于网络的异构分布特点,采用面向对象的方式构造策略规则库,利用类的封闭性和继承性,提高策略的可重用性和策略数据库的可维护性。

2.3 策略决策点

策略决策点也称为策略服务器,是整个故障管理系统的决策中心,负责接受策略执行点的策略服务请求,并决定网络中所执行的策略。策略决策点根据来自PEP的策略请求,从策略数据库中取出策略并解析策略,经过推理和一致性验证后决定对策略请求的处理,同时将决策结果通知PEP;根据需要与其他管理域的PDP进行策略协商;根据需要主动进行策略决策,如向PEP发出配置信息或通知删除失效信息;将决策结果进行封装,交给MA管理和控制模块处理。

2.4 策略执行点

PEP也叫策略客户端,可以简单理解为网络中具体执行管理策略的网元,如网络中的路由器和交换机等,负责执行由策略决策点分配的策略。可以根据需要携带策略请求的MA,将策略服务请求发送给PDP,同时还向策略决策点发送信息,向策略决策点汇报策略执行情况和当前网络情况。

2.5 移动代理

基于被管理网络的分布性特点,各个管理域之间应该是能互相通信、相互合作,而MA能满足该要求。MA提供了一种新的方法来实现大规模、分布式、自适应和复杂的软件系统的管理。

将MA应用于策略网管中,MA是一种移动代理,具有一定的策略决策能力,并携带着策略信息在网络节点间移动,将MA和基于策略的网络管理相结合,具有以下优势:减少传输流量,节约网络带宽;能够管理异构网络,并可以方便的在多个管理域之间进行策略的协商;使用MA携带一定的策略决策智能到达PEP,减轻了网络中的通信量,增强了管理的分布性。

3 故障管理系统设计

基于策略和移动代理的网络故障管理软件主要由策略库、PEP、PDP、PMT、故障监视 、故障定位和故障修复模块组成,其中PEP和PDP内置了移动代理MA。故障监视模块检测到门限越阀值或收到Trap信息时,立即通知策略执行点PEP,策略执行点向策略决策点PDP请求策略决策,策略决策点收到策略请求后,进行故障过滤和相关性分析以便进行故障定位,若是本管理域内的故障,则从策略库选取合适的策略,通知PEP进行故障修复和清除;若无法在本管理域内定位,则相相邻管理域的PDP发送携带策略的MA进行策略协商,做出策略决策,通知PEP执行策略决策,组成如图2所示。

图2 网络故障管理系统组成

3.1 告警监视

设置合适的故障监视策略,在不同的情况下可能采用不同的时间轮询策略或者不同的trap信息采集策略。

管理信息库MIBⅡ定义了很多与故障管理有关的变量,为网络故障管理提供了丰富的网络状态信息,包括:

若对系统进行2次查询,即x时刻和y时刻,则IP包传送速率为:

IP包接收速率为:

根据不同的策略可以支持按照告警起止时间、告警类型、告警级别和告警源进行分类查询。

3.2 告警关联性分析

设定策略规则,对当前操作员关心的重要被管设备的告警进行接收处理,对其他设备的告警拒绝接收;或者对设备的重要告警接收处理,对次要告警予以屏蔽;或者只显示设备的最高优先级告警。对告警进行合并和转化,将多个告警合并成具有更多信息的告警。

对告警相关性的定义:告警事件A与告警事件集合相关,表示为:

告警相关性可以用于网络故障定位和告警过滤。告警相关性类型如下:

告警压缩:将发生的多个告警压缩到一个告警中。{A1,A2,A3,A4,…An}=>A。

告警过滤:为了避免冗余告警信息的上报,减少不必要的通信开销,提高处理能力,必须进行故障过滤,设置过滤策略。

如果告警A的P(A)值不属于合法值集合H,则过滤告警A。{A,P(A)∉H}=>Φ。

告警抑制:在高优先级告警C发生的前提下,抑制告警A。{A,C}=>Φ。

告警计数:对重复到达同样的告警进行统计和设定门限值。例如用一个告警B代替n次出现告警A。{n*A}=>B。

告警泛化:用告警的超类代替该告警。

{A,A⊂B}=>B。

告警特化:用告警的特定子集告警代替该告警。{A,A⇔B}=>B。

告警时序关系:相关的告警依赖于告警发生时间顺序,告警A,告警B顺序发生时,就会发生告警C。{AΣB}=>C。

告警相关性规则发现如图3所示。

图3 告警相关规则发现

3.3 故障定位

如果故障集合用F表示,则故障定位就是要找到一个这样的集合FC,FC⊆F,根据证据集合E计算BN(S0),得到对S0的最优解。以贝叶斯置信网络中节点xi与其所依赖的父节点Vj的故障定位过程如下:

Bel中即为节点x的故障定位信息。

策略决策点完成故障定位后,做出策略决策,若是本管理域内能解决的故障,则下发策略决策给策略执行点进行故障修复;若故障在本管理域内无法解决,则通过与其他管理域的移动代理进行协商。

基于策略和移动代理的分布式网络故障管理具有以下优点:

①动态性:由于故障监视的数据都是动态变化的,网络拓扑也是动态变化的。所以要求相应的监控系统也应该有动态适应性,基于策略和MA的故障管理能根据网络情况采取不同的监视策略具有动态适应性;

②分布式:MA可以携带策略信息在分布式节点间移动,并且具有策略决策能力,能够更好地适应网络的动态变化;

③可扩展性:基于策略的网络故障管理中网络管理是基于策略的实施来实现的,一条策略可以运用于一类相同类型的执行对象,许多异类网络可以通过统一的策略集进行管理,可扩展性好。

4 实例验证

基于策略和移动代理的网络故障管理软件系统在某项目中进行了应用,取得了预期的效果。现以一个分布式网络中不同管理域间链路误码率增大时故障事件的处理流程为例说明基于策略和移动代理的故障管理的工作过程,步骤如图4所示。

图4 管理域间误码率增大动态调整流程

现以域A为例,对图4中的数字符号解释如下:

①域A的故障监视模块检测到误码率超越阀值即xi≥THA,向PEPA发出告警;

②PEPA向域A管理站的PDPA发出告警a={alarmid,alarmtime,alarmlevel,alarmtype,alarmname,alarmstate,alarmwhy},并请求策略决策;

③PDPA接收到PEPA发送来的携带策略的MA请求策略后,访问目录服务器并根据表1进行策略决策,同时将决策结果封装到携带策略的MA中发送给PEPA;

④PEPA收到PDPA的决策结果后经过策略解析和映射,向域A发出调整误码率指令;

⑤PDPA向PDPB发送一个携带策略的MA进行策略协商;

⑥PDPB收到PDPA发来的携带策略的MA经过策略协商,决定不做更改;

⑦PDPA的携带策略的MA和PDPB的携带策略的MA进行策略协商,决定缩小节点间距离以减低误码率。

表1 链路误码率BER增大处理策略

5 结束语

管理域的划分使得大规模分布式网络的管理复杂度大大简化。MA的使用使得网络管理系统更加智能。基于策略的网管和移动代理技术的融合将大大提高网络管理的智能化和灵活性。

[1]曾旷怡,杨家海.一种基于策略的网络管理系统研究与实现[J].小型微型计算机系统,2007,15(4):123-126.

[2]沈 俊,罗军周.基于策略和域的网络管理[J].计算机工程与应用,2001,23(5):100-104.

[3]刘晓明,黄传河.一种基于移动AGENT技术的网络管理[J].计算机应用研究,2004,12(1):65-69.

猜你喜欢

网络故障网络管理误码率
面向通信系统的误码率计算方法
数控机床DNC网络管理平台在智能制造中的应用
一种快速同步统计高阶调制下PN 码误码率的方法∗
基于OpenStack虚拟化网络管理平台的设计与实现
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
电动汽车充电服务网络管理初探
基于EOC通道的SHDSL网络管理技术
Wireshark协议解析在网络故障排查中的应用
UWB多径信道调制方式的误码率分析