基于SNMP的网络故障管理技术
2014-09-24孔小婧王强
孔小婧 王强
摘 要:目前我们面临的网络的规模和复杂与日俱增。管理人员如何保障网络稳定、可靠的运行,是一个非常重要的问题。深入了解网络故障的起因,对于网络管理和保障正常运转具有重要意义。本文以SNMP协议为主,着重介绍SNMP在网络故障分析和网络管理中的应用。
关键词:网络管理;故障监控;SNMP;SNMP4J
中图分类号:G40-057 文献标识码:A
Abstract:We are faced with the network size and complexity grow with each passing day.Management personnel to ensure network stability,reliable operation,is a very important problem.Further understanding of the causes of network fault,the network management and guarantee the normal operation has the important significance.Based on the SNMP protocol, introduces the application of SNMP in the network fault analysis and network management.
Keywords:network management;fault monitoring;SNMP
1 引言(Introduction)
及时处理网络故障是网络管理的重要工作之一。我们都希望网络可靠。当网络中出现故障时,网络管理器能够查到故障并排除,保障网络的畅通。
故障管理可分为三个功能模块:
(1)检测和报警:故障监视代理负责随时记录系统在出现故障时的内容以及引起故障原因,并且负责把这些信息记录在运行日志中。如采用轮询通信来管理网络,那么管理程序就会定期访问运行日志,以便发现问题;对于重要的网络故障的检测,代理会主动向有关管理者报告错误事件。另外,对出错报警的数量、报告的频率也要控制,避免增加网络负担。
(2)网络故障预测:对各种容易引起网络故障的参数设定极限值,及时监督参数的变化,如果超过门限值,就立即警报。例如当出错产生的分组碎片数达到一定值时就开始警报,表示网络通信状况恶化,出错率开始上升。
(3)诊断功能:一旦网络出现故障时,能够及时链路测试,找出链路中的故障和引起故障的原因。
例如可以进行下列测试:
a.链接测试;
b.数据完整性测试;
c.协议完整性测试;
d.数据饱和测试
e.链接饱和测试;
f.环路测试;
g功能测试;
h.诊断测试。
2 故障监测技术(Fault monitoring technology)
2.1 ICMP监控技术
ICMP是“Internet Control Message Protocol”(Internet控制消息协议)的缩写。“错误侦测与回报机制”它是一个让我们能够检测链路的连接状况,确保连接的准确性。
它在网络中主要作用包括:
(1)侦测远端主机是否存在。
(2)建立及维护路由资料。
(3)重导资料传送路径。
(4)资料流量控制。
通过ICMP,我们可以判断主机网络连接是否正常。如果不正常,就可以初步判断主机关机或者网络连接不正常。在实际网络管理中经常使用的ping命令,用来检查本机与目标主机的联通是否正常[1]。
2.2 HTTP监控技术
HTTP协议(Hypertext transfer protocol)一个互联网服务器与工作站之间的超文本传输协议。它对于减少网络负担、提高浏览器的效率有着不可替代的作用。
客户与Web服务器通过一个称为浏览器(browser)的专门的应用程序进行交互。浏览器负责正确地显示文档。浏览器还负责接受用户的输入,通常是让用户选择对另一个文档的引用,然后去获取并显示被选文档。
通过HTTP协议,我们可以判断Web服务或本地网络配置是否运行正常。
2.3 SNMP监控技术
在这里我们主要通过SNMP协议轮询管理信息库(MIB),获得相应的状态位信息,从而评价网络的运行状况,并揭示网络当前的运行状态,如哪个网段接近通信负载的最大能力或链路出错等。
MIB中包括三类信息:实时信息、非实时信息、静态信息。
实时信息,就是根据网络状况反映出来的实时信息,当然数值也是在不断变化中。如Interface组中的ifInOctets、ifOutOctets、ifInErrors等。
另一类非实时信息。它的信息内容相对稳定,如ipRouteTable表。
还有一类是静态信息,它在相当长的时间,内呈现出相对稳定的状态或者对应值无变化,例如System组中显示部分的信息。
在SNMP监测技术中,我们主要关注MIB中的实时信息,监测实时信息的变化,从而了解主机或网络存在的故障。如果能够在MIB中设置合适的关联阀值,涨跌出设定的阀值时就会报警的话,那么就可以做到早发现早处理,避免网络故障给我们带来的麻烦。
SNMP还支持主动发送trap消息给被管理主机,报告当前网络运行状态。这样就能把网络当前的状态及时报告给网管,减少和避免可能出现的网络故障。endprint
3 SNMP获得网络信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理获取管理信息的途径有两种:一是轮询(poll),由管理站向代理发出查询信息,代理处理后会给询问方送出有关消息。其次是陷阱(trap),如果本地设备和链路运行状态发生问题时,就及时向外发出检测的故障内容。
3.1 轮询
管理站主要是依靠轮询收集需要的信息,轮询的频率会对管理的效果影响很大。因此,需要提高网络管理的轮询策略,找到一个合适的轮询频率。
比较麻烦的是,我们在设定的轮询频率时,会考虑网络规模以及网络结构的复杂程度,还有代理有多少。具体频率多少合适,没有标准,需要结合实际情况反复试验,最终得出与管理站本身的处理速度匹配,网络负担较轻的参数。
3.2 陷阱
陷阱是通知SNMP管理器在代理或节点上已发生的重大事件的异步消息。陷阱在未经请求的情况下发送到被配置来接收它们的SNMP管理器。这样的设计有缺陷,当网络每个环节突然断电,代理就不能发出警告。陷阱在网络管理方面的作用很有限,对于端口故障、连接失败、设备启动可以发出警告信息。除此以外就无能为力了。在这种状况下,就需要系统轮询的方法来检查网络设备了。
4 故障的判断策略(Method to judge the fault)
检测故障的检测手段是确定故障的关键,它可以及时准确了解告警信息的。但是,经常有些网络故障用一种手段不能准确的监测出来,需要增加多种监测手段。如果对某种故障采用的监测手段过多,就会有过多的告警信息,增加故障排查的难度。
为了确认故障,要对产生的警告信息进行过滤分析。过滤告警信息有多种方法,如阈值过滤、分组过滤、优先级过滤等。通过过滤会取出大量冗余的告警信息,有利于针对主要问题进行分析和判断。
4.1 简单的MIB监测管理
当一个网络管理员接手一个新网络管理工作时,首先会设定MIB库对象的上限或是下限值。MIB的内容对于解决网络故障会起到很大的作用。当管理站进行常规轮询时,凡是超过门限值的MIB对象,就会报一个故障信息。这种故障报告内容只有哪个MIB上的哪个MIB对象越界了,对于越界情况不作任何处理。原因分析、修复故障等由管理员来完成。这种故障管理的成本低、管理能力弱,这就要求管理员的管理水平相对要高。
4.2 基于专家系统的智能管理
目前专家系统已相对成熟,它对于解决网络管理中的一些简单问题很有作用的。如实时性、协调管理等实际应用效果很好。专家系统也经常被应用到神经网络以及人工智能等。它的特性非常适合用于大型网络的管理。
(1)处理不确定性的能力
网络系统是一个分布式系统,它由各种大大小小的结点组成,如主机、路由器、交换机等。这些结点及结点上运行的各种软件构成了网络中的资源。网络管理要对所辖的网络设备进行监管,保持网络高效运行。如果对系统资源状态都能及时了解,那么专家系统就能很好地运作。因为整个系统设备一直是会变化的,当网络管理得到某个状态信息时,有可能发出信息的那个设备的状态已经改变了。故此管理系统只能了解整个系统的局部情况,得到的系统信息不完整,因此对网络的管理就必须要求管理系统能够在信息不完整的情况下,根据有限的信息对网络资源管理和控制[3]。
(2)协作能力和层次性
目前,我们网络的规模和结构已经达到很高的程度,网络管理也应随网络的扩展采取相应方法。单一的管理方式肯定不能管理好当前的网络,必须采取多种多样的管理模式。各种网络管理系统之间都能够相互融合,为管理者提供有用的信息和作用。而每个子系统只要管理好自己辖下的网络就可。此外,如果把层次概念引入到网络管理中,能使网络管理架构清晰,提高网络管理效率。分级轮询分级向上报告。网络专家管理系统的协调性以及层次性是目前人工智能方面研究的热点之一。
(3)适应系统变化的能力
由于网络系统一直处在不断的变化,因此网络管理系统也应该有适应变化的能力,比较常规的做法就是不断轮询网络资源是否改变并且根据反馈的信息进行网络管理和控制。这种管理方法一般称作“数据驱动”,管理控制是建立在管理者得到的数据基础上的。
(4)解释和推理能力
网络管理系统应具有综合解释低层信息的能力,并且推断出一些有用的可能信息,而不是简单地询问底层代理。并将这些高层的信息应用到对网络系统的管理和控制。
5 故障报警策略(Fault alarm strategy)
当发生网络故障后,应尽快通知网络管理员,以减少故障带来的不便和损失。报警策略主要有以下几种方式:
(1)给网络管理员发送邮件报告故障情况。
(2)给网络管理员发送手机信息报告故障情况。
(3)管理站调用相关程序来发出预设音乐提示发生网络故障。
可以用一种或几种以上方式来报告故障信息。
6 故障恢复策略(Fault recovery strategy)
网络故障恢复策略是:当网络出现故障时,首先利用迂回路由打通网络,或者使用备用资源来保障网络的畅通。
恢复策略主要包含以下几种:
(l)隔离包含故障的设备,利用其余资源继续提供网络服务。这种策略通常会减少网络可提供的服务。
(2)将故障设备提供的网络服务切换到预备设备上。
(3)使用环或者网络本身具有的异径功能来保障网络畅通。
7 结论(Conclusion)
网络管理的重要内容就是要确保网络运行正常,网络故障的监测是这项工作中比较棘手的事情。如何运用SNMP监测网络运行状况,本文提出了一些监控的可行的方法,以便在解决网络故障时有章可循。
参考文献(References)
[1] 郭军.网络管理(第二版).北京:北京邮电大学出版社,2001.
[2] 雷震甲.计算机网络管理.西安:西安电子科技大学出版社,2006.
[3] 张鹏.基于多Agent的分布式网络管理技术及其在性能管理中的研究与实践[D].西安交通大学博士论文,2001.
作者简介:
孔小婧(1983-),女,学士,讲师.研究领域:计算机网络.
王 强(1962-),男,学士,讲师.研究领域:计算机网络,通讯.endprint
3 SNMP获得网络信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理获取管理信息的途径有两种:一是轮询(poll),由管理站向代理发出查询信息,代理处理后会给询问方送出有关消息。其次是陷阱(trap),如果本地设备和链路运行状态发生问题时,就及时向外发出检测的故障内容。
3.1 轮询
管理站主要是依靠轮询收集需要的信息,轮询的频率会对管理的效果影响很大。因此,需要提高网络管理的轮询策略,找到一个合适的轮询频率。
比较麻烦的是,我们在设定的轮询频率时,会考虑网络规模以及网络结构的复杂程度,还有代理有多少。具体频率多少合适,没有标准,需要结合实际情况反复试验,最终得出与管理站本身的处理速度匹配,网络负担较轻的参数。
3.2 陷阱
陷阱是通知SNMP管理器在代理或节点上已发生的重大事件的异步消息。陷阱在未经请求的情况下发送到被配置来接收它们的SNMP管理器。这样的设计有缺陷,当网络每个环节突然断电,代理就不能发出警告。陷阱在网络管理方面的作用很有限,对于端口故障、连接失败、设备启动可以发出警告信息。除此以外就无能为力了。在这种状况下,就需要系统轮询的方法来检查网络设备了。
4 故障的判断策略(Method to judge the fault)
检测故障的检测手段是确定故障的关键,它可以及时准确了解告警信息的。但是,经常有些网络故障用一种手段不能准确的监测出来,需要增加多种监测手段。如果对某种故障采用的监测手段过多,就会有过多的告警信息,增加故障排查的难度。
为了确认故障,要对产生的警告信息进行过滤分析。过滤告警信息有多种方法,如阈值过滤、分组过滤、优先级过滤等。通过过滤会取出大量冗余的告警信息,有利于针对主要问题进行分析和判断。
4.1 简单的MIB监测管理
当一个网络管理员接手一个新网络管理工作时,首先会设定MIB库对象的上限或是下限值。MIB的内容对于解决网络故障会起到很大的作用。当管理站进行常规轮询时,凡是超过门限值的MIB对象,就会报一个故障信息。这种故障报告内容只有哪个MIB上的哪个MIB对象越界了,对于越界情况不作任何处理。原因分析、修复故障等由管理员来完成。这种故障管理的成本低、管理能力弱,这就要求管理员的管理水平相对要高。
4.2 基于专家系统的智能管理
目前专家系统已相对成熟,它对于解决网络管理中的一些简单问题很有作用的。如实时性、协调管理等实际应用效果很好。专家系统也经常被应用到神经网络以及人工智能等。它的特性非常适合用于大型网络的管理。
(1)处理不确定性的能力
网络系统是一个分布式系统,它由各种大大小小的结点组成,如主机、路由器、交换机等。这些结点及结点上运行的各种软件构成了网络中的资源。网络管理要对所辖的网络设备进行监管,保持网络高效运行。如果对系统资源状态都能及时了解,那么专家系统就能很好地运作。因为整个系统设备一直是会变化的,当网络管理得到某个状态信息时,有可能发出信息的那个设备的状态已经改变了。故此管理系统只能了解整个系统的局部情况,得到的系统信息不完整,因此对网络的管理就必须要求管理系统能够在信息不完整的情况下,根据有限的信息对网络资源管理和控制[3]。
(2)协作能力和层次性
目前,我们网络的规模和结构已经达到很高的程度,网络管理也应随网络的扩展采取相应方法。单一的管理方式肯定不能管理好当前的网络,必须采取多种多样的管理模式。各种网络管理系统之间都能够相互融合,为管理者提供有用的信息和作用。而每个子系统只要管理好自己辖下的网络就可。此外,如果把层次概念引入到网络管理中,能使网络管理架构清晰,提高网络管理效率。分级轮询分级向上报告。网络专家管理系统的协调性以及层次性是目前人工智能方面研究的热点之一。
(3)适应系统变化的能力
由于网络系统一直处在不断的变化,因此网络管理系统也应该有适应变化的能力,比较常规的做法就是不断轮询网络资源是否改变并且根据反馈的信息进行网络管理和控制。这种管理方法一般称作“数据驱动”,管理控制是建立在管理者得到的数据基础上的。
(4)解释和推理能力
网络管理系统应具有综合解释低层信息的能力,并且推断出一些有用的可能信息,而不是简单地询问底层代理。并将这些高层的信息应用到对网络系统的管理和控制。
5 故障报警策略(Fault alarm strategy)
当发生网络故障后,应尽快通知网络管理员,以减少故障带来的不便和损失。报警策略主要有以下几种方式:
(1)给网络管理员发送邮件报告故障情况。
(2)给网络管理员发送手机信息报告故障情况。
(3)管理站调用相关程序来发出预设音乐提示发生网络故障。
可以用一种或几种以上方式来报告故障信息。
6 故障恢复策略(Fault recovery strategy)
网络故障恢复策略是:当网络出现故障时,首先利用迂回路由打通网络,或者使用备用资源来保障网络的畅通。
恢复策略主要包含以下几种:
(l)隔离包含故障的设备,利用其余资源继续提供网络服务。这种策略通常会减少网络可提供的服务。
(2)将故障设备提供的网络服务切换到预备设备上。
(3)使用环或者网络本身具有的异径功能来保障网络畅通。
7 结论(Conclusion)
网络管理的重要内容就是要确保网络运行正常,网络故障的监测是这项工作中比较棘手的事情。如何运用SNMP监测网络运行状况,本文提出了一些监控的可行的方法,以便在解决网络故障时有章可循。
参考文献(References)
[1] 郭军.网络管理(第二版).北京:北京邮电大学出版社,2001.
[2] 雷震甲.计算机网络管理.西安:西安电子科技大学出版社,2006.
[3] 张鹏.基于多Agent的分布式网络管理技术及其在性能管理中的研究与实践[D].西安交通大学博士论文,2001.
作者简介:
孔小婧(1983-),女,学士,讲师.研究领域:计算机网络.
王 强(1962-),男,学士,讲师.研究领域:计算机网络,通讯.endprint
3 SNMP获得网络信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理获取管理信息的途径有两种:一是轮询(poll),由管理站向代理发出查询信息,代理处理后会给询问方送出有关消息。其次是陷阱(trap),如果本地设备和链路运行状态发生问题时,就及时向外发出检测的故障内容。
3.1 轮询
管理站主要是依靠轮询收集需要的信息,轮询的频率会对管理的效果影响很大。因此,需要提高网络管理的轮询策略,找到一个合适的轮询频率。
比较麻烦的是,我们在设定的轮询频率时,会考虑网络规模以及网络结构的复杂程度,还有代理有多少。具体频率多少合适,没有标准,需要结合实际情况反复试验,最终得出与管理站本身的处理速度匹配,网络负担较轻的参数。
3.2 陷阱
陷阱是通知SNMP管理器在代理或节点上已发生的重大事件的异步消息。陷阱在未经请求的情况下发送到被配置来接收它们的SNMP管理器。这样的设计有缺陷,当网络每个环节突然断电,代理就不能发出警告。陷阱在网络管理方面的作用很有限,对于端口故障、连接失败、设备启动可以发出警告信息。除此以外就无能为力了。在这种状况下,就需要系统轮询的方法来检查网络设备了。
4 故障的判断策略(Method to judge the fault)
检测故障的检测手段是确定故障的关键,它可以及时准确了解告警信息的。但是,经常有些网络故障用一种手段不能准确的监测出来,需要增加多种监测手段。如果对某种故障采用的监测手段过多,就会有过多的告警信息,增加故障排查的难度。
为了确认故障,要对产生的警告信息进行过滤分析。过滤告警信息有多种方法,如阈值过滤、分组过滤、优先级过滤等。通过过滤会取出大量冗余的告警信息,有利于针对主要问题进行分析和判断。
4.1 简单的MIB监测管理
当一个网络管理员接手一个新网络管理工作时,首先会设定MIB库对象的上限或是下限值。MIB的内容对于解决网络故障会起到很大的作用。当管理站进行常规轮询时,凡是超过门限值的MIB对象,就会报一个故障信息。这种故障报告内容只有哪个MIB上的哪个MIB对象越界了,对于越界情况不作任何处理。原因分析、修复故障等由管理员来完成。这种故障管理的成本低、管理能力弱,这就要求管理员的管理水平相对要高。
4.2 基于专家系统的智能管理
目前专家系统已相对成熟,它对于解决网络管理中的一些简单问题很有作用的。如实时性、协调管理等实际应用效果很好。专家系统也经常被应用到神经网络以及人工智能等。它的特性非常适合用于大型网络的管理。
(1)处理不确定性的能力
网络系统是一个分布式系统,它由各种大大小小的结点组成,如主机、路由器、交换机等。这些结点及结点上运行的各种软件构成了网络中的资源。网络管理要对所辖的网络设备进行监管,保持网络高效运行。如果对系统资源状态都能及时了解,那么专家系统就能很好地运作。因为整个系统设备一直是会变化的,当网络管理得到某个状态信息时,有可能发出信息的那个设备的状态已经改变了。故此管理系统只能了解整个系统的局部情况,得到的系统信息不完整,因此对网络的管理就必须要求管理系统能够在信息不完整的情况下,根据有限的信息对网络资源管理和控制[3]。
(2)协作能力和层次性
目前,我们网络的规模和结构已经达到很高的程度,网络管理也应随网络的扩展采取相应方法。单一的管理方式肯定不能管理好当前的网络,必须采取多种多样的管理模式。各种网络管理系统之间都能够相互融合,为管理者提供有用的信息和作用。而每个子系统只要管理好自己辖下的网络就可。此外,如果把层次概念引入到网络管理中,能使网络管理架构清晰,提高网络管理效率。分级轮询分级向上报告。网络专家管理系统的协调性以及层次性是目前人工智能方面研究的热点之一。
(3)适应系统变化的能力
由于网络系统一直处在不断的变化,因此网络管理系统也应该有适应变化的能力,比较常规的做法就是不断轮询网络资源是否改变并且根据反馈的信息进行网络管理和控制。这种管理方法一般称作“数据驱动”,管理控制是建立在管理者得到的数据基础上的。
(4)解释和推理能力
网络管理系统应具有综合解释低层信息的能力,并且推断出一些有用的可能信息,而不是简单地询问底层代理。并将这些高层的信息应用到对网络系统的管理和控制。
5 故障报警策略(Fault alarm strategy)
当发生网络故障后,应尽快通知网络管理员,以减少故障带来的不便和损失。报警策略主要有以下几种方式:
(1)给网络管理员发送邮件报告故障情况。
(2)给网络管理员发送手机信息报告故障情况。
(3)管理站调用相关程序来发出预设音乐提示发生网络故障。
可以用一种或几种以上方式来报告故障信息。
6 故障恢复策略(Fault recovery strategy)
网络故障恢复策略是:当网络出现故障时,首先利用迂回路由打通网络,或者使用备用资源来保障网络的畅通。
恢复策略主要包含以下几种:
(l)隔离包含故障的设备,利用其余资源继续提供网络服务。这种策略通常会减少网络可提供的服务。
(2)将故障设备提供的网络服务切换到预备设备上。
(3)使用环或者网络本身具有的异径功能来保障网络畅通。
7 结论(Conclusion)
网络管理的重要内容就是要确保网络运行正常,网络故障的监测是这项工作中比较棘手的事情。如何运用SNMP监测网络运行状况,本文提出了一些监控的可行的方法,以便在解决网络故障时有章可循。
参考文献(References)
[1] 郭军.网络管理(第二版).北京:北京邮电大学出版社,2001.
[2] 雷震甲.计算机网络管理.西安:西安电子科技大学出版社,2006.
[3] 张鹏.基于多Agent的分布式网络管理技术及其在性能管理中的研究与实践[D].西安交通大学博士论文,2001.
作者简介:
孔小婧(1983-),女,学士,讲师.研究领域:计算机网络.
王 强(1962-),男,学士,讲师.研究领域:计算机网络,通讯.endprint