网络风暴故障排查解决的一般方法研究
2016-09-16中国卫星海上测控部焦重波靳建彬
中国卫星海上测控部 焦重波 靳建彬
网络风暴故障排查解决的一般方法研究
中国卫星海上测控部焦重波靳建彬
网络中一旦出现网络风暴,波及面广,影响大,故障定位难度高,想要短时间内排除故障,首先要了解网络的拓扑结构,其次要有清晰的排查思路,正确的排查方法。本文通过一个具体的网络风暴故障案例,研究排查解决网络风暴故障的一般方法。
网络风暴;故障排查;方法
1 前言
一个数据帧或包被传输到本地网段 (由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪,这就是广播风暴。本文通过一个具体的网络风暴故障案例,从故障现象、排查思路、具体操作三个方面,研究了排查解决网络风暴故障的一般方法。
2 故障现象
某船局域网突然出现偶尔断网现象,每次断网时间持续一分钟左右。利用“图形化PING程序”软件,通过局域网核心交换机对网内的所有节点交换机进行ping测试,发现每隔二十分钟到三十分钟出现一次部分交换机ping连通性异常现象,并且每次出现的异常交换机都不相同,无规律可循,如图1所示。在核心交换机上进行抓包检查,未发现明显异常流量。此次故障出现频率快,覆盖面广,短时间内无法定位。
3 排查思路
某船局域网的网络结构为典型的树形网络结构,五个大节点交换机通过光纤收发器进行连接,节点内其余交换机通过网线连接至节点交换机,如图2所示。五个节点交换机连接的顺序是A→B→C→D→E,办公网服务器区通过核心交换机接入C节点。根据之前的故障现象,经专业组讨论,拟定的排查思路:根据故障现象及抓包结果分析,该故障极有可能是网络中产生了短暂的网络风暴导致。首先进行交换机、服务器的重启,确定是否为办公网本身设备问题;若故障复现,则再继续确认是否为办公网的某个用户导致。通过跨接方式将五个大节点交换机的局域网单个隔离,并进行ping测试,缩小故障范围。确定故障范围后,再通过拔插该局域网中的用户线缆,最终找出故障用户。
图2 网拓扑图
4 具体操作
(1)对办公网交换机进行重启,重启约1个小时后,故障复现;
(2)对办公网服务器进行重启、并对一些不重要的服务器进行断网,故障仍然存在;
(3)由于C节点为办公网的中心节点,因此首先使用跨接的方法将C节点局域网进行隔离,如图3所示。通过运行“图形化PING程序”软件对这两个局域网的交换机进行ping测试,软件分别部署在核心交换机和C交换机。测试结果为:核心交换机节点局域网(剥离C节点后)ping测试正常,没有出现之前的故障现象;C节点局域网的交换机每隔5~10分钟出现部分交换机ping异常,持续时间1分钟。这样,故障范围缩小至C节点局域网。
图3 将C节点局域网进行单独跨接隔离
(4)对C节点局域网进行单独测试。采用同样的方法,对该局域网的其他五个交换机进行分别剥离测试,故障依旧。至此,可以判断故障应该在C交换机上。对C交换机上面的用户网线进行逐个拔插,同时配合ping测试,发现当将第18口网线拔掉时,故障消失,插上时,故障复现。恢复办公网络,在全网环境下进行测试,结果一致,最终故障定位为C交换机第18口用户。
5 机理分析
一般情况下,产生网络广播风暴的原因,主要有以下几种:
(1)网络设备原因:我们经常会有这样一个误区,交换机是点对点转发,不会产生广播风暴。但是如果交换机本身发生故障,也可能会产生广播风暴。
(2)网卡损坏:如果网络机器的网卡损坏,也同样会产生广播风暴。损坏的网卡,不停向交换机发送大量的数据包,产生了大量无用的数据包,产生了广播风暴。由于网卡物理损坏引起的广播风暴,故障比较难排除,损坏的网卡一般还能上网,我们可以借用Sniffer等局域网管理软件,查看网络数据流量,来判断故障点的位置。
(3)网络环路:网络环路的产生,一般是由于一条物理网络线路的两端,同时接在了一台网络设备中。曾经在一次的网络故障排除中,发现一条双绞线两端插在同一个交换机的不同端口上,导致了网络性能骤下降,打开网页都非常困难。这种故障,就是典型的网络环路。现在的交换机(不是HUB)一般都带有环路检测功能。
(4)网络病毒:目前一些比较流行的网络病毒,Funlove、震荡波、RPC等,一旦有机器中毒后,会立即通过网络进行传播。网络病毒的传播,就会损耗大量的网络带宽,引起网络堵塞,引起广播风暴。
6 结束语
网络风暴破坏力大,故障定位难度高。本文结合一个具体的网络风暴故障案例,从故障现象、排查思路、具体操作三个方面进行分析,总结出来网络风暴产生的常见原因,研究了解决网络风暴故障的一般方法。