通过流量监测故障点
2018-11-07
故障现象
单位一栋匚型楼内一个时间段有不少用户反映网络慢,总有断网现象,这些用户都在南侧楼内,而东侧、北侧楼的用户没有反映有断网现象。
查看流量监测此楼各交换机都正常在线,因此判断只是部分用户有问题,回话要求查杀自己电脑内的病毒。其中有一位4楼用户断网较多,他就把电脑的操作系统重新安装过且查杀过没有病毒,过一天后反映还是有不定时断网现象,这表明楼内有较大的病毒攻击行为,于是进入流量监测软件NPM对此楼交换机及端口逐一查看。
故障排查
图1 YLL楼4楼南交换机上联口流量图
单位用户都是用锐捷认证的,在锐捷认证里面查到这个用户所在交换机的端口,然后在流量监测NPM里查看此端口,这段时间此端口流量带宽最高24Mbps。问此用户,他说最近没有下载,只是看一些网页、收发邮件、QQ说话,基本没用到这么大的带宽(单位出口带宽每IP限制6M电信+6M联通)。把此端口关闭了半天,在这半天内还有此楼南侧用户不断打电话说网络有断网现象。
然后查看此交换机(4楼的)接入流量,也在这几天突然增大到最高值200M,而平时最高只有几十M(如图1)。 接着查看此楼的南侧的1、2、3、5 楼 的 接入交换机,上联口也在这几天突然增大到最高值200M,而平时最高只有几十M,在一楼接入交换机的界面发现5号端口传输达到100%,接口是1000M。这很异常,普通用户根本不可能达到这大的带宽的,于是进入5号端口界面查看。
故障解决
在一楼交换机5号端口流量监测界面,发现带宽跑满了1Gbps,且几天都是这么高,而这个端口平时没什么流量,这肯定是异常的。
进到此交换机管理界面查看此端口认证情况,没有用户认证,只能查到MAC地址、IP地址,用户是谁没法查出来。因此楼的布线数据不全,信息标记因时间长看不清,无法确定5号端接的哪个房间哪个信息点。
联系管理部门,说一楼是实验室,平时没什么人,这几天更是没人在里面,管钥匙的人在外面出差,没办法只能将此端口关闭。关闭一楼南侧接入交换机5号端口后,将1到5楼的交换机都重启,4楼接入交换机21号端口也打开了,各交换机上联流量基本正常,各个端口基本也正常了,之后此楼用户没有大面积再报故障。
故障总结
这起故障是发生在去年11月,所有图片显示的都是最近12个月的流量情况。交换机所有端口情况图片当时没保存,无法呈现出来。使用的监测软件是SolarWinds NPM 10的版本。
后来有时间也查过此楼的交换机的情况,也关注一楼接入交换机5号端口一直是关闭的,无人反映此点网络不通。因管理单位几百交换机没时间天天守着这台查看,到现在也不知道是哪个用户、哪台电脑或设备出现这种情况,是何原因导致的。但可喜的是,通过关闭一个端口,将这个楼大面积用户反映的断网故障解决了。
由于NPM是7×24小时监测,通过NPM的流量监测可发现一些交换机端口异常流量变化。通过不同时间段的流量图,可以清晰地看到这种流量变化,对异常流量的端口可以及时发现并处理,如果能找到对应信息点或用户、设备,就可以再去处理相应的用户、设备了。