交换机瓶颈引发网络丢包
2017-11-23
故障现象
近几天,单位有部分用户反映访问互联网有明显的卡顿现象,网页经常无法顺利打开,要刷新一次或多次才能显示。经ping –t xxx命 令测 试 www.163.com,www.qq.com,www.sina.com.cn等网站,丢包率均在8%左右(如图 1)。
图1 Ping命令测试
故障分析
引起网络传输丢包的原因主要有三类。
1.网络设备故障
设备故障包括硬件方面的故障和软件方面的故障。硬件故障主要是物理层故障,如网卡故障、交换机、路由器接口故障等。软件故障是指参数配置问题,如网卡参数、静态路由、路由协议、默认网关、DNS等设置有误。
2.网络拥塞
当网络带宽过小或网络中存在环路、ARP病毒、蠕虫病毒、P2P等引起的网络风暴或异常增大的流量时,往往发生拥塞。
3.MTU配置不当
关键设备的MTU(最 大 传 输单元)配置不正确,引起数据包无法被正确重组或被丢弃(以太网MTU为1500Byte,IEEE802.3/802.2MTU为1492Byte)。
故障排查
单位网络拓扑结果如图2所示。
图2 网络拓扑
依据网络拓扑,在用户终端上,逐级用ping –t xxx命令测试有无丢包现象发生,其中xxx代表所经过的网络设备。Ping接入层交换机无丢包,延时<1ms,ping核心交换机无丢包,延时<1ms,ping防火墙内网接口无丢包,延时<1ms,ping防火墙外网接口无丢包,延时<1ms,但Ping互联网网址时产生丢包,丢包率约 8%,延时 >12ms,说明导致丢包的设备可能为防火墙、8口小交换机、光纤收发器或电信光纤链路。
进一步在核心交换机Cisco 6504E上使用扩展Ping命令,或用简化的命令ping xxx repeat 1000测试互联网地址,均发生丢包,而且丢包率为14%(如图 3)。
图3 核心交换机Ping测试
在核心交换机上做端口镜像,命令为:
其中g4/47口上连防火墙,g4/46口连接安装有“科来网络分析系统”的笔记本电脑,进行抓包分析,结果如图4所示。
图4 科来网络分析系统抓包分析
发现有大量的TCP重传数据包,这是由于丢包造成的,而重传的包绝大部分是与公网IP地址交互的数据包。
telnet登录防火墙,使用ping xxx interface eth0(eth0为连接光纤收发器的接口),丢包率更大。
综合以上测试结果,可以排除核心交换机硬件故障或配置故障的可能。
根据用户反馈,此次报告网速慢、卡顿情况的用户数较少,大部分用户并未受影响,因此防火墙硬件故障的可能性也可排除。防火墙上有2条互联网链路,带宽分别为30Mbps和50Mbps,其中有30%用户使用默认路由经30M链路访问互联网,其余用户使用策略路由通过50M链路访互联网。由此想到是否是30M链路故障。
将笔记本电脑IP地址、网关、DNS设置为与防火墙eth0相同的参数后,直接连接光纤收发器1的LAN口,进行Ping测试,到电信网关和互联网地址均无丢包,说明光纤链路和光纤收发器1无故障。
故障解决
难道是8口小交换机的问题?该机是一款低端桌面型交换机,没有网管功能,已使用了6年,数据交换能力可能成为瓶颈。于是,用一台二层Cisco 2960交换机替换,再次Ping测试,丢包现象消失了。
经验总结
此次解决网络丢包问题走了一些弯路,花了3天时间才找出问题。其实,根据逐级Ping测试结果,以及受影响用户的VLAN分布情况,可以更快速地大致判断出是光纤链路1所连接的部分出现故障,再根据笔记本单机测试光纤链路1无丢包这一情况,从而推断出故障设备为小交换机。