APP下载

运用网络分析工具解决局域网广播风暴问题

2014-04-29刘易

计算机时代 2014年10期
关键词:故障排除局域网

刘易

摘 要: 为了解决网络广播风暴引起机房主机访问网站速度慢的问题,使用科来网络分析系统对网络流量、协议、数据包等进行分析,并结合ARP欺骗、ARP扫描、蠕虫、网络路由环路和物理环路的不同表征,逐一排查ARP病毒、蠕虫、网络路由环路三个可能导致广播风暴的原因,最终定位广播风暴是由网络物理环路和交换机配置错误所导致。通过修改交换机配置和网络拓扑的方式避免网络广播风暴,使机房主机访问网站速度恢复正常。

关键词: 网络分析工具; 故障排除; 局域网; 广播风暴; ARP病毒

中图分类号:TP393.1 文献标志码:A 文章编号:1006-8228(2014)10-35-03

Solving LAN broadcast storm problem by applying network analysis tools

Liu Yi

(Beijing Information Technology College, Computer Engineering Department, Beijing 100018, China)

Abstract: To solve the problems of low website access speed which was caused by broadcast storm, the YOKLA network analysis system has been used to analyze the network flow, protocol and data packet. Three possible causes of broadcast storms which are ARP viruses, worms, network routing loop are excluded according to their different characteristics. On the basis of the above analysis, the problem of broadcast storm has been narrowed down to the physical network loops and switch configuration error. Having identified the problem, the network broadcast storm has been solved by modifying switch configuration and changing network topology. The website access speed has returned to normal.

Key words: network analysis tool; troubleshooting; LAN; broadcast storm; ARP viruses

0 引言

网络速度慢是网络管理中较常见并且也是较难处理的问题之一。为了能够更有效地进行网络维护,本文利用一款网络分析工具“科来网络分析系统”来分析学校机房网络管理中碰到的影响网速的原因。

某学院机房的基本网络拓扑如图1所示,该机房分为12组,每组计算机通过一个二层交换机,连接到机房的三层交换机,汇聚后连接到学院的核心交换机,最后通过防火墙上网。该机房为网络设备实训室,学生经常在该机房进行组网实验。起初机房运行环境良好,一个月后,该机房上网速度变慢,有时甚至不能上网,为了解决该问题,我们借助网络分析工具“科来网络分析系统”来解决该机房的上网问题。

1 故障现象描述

学院网络主要分为教工网和学生网两部分,该故障主要出现在学生网。学生的实验操作若改变了机房环境,就容易导致网络故障。该机房的主要故障为访问常用门户网站的延时达到了510ms左右,大大超过了用户可忍受的等待时间。若关掉机房的二层交换机,仅用一台主机直接接在学院的核心交换机CS&Firewall上,该主机能够直接访问外网,网页访问速度为100ms,属正常范围。

图1 机房网络拓扑示意图

2 分析方案设计

2.1 分析目标

根据上述现象,确认Internet上网问题是由机房内部局域网所导致。通常,引起网络速度慢的原因有以下几种:网络环路引起的广播风暴、蠕虫病毒攻击、流量异常占用、服务器响应速度慢等。为了研究门户网站的访问速度问题,我们捕获机房的数据流来进行分析。

2.2 分析设备部署

在机房的三层交换机上部署分析设备。如图2所示,将三层交换机DS1的f0/24口连接安装了科来网络分析系统的服务器,镜像三层交换机上的所有流量到f0/24口,捕获所有访问Internet的流量并进行分析。

图2 科来网络分析系统的部署

2.3 分析思路

查看网络统计,发现网络的总流量为23.880MB,其中8.783MB都是广播流量。占到总流量的40%,且数据包达到136,235个,远远大于正常情况的广播数据包数目。据此,确定排错思路如下:第一步,检查网络环境中是否存在主机感染病毒,如ARP扫描、ARP欺骗和蠕虫的情况;第二步,检查网络环境中是否存在网络配置不当导致网络环路。

3 故障定位

3.1 定位故障是否为病毒引起

3.1.1 病毒特征分析

根据上述现象,我们认为导致网络风暴的病毒一般属于蠕虫或者攻击类的病毒,通过分析病毒的特征,进行特征比对。

⑴ 蠕虫类病毒

蠕虫病毒是一种常见的计算机病毒。它主要利用网络进行复制和传播。由于其感染方式多样化且传播速度非常快,对网络及主机的影响非常大。

蠕虫病毒表现特征是网络层会有大量的主机会话,大多是发包,每个会话流量很少;连接层的连接很多,大多是发出的TCP SYN包,大部分没有得到响应或被拒绝;总体流量的特征是发包数量远大于收包数量[1]。

⑵ ARP病毒

ARP协议是TCP/IP协议组的一个协议,能够把网络地址翻译成物理地址。ARP病毒属于木马类病毒,一般表现为广播域内的计算机无法正确获得网关和其他客户机网卡的真实MAC地址,导致无法进行正常的网络通信。ARP病毒对电脑用户私密信息的威胁很大[2]。ARP病毒主要有两种类型,即ARP扫描病毒和ARP欺骗攻击。ARP扫描病毒是指发送大量ARP请求,扫描本网段内的MAC地址,消耗交换机资源;ARP欺骗攻击是指通过主动发送大量ARP响应实现地址欺骗,从而获取其他主机通讯信息[3]。

3.1.2 结合机房环境情况分析

首先查看网络中是否存在ARP欺骗,在图3中发现有太多ARP的主动应答诊断,定位到源MAC地址00:23:34:AB:ED:7C,发现该源地址是CS&firewall交换机的端口地址,查看数据包(图4)发现,该数据包为网关10.32.45.254回应局域网中PC机的ARP响应包,且响应的包个数仅14个,由此判断该局域网中不存在ARP欺骗。

图3 诊断条目

图4 数据包视图

通过图5协议视图查看ARP请求与响应的数据包发现,ARP请求和响应的数据包个数相差较大。而正常情况下,这两种数据包的流量以及数据包的个数相差不会很大,而此处的数据包比例为123,237:4,231,这是比较异常的现象,怀疑有ARP扫描的可能性。

查看ARP数据包的内容发现,这些ARP请求的内容均为“谁是192.168.1.200?告诉192.168.1.200”。这不符合ARP扫描的原理。ARP扫描应该是遍历局域网的每个IP,使用ARP广播发送相关的请求信息,然后与请求IP地址相同的主机回复ARP扫描的机器。因为捕获的数据ARP请求都是询问192.168.1.200这个IP地址,所以可以判断该局域网中不存在ARP扫描。

报文中大量的ARP请求报文属于异常现象,且询问的内容是本交换机的IP地址,且有两个不同的MAC地址发出这种ARP请求包。继续查看数据包的内容发现,上述两个MAC地址均属于福建星网锐捷通讯股份有限公司,初步判断该MAC地址属于锐捷交换机的地址。

该机房的三层交换机为锐捷交换机,查看配置发现,该交换机中出现了“ARP-4-DUPADDR:Duplicate address 92.168.1.200 on VLAN 1,sourced by 00a1.a916.d51d”的警告,并发现锐捷的交换机的VLAN 1接口配置了192.168.1.200的IP地址。该机房有两台锐捷交换机,连接方式为级联,两台交换机上VLAN 1接口均配置了192.168.1.200的IP地址,由此判断,出现ARP扫描的192.168.1.200,为交换机配置错误所导致。

接下来排除网络中是否存在蠕虫病毒。通过IP端点定位网络流量最大两台主机10.32.45.222和10.32.45.221。通过对这两台主机进行分析,分别查看TCP数据包的情况发现,TCP数据包均正常,没有出现发包远大于接收包的情况,根据蠕虫病毒表现特征判断该网络中没有蠕虫病毒。

3.2 定位网络环路

⑴ 网络环路的原理

网络环路分为网络物理环路(第二层环路)和网络路由环路(第三层环路),所有环路的形成都是由于目的路径不明确导致混乱而造成的。网络路由环路主要是指同一个数据包在路由器间循环传输最终丢掉。由于路由实际上是不可达的,IP包的TTL值在传输过程中不断减小直至1。路由器在丢掉数据包时会向源地址发送ICMP数据包。网络物理环路主要是指同一个数据包在两台设备间无限循环传输,不丢弃。循环广播报文形成广播风暴,导致整个网络阻塞。

⑵ 结合机房环境情况分析

查看数据包中的内容发现,诊断视图中没有TCP重传的数据包。网络路由环路的条件是大量TCP/UDP数据包中的数据包中的所有字段值都是相同的,如IP标识、TCP序列号、TCP确认号,并且同一个数据包的TTL为第一个值逐渐减到1,且需要有ICMP协议返回给服务器。通过查看数据包发现没有上述情况,因此判断该机房没有网络路由环路。

通过上述分析,了解到网络中没有ARP扫描,没有ARP欺骗,而且不存在网络路由环路。因为门户网站的访问问题出现在学生实验之后,回溯该机房实验前后的网络监控情况发现,实验前该机房的广播流量仅为每秒12个包,而实验之后每秒广播数据包数达到61220个。

据此可以初步判断网络广播是由于网络物理环路所导致。

3.3 深入分析与结论

⑴ 网络物理环路的表现特征

物理环路会导致ARP请求风暴,通过科来网络分析系统发现请求风暴警告达到5519条,除此之外,网络中同时伴随大量的ARP请求数据包出现,达到123,236个ARP请求数据包。由于找不到目标MAC的ARP请求数据包被交换机重复转发,造成死循环,并引起ARP请求风暴,导致机房的计算机上网速度缓慢,流量被ARP请求风暴占用。科来网络分析系统中出现大量TCP重复的连接尝试和TCP慢应答的警告都是由物理环路所引起的。广播地址10.32.45.255发送的数据包频率很高,在毫秒级;且向广播地址10.32.45.255发送的数据包的参数IP ID的值相同,TTL不变。上述分析完全符合交换机被物理环路的表现特征,因此确定机房的网络风暴是由于交换机被物理环路所导致。

⑵ 交换机的配置

经过检查发现,学生实验之后,将一根线的两端连接在了同一台二层交换上,如图6所示,将f0/13和f0/14直接连接。经检查,该交换机上的生成树spanning-tree协议没有启用,在交换机存在物理环路的情况下没有阻塞其中的某一个端口,从而导致数据被重复转发。

图6 交换机线缆错误连接

4 故障解决

4.1 针对三层锐捷交换机IP地址冲突的问题

将其中一台三层锐捷交换机上VLAN 1接口的IP地址设置为192.168.1.201,这样就解决了网络中出现ARP扫描警告的问题。为了避免广播风暴,启用两台交换机spanning-tree协议,使用spanning-tree enable。修改配置后,发现网络中的ARP请求报文减少,网络中没有出现大量的ARP请求报文。

4.2 针对二层思科交换机网络物理环路的问题

在二层思科交换机上启用生成树spanning-tree协议,spanning-tree enable。并恢复实验环境,将错误的接线拆除,至此网络速度恢复。使用科来网络分析系统,重新监测网络,发现广播流量每秒包数恢复到15个,网络环境恢复正常。

5 结束语

机房在网络运维中出现了很多问题,其中较常见的问题是学生错误连接线缆导致广播风暴的问题。本文通过科来网络分析系统收集的报文信息,从网络环路、蠕虫病毒攻击、ARP扫描和欺骗三种方面分析网络特征,并通过特征比对,快速定位出网络故障,从而解决机房访问门户网站速度慢的问题。门户网站访问速度问题比较复杂,在网络管理中需要理解特殊的网络特征和参数,并逐一排查,从而正确定位故障并解决问题。

参考文献:

[1] 科来软件.CSNA网络分析认证专家实战案例[M].西安电子科技大

学出版社,2013.

[2] 李晓杰,徐峰,卢斌.ARP病毒的方法与措施[J].煤炭技术,2007.26

(9):109

[3] 马宜兴.网络安全与病毒防范(第5版)[M].上海交通大学出版社,

2011.

[4] 陈忠平.网络安全(网管天下)[M].清华大学出版社,2011.

[5] (美)艾伦,陈征等译.网络工程师维护和故障排除手册(原书第2版)[M].

机械工业出版社,2010.

猜你喜欢

故障排除局域网
轨道交通车-地通信无线局域网技术应用
基于VPN的机房局域网远程控制系统
基于虚拟局域网的收费系统网络构建
基于802.1Q协议的虚拟局域网技术研究与实现
局域网性能的优化
AK—10型起动机启动困难排除方法
拖拉机液压悬架系统故障原因及排除
拖拉机喷油泵工作原理及故障排除
110kV变电站运行故障与排除对策分析
家庭无线局域网的测试方法及应用