破解广播风暴
2018-11-09
交换机作为局域网连接的主要设备,成为应用普及最快的网络设备之一。在日常网络运维过程中,充分了解和掌握网络的流量模式,是能否发挥交换机作用的一个非常重要的因素。因为使用交换机的目的就是尽可能地减少和过滤网络中的数据流量,所以如果网络中的某台交换机由于配置不规范,需要转发接收到的所有数据包的话,交换机就无法发挥优化网络性能的作用,反而降低了数据的传输速度。
笔者单位的一台交换机端口流量达到100%,正在准备进行链路扩容的时候,仔细观察到端口广播包异常,根据这一现象,将交换机设备互联端口中的默认VLAN删除后故障排除。
故障现象
图1 网络拓扑结构
近日,网管中心通告一台专线交换机端口流量超越阈值,根据网管中心的通报,我们立即对设备的使用状态进行查看。使用show命令查看到端口的利用率入方向已达100%,按照常规做法,我们会立刻对端口进行扩容,但是根据现有网络状态进行分析,该交换机主要承担某单位的专线接入工作,该专线业务比较单纯,并没有新增的数据业务,为什么端口的流量一下子猛增上来呢?
通过网管平台查看最近一个月的交换机端口流量情况,发现流量是从两天前开始上升起来的。咨询专线单位,得到的答案是,最近没有新增业务。那么流量增加肯定存在问题。
故障分析
为了尽快搞清楚故障的原因,首先梳理下网络拓扑结构,具体的网络拓扑结构如图1所示。
从图1可以看到,专线汇聚交换机A承担着各分支点的数据汇聚,以及将数据转发至专线单位分部,同时又有一条链路将该专线资源上传至专线总部。端口利用率100%的交换机端口即我方数据机房的专线交换机A连接专线单位分部的交换机B端口。
根据拓扑结构很容易得知,交换机A的入方向对应的是B交换机出方向。根据这一具体的故障现象,需要分析故障产生的原因,在交换机A上执行命 令display interface GigabitEthernet 4/0/31,查看到该端口的广播报文很多,而且广播报文甚至超过了端口的单播报文数量。端口上的广播报文从何而来呢?同单播和多播相比,广播几乎占用了子网内网络的所有带宽。网络中不能长时间出现大量的广播帧,否则就会出现所谓的“广播风暴”。
广播风暴是指当广播数据充斥网络无法处理,并占用大量网络带宽,导致正常业务不能运行,甚至彻底瘫痪。一个数据帧或包被传输到本地网段上的每个节点就是广播,由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪,这就是广播风暴。广播风暴是网络长时间被大量的广播数据包所占用,使正常的点对点通信无法正常进行,其外在表现为网络速度慢。出现广播风暴的原因有很多。要避免广播风暴,可以采用恰当划分VLAN、缩小广播域、隔离广播风暴,还可在千兆以太网口上启用广播风暴控制,最大限度地避免网络再次陷入瘫痪。
根据我们对广播风暴的简单了解,接下来就开始进行故障处理。首先使用命令display currentconfiguration interface GigabitEthernet 4/0/31查看下专线交换机端口的配置,具体查看命令即:
根据两侧交换机端口的配置,我们可以发现配置存在不规范的地方,首先端口允许通过的VLAN是全部,其实该端口并没有多少VLAN,所以这里我们需要规范地配置业务VLAN。其次交换机端口还需要限制VLAN1通过,VLAN1是该品牌交换机的默认VLAN,如果对VLAN1没有需求,需要将该VLAN1进行删除,否则如果网络拓扑过大,使用的交换机过多,网络架构复杂后,VLAN1就会在网络中形成巨大的广播风暴,从而会引起网络拥塞。
故障解决
根据这一思路,接下来就更改一下端口的配置。具体配置即:
上面我们完成了专线交换机的端口配置,用相同的方法再修改一下专线分部交换的端口配置。完成这些操作后,再一次使用命令display interface GigabitEthernet 4/0/31查看端口的广播包以及端口利用率,其中广播包得到了实质性的下降,而端口利用率从原来的100%下降至20%,网络通道得到了明显的改善,这样网络就得到了优化。
经验总结
上面我们从端口的利用率居高开始入手,通过对专线业务实际情况和网络拓扑的分析,并使用show命令查看端口存在广播包过多的情况,并对广播报的产生进行了分析,得知端口配置不规范,存在默认VLAN1不规范使用的情况。最后,通过对配置的修改,达到了网络优化的目的。
后期,我们通过调研得知,专线单位交换机是最近刚刚更换的,在配置和我方互联端口时,由于专线单位网管人员不熟悉业务,采取了端口VLAN全部通过的办法,巧合的是我方交换机端口也是VLAN全部通过,从而引发网络广播风暴。针对此次网络的处理思路,我们计划对现网所有网络设备进行默认VLAN的清理,从小处着手,一步一步地对网络进行优化。