端口聚合引发的汇聚交换机故障
2020-11-11湖南工业大学现代教育技术中心郭兆宏李强
■ 湖南工业大学现代教育技术中心 郭兆宏 李强
编者按:笔者在对一些用户进行更换汇聚交换机时,遇到了部分网络连接不通的问题,最后查明是因交换机两边端口聚合配置的原因而引发的。
笔者单位1台汇聚交换机8606链接7栋楼网络,且已经在线运行12年了,近期需要进行更换。单位计划使用1台半新8605E进行替换,原8606与核心交换机只有1条千兆线路,更换后准备增加到2~4条万兆线路。
在更换之前准备好新增加的光路、旧设备的配置备份、新设备配置修改、线路标记等工作,可在替换时笔者却遇到了部分楼栋用户网络不通的故障,最后查明是因交换机两边端口聚合配置的原因而引发的。
更换前的准备工作
在准备更换这台汇聚交换机前,单位规划与核心交换机之间使用2~4条线路,已经在线的1条,计划再增加2条。由于这台汇聚交换机8606与核心交换机在相距200 m左右的两栋楼内,这两栋楼没有直达光缆,需要通过中间室外的一个光交箱进行中转。因为以前笔者通过打红光方式跳接光路遇到过无法使光模块亮起来的情况,因此这次就在核心交换机拿出4个连续万兆光口,因使用的都是双蕊光模块,在每个发光蕊测试光功率正常后,将4个发光蕊接到4根光跳线上,另一头在测光功率都正常后再接到配线架上。
笔者到室外光交箱中检测发现,一蕊光衰过大,在换过一蕊后再把4路光接到8606所在楼。但因在8606所在机房测得光衰太大,换过多次蕊才把4路光打通。因其间光路质量不好,两端标号不一致且开始笔者只带了一台光功率计,需要2头往返测试,最后2个人花了一天时间才打通这2栋楼的新增4蕊光路(在跳接光路时最好两端同时用光功率计测试,接通时先用红光测试通过后再测光功率)。
将8606交换机的配置备份,各端口线路打好标记,替换的8605E清空配置并导入8606配置,修改接口为聚合端口,在核心交换机上也做好2个光口聚合。
因8606所在机房是十年前旧机房,有很多不用的光跳线和网线跳线,笔者和同事两个人又花了一天时间清理掉了不用的光跳线和网线,清出4蕊以前备用这两栋楼的互联线路,做好标记。
更换汇聚交换机时遇到的故障
更换过程是先将8605E的两个聚合端口用新接的4蕊光先接到核心交换机上,接口地址先用一个临时地址测试,马上发现一个光模块不亮,在8605E上换光模块或端口都无效,测试发光正常但收光很弱。笔者再到核心交换机上换光模块,在核心交换机上发现光模型号有两种,把一对蕊两端换成同型号后,并换掉光跳线再次测试还是光太弱,也换过新端口都无法使这一路光模块亮起。
笔者在核心机房正好看到以前2蕊备用蕊是在清理8606所在机房时清理出来并标记的,通过红光测试后发现是通的,就临时在地板上接光跳线到核心交换机上,在8605E上对应的这条备用线路所接的端口上光模块灯亮了,在核心交换机上可以Ping通8605E。
因机柜空间充足,笔者把8605E放在8606上面,开始换线路,将原来的接口地址换到聚合端口上,8605E与核心交换机设备间Ping通了,Ping出口设备也是通的。但当用笔记本接到8605E上一个电口却网络不通,检查配置是正确的,而检查8605E发现最早接通的上联端口是shutdown的,原因未知。
笔者马上将其打开,再测试笔记本电脑的网络通了,可通过笔记本电脑连接远程服务器打开非常慢,基本不可能在远程服务器上面操作。通过检查8605E的配置是正常的,各接口地址都正常,接线也都按标记接好且各端口都是UP的,到7栋楼的交换机都能ping通。到故障用户所在的交换机上查看都正常,8605E的上联聚合口是通的,2个物理口都是UP的,聚合口接口数据也有,再检查发现8605E上面显示有“aggregateport load-balance src-dst-ipl4port”,马上将其删除,再次连接远程服务器,非常快速打开了。
但还是有用户显示有故障问题,主要集中在A楼的用户无法认证,或认证后网络不通。笔者登录A楼的交换机检查发现都正常,但发现A楼交换机上Ping核心交换机不通。因此笔者准备回核心机房查找原因,同时把原来接8606的上联线也接到8605E上。
端口聚合配置不对引发部分用户网络不通
笔者到核心机房查看发现故障较多的A楼交换机全不在线,而在8605E所在机房时却可以远程登录A楼的交换机。于是笔者将核心交换机和8605E交换机远程重启,之后发现A栋楼的交换机在线,而B、C、D栋楼的交换机不在线,故障范围扩大了。
通过查看路由发现,策略路由到B、C、D栋不通。由于以前发生过配置接口地址时子网掩码两端并不一样造成OSPF路由无法启用的故障,于是笔者检查8605E,与A栋对比,并与以前A、B、C、D栋交换机配置备份对比,都是正常的,配置正常,下面的交换机是正常的,8605E配置正常,故障应在核心交换机上。
再检查核心交换机,笔者发现后来接的备用线路的端口没有配置聚合组号,可能是前面为测试光路转换光模块光跳线时也换过新端口,且接线时使用了新端口。笔者马上将这个Up接以前备用线的端口改成聚合端口,再检查OSPF路由B、C、D栋楼IP在线,检查B、C、D栋楼的交换机都是通的且可以远程登录了。再次认证服务器上7栋楼的用户IP都存在,在出口上可以看到7栋楼的IP流量,至此故障全部解决。最后在核心交换机上将原来接8606的线路也换到万兆光口,并把端口做聚合,这样8605E有三条万兆线路与核心交换机相连。
总结
此次更换用户的汇聚交换机,遇到部分用户断网现象,实际是因端口聚合引发的。首先是核心交换机因为光路质量的原因换过端口,而以前备用线路接的端口并不在聚合组内,从而造成从8605E传输来的部分数据进入核心交换机后无法进入聚合组内。其次是新换上的8605E不明原因使聚合组内一个物理端口关闭,在经发现后立即打开。再次是因为新换上的8605E上面的aggregateport loadbalance src-dst-ip-l4port负载匀衡问题,核心交换机实际只有一个端口能传输数据,另一端口因不在聚合组内而无法传输,在取消这个负载匀衡后网络通了一部分。最后是检查路由不通,就花时间检查路由相关配置,没有注意到聚合组内每个端口的配置。因此以后一定要注意聚合端口组每个物理端口配置要保持一致,同时要注意每个物理端口的状态。另外在跳接光路时最好在两端同时用光功率计测试,接通时先用红光通过后再测光功率,两端的光模块尽量一致。