隐藏的网关冲突突然来袭
2017-11-07
网络结构
笔者所在单位有一个大型数据中心,数据中心部署有一套内网VMware云桌面系统。该云桌面系统采用Trunk隧道上联,Trunk隧道引入VLAN 100和VLAN 130两个网段,VLAN 100作为VMware物理主机的管理网段;VLAN 130作为云桌面虚拟机地址网段。网络拓扑结构如图1所示。
在总核心与数据中心核心交换机上启用OSPF路由协议,全局只使用单区域0。总核心交换机上联其他单位的远端OSPF邻居,并通过Trunk下联各个楼层的办公接入交换机。数据中心核心交换机通过互联网段上联总核心,并通过Trunk下联数据中心服务器接入交换机。属于典型的区域数据中心+办公网架构。其中,云桌面系统就部署在数据中心机房内。这套系统运行还算稳定,然而,一个隐藏多年的网关冲突故障突然来袭。
图1 网络拓扑结构
故障现象
某天下班前,发现云桌面用户无法打开数据中心提供的众多服务。测试表明,数据中心服务正常,影响范围仅限于云桌面用户。从云桌面用户或者云桌面接入交换机上,只能Ping通自己所属的网关,Ping不通数据中心众多网关和应用地址。
故障排除
在排除云桌面系统本身的问题后,将排查重点转向网络故障。
从数据中心核心交换机上只能Ping通VLAN 100和VLAN 130网关,无法Ping通云桌面服务器。从云桌面上联的总核心交换机上能Ping通VLAN 100和VLAN 130网关和云桌面服务器。这样看,问题应该出在数据中心核心交换机与总核心交换机之间。
查看交换机路由表,发现总核心与数据中心核心交换机都显示VLAN 100和VLAN 130网段是直连路由。再对比检查配置,发现总核心与数据中心核心交换机竟然都配了一模一样的VLAN 100和VLAN 130网关。手工关闭数据中心交换机上的两个重复网关,故障消失。
故障原因
事后了解到,几年前,曾经做过把云桌面系统上联线路改到数据中心核心交换机的尝试,毕竟云桌面系统部署在数据中心机房内。但那次尝试因为个别云桌面用户无法登录而放弃,可数据中心交换机上配置的网关和接口都忘了清除。
为什么重复网关配置了多年,故障现在才出现呢?这与华三交换机的网关特性有关。查阅相关手册,关于VLAN虚接口有这样一段描述:“缺省情况下,当VLAN虚接口下所有以太网端口状态为Down时,VLAN虚接口为Down状态;只要VLAN虚接口下有一个以太网端口状态为Up,VLAN虚接口就为Up状态”。
也就是说,虽然之前在数据中心核心交换机上启用了两个重复的网关,因为VLAN内没有Up的二层接口,网关也没有Up起来,自然不会引起路由问题。网络科同事说,他们下班前接了一条灾备专线光纤到数据中心核心交换机上,这条专线端口采用port trunk permit vlan all命令引用了数据中心交换机上的所有网段,使得尘封已久的VLAN 100和VLAN 130网关被激活,才导致了本次故障。