与ESXi主机相关的网络故障
2017-03-08刘建臣
在实际管理和使用VMWare vSphere虚拟平台时,可能会遇到和网络配置相关的故障。例如,某台ESXi主机出现网络连接异常,包括网络通讯时断时续或者瞬间中断等。解决方法是,进入ESXi主机的DCUI接口下执行“ping xxx.xxx.xxx.xxx”命令,其中的“xxx.xxx.xxx.xxx”为别的ESXi主机的IP,来检测网络的连通性。如果Ping探测成功,说明在物理层面没有明显的问题。因为在执行Ping探测时,实际上是从虚拟交换机的VMkernel端口发送出去的,数据包经过物理网卡,再到达外部的物理交换机上。Ping检测成功,说明这些环节没有问题。
如果探测失败,并且经检测硬件并不存在故障的话,就需要按照特定的流程进行逐级的排查。既然是EXSi主机出现网络故障,就必须先从ESXi主机配置入手检测。例如,检测EXSi主机的管理网络是否存在配置错误,物理网卡的双工速率和物理交换机不匹配,网卡到交换机之间网线存在断路,NIC Teaming(多网卡绑定实现负载均衡)的策略存在问题(例如将其负载均衡策略设置为IPHash,但是上行交换机没有配置与之对应的端口组聚合等)等情况时,都可能出现网络连接不通畅的问题。
当排除了ESXi主机可能潜在的问题后,接下来就需要对物理网络进行检测,例如网卡是否存在兼容性问题、网络设备是否存在硬件故障,网络性能是否稳定等。一般来说,EXSi主机自身配置的问题,导致网络连接异常的概率较大。
在其本机命令行界面中执 行“exxcfg-vswitch –l”命令,来检测标准网络交换机、网卡和端口组的配置信息,据此可以检测其是否存在问题。执行“esxcli network vswitch standard portgroup list”命令,对标准虚拟交换机端口组的VLAN ID的配置信息进行查看和检测。执行“esxcfg-nics -l”命令,来检查网卡的速率和双工模式,以及网络连接状态信息。如果其处于“Down”状态,说明链路层存在问题。
根据检测到的故障点,可以有针对性地执行对应的修正命令,来处理不同的故障问题。
当检测到vSS虚拟交换机存在问题,可以执行“esxcfg-vswitch -a xxx”命令,来添加新的虚拟交换机,其中的“xxx”为其名称(以下与之相同)。
当检测到端口组出现问题,可以执行“esxcfgvswitch -A zzz xxx”命令,在目标交换机上来添加名为“zzz”的端口组。
如果是上行链路的问题,可以执行“esxcfg -vswitch-L vmnicx xxx”命令,来添加名为“vmnicx”的网卡编号,来创建新的上行链路。
如果是端口组的VLAN存在问题,可以执行“esxcli network vswitch standard portgroup set -p zzz –v vlanid”命令,修改标准虚拟交换机上指定端口组的VLAN ID,其中的“vlanid”参数为具体的ID编号。
如果网卡的速率或双工模式异常,可以执行“esxcfg-nics -d duplex -s speed vmnicx”命令,来对特定的网卡设定合适的速率和双工模式,其中的“speed”参数为速率值,“duplex”参数为双工模式。
如果是网络连接状态处于“Down”状态,就需要检测网卡连接情况,将其调整到物理交换机的合适端口上。如果可以Ping通别的EXSi主机,而且网络连接配置都不存在问题,就要考虑到可能是NIC Teaming策略配置存在问题。
在端口组属性编辑窗口左侧选择“Teaming and failover”项,在 右 侧 的“Load balancing”列表中查看选择的策略项目。如果选择的是“Route based on IP hash”项,但是物理交换机机没有配置与之对应的端口组聚合,就会导致问题的发生。可以选择“Route based on originating virtual port”项,进行策略的调整。如果排除了虚拟层面的问题,那就需要确定网络故障是否由硬件故障导致的。
执行“esxcfg-nics -l”命令,来查看网卡的型号等信息。之后登录到VMWare的官网上查看HCL列表信息,来确定其兼容性是否符合要求。执行“lspci -p”命令,在返回信息中会显示相关的网卡是否处于异常状态,来检测是否因为硬件导致的故障。如果ESXi主机出现网络连接时断时续等情况,有可能是因为网络堵塞等问题造成其性能过低引发的。执行“esxtop”命令,打开网络信息查看界面,可以查看和管理网络,物理网卡,虚拟机对应的网络连接情况,包括网络传输和接收速率等。如果对域高速局域网来说,实际的传输速率很低的话,就说明网络性能较低,需要深入检测并排除相关问题,恢复网络的正常性能。此外,使用“resxtop”命令也可以查看网络运行信息。