APP下载

虚拟机延迟很大为哪般

2018-12-24

网络安全和信息化 2018年12期
关键词:群集交换机端口

有客户联系笔者,说在监控程序里面看到虚拟机延迟非常大,让帮助检查一下。客户环境采用8台服务器(每台服务器配置256GB内存、6块 1.2TB 的 SSD)、2台万兆交换机组成的全闪存vSAN群集,拓扑如图1所示(图中画出了2台服务器,其他服务器未列出)。

初步检查判断是某台主机有问题

用户的管理流量、虚拟机流量以及vSAN流量由2台华为S6720万兆交换机分担,正常情况下不可能出现延迟的现象。下面是检查的过程。

图1 8节点标准vSAN群集

图2 172.16.1.4主机延迟较大

1.使 用vSphere Web Client登 录 到vCenter Server,在左侧导航器中选择vSAN群集,在右侧“主机”选项卡中查看主机状态,在清单中可以看到8台主机状态正常,主机CPU消耗、内存消耗都在正常范围以内;在“虚拟机”列表中看到虚拟机的状态正常;在“监控→问题→所有问题”中查看的有三条警告信息,其中有一条“网络延迟检查”的警告信息。

2.在“监控→vSAN→运行状况”的“网络→网络延迟检查”选项中的“网络延迟检查结果”表示172.16.1.4这台主机与其他主机延迟较大,其他主机延时较为正常,如图2所示。除此以外其他信息正常。

(3)在导航器中选中172.16.1.4这台主机,在“配置→网络→物理适配器”中查看物理网卡状态,查看到链路速度正常(10000Mb)。其他主机网卡状态及链路速度正常。因为现在检查到的问题是172.16.1.4这台主机与其他主机之间延迟较大,初步想法是先将这台主机下线检查,迁移数据与虚拟机到其他主机。

在迁移过程中发现新的问题

因为怀疑是172. 16.1.4主机有问题,所以想先将有问题主机下线,然后看故障能否解决。

1.在导航器中右击172.16.1.4主机,在弹出的快捷菜单中选择“维护模式→进入维护模式”。当前主机有4台虚拟机正在运行。

2.因为当前主机是vSAN环境并且想要下线检查,所以将进入维护模式前需要将当前主机上的虚拟机迁移到其他主机,选中“将关闭电源和挂起的虚拟机移动到群集中的其他主机上”,同时选中“将所有数据撤出到其他主机”。

3.当前环境是万兆网络的全闪存磁盘组vSAN环境,正常情况下迁移这4台虚拟机的数据到其他主机,应该很快完成,但直到10多个小时后仍然没有完成数据的迁移。在“群集→监控→vSAN→重新同步组件”中看到仍然还有2.03TB数据需要重新同步。

4.这时,笔者分析可能不是服务器的问题,而是其他问题引起的。登录vSAN主机的交换机,发现交换机的每个端口都被添加了如下两行配置。

询问管理员得知,因为有台机器大量向外发包,管理员为找出是哪个IP,对交换机进行了限速,但找到问题虚拟机后没有取消限速配置。

取消交换机端口限速故障解决

找到问题所在之后,将交换机端口取消限速即可。另外为了避免再有虚拟机对外发包对其他网络造成影响,可以将vSAN及虚拟化环境的交换机的“级联”端口进行限速。

1.在本示例中每台交换机的23、24与核心交换机级联,登录每台交换机,将1~22端口取消限速并保存配置即可。批量为1~22端口取消限速的命令格式如下。

2.交换机取消限速之后,再在“监控→vSAN→网络→网络延迟检查”中重新测试,此时已经没有延迟。

3.交换机端口速度恢复正常之后,数据同步很快完成。172.16.1.4进入维护模式。然后将该主机退出维护模式,至此虚拟机的IO延迟问题解决。

4.在“监 控 → 性 能→vSAN-虚拟机消耗”,将“时间范围”改为24小时,查看取消交换机限速6小时后前后速度对比可发现,取消交换机端口限速之后吞吐量增加、延迟减小到接近0的状态。

说明:交换机端口qos命令格式为:qos lr cir cir cbs cbs

“cir cir”表示承诺信息速率,整数形式,取值范围是64~接口自带带宽,例如Ethernet接口带宽为100000(100Mbps)、GE 接 口带宽为1000000(1000Mbps,1Gbps)、XG 接 口 带 宽 为10000000(10Gbps)。

“cbs cbs”表示承诺突发尺寸,整数形式,每次突发所允许的最大流量尺寸,设置的突发尺寸必须大于最大报文长度,单位是byte。

猜你喜欢

群集交换机端口
一种端口故障的解决方案
Cecilia Chiang, pioneer of Chinese cuisine
修复损坏的交换机NOS
端口阻塞与优先级
使用链路聚合进行交换机互联
基于自组织结对行为的群集机器人分群控制方法
浅谈ODX与动态群集
初识电脑端口
生成树协议实例探讨
PoE交换机雷击浪涌防护设计