数据中心服务器虚拟化平台扩容实践
2020-05-11张颖,林洋
张 颖,林 洋
(四川省地震局,四川 成都 610041)
四川省地震局依托汶川8.0级特大地震灾后恢复重建项目,基于VMware虚拟化软件搭建了服务器虚拟化平台(林洋和张颖,2015),整合了信息、应急、GPS、市县综合服务等业务系统。目前运行的虚拟机共计169台,服务器虚拟化程度达90%,极大地提升了应用部署、服务上线效率;显著提高了应用系统的可靠性和故障恢复速度;实现了业务系统的快速迁移和备份功能。随着业务需求的不断增加,各业务系统的服务功能不断升级、服务范围进一步扩大,对服务器虚拟化平台的计算资源、存储资源均提出了更大的需求,虚拟化平台的资源已经接近饱和状态。为保证虚拟化平台的稳定运行,持续为各业务系统提供可靠支撑,对虚拟化平台的计算资源和存储资源进行了扩容。
1 虚拟化平台扩容
1.1 虚拟化平台架构
数据中心虚拟化平台扩容沿用之前的系统架构,由承载虚拟机的宿主机、磁盘阵列、管理服务器、管理终端、网络设备等构成,扩容增加宿主机、磁盘阵列、管理服务器、迁移服务器。宿主机通过SAN网络连接磁盘阵列,通过IP网络进行管理、提供网络连接及服务。虚拟化平台架构如图1所示。
图1 虚拟化平台架构
虚拟化软件依然选用了VMware,原虚拟化平台采用的是VMware vSphere 4.1,与原宿主机的CPU版本具有良好的兼容性,在6年的连续运行中未出现任何软故障,但在管理功能及支持的虚拟机硬件版本上与新版本存在较大的差距。综合考虑不同版本软硬件兼容性、运行的稳定性、管理的便捷性及应用需求等多种因素,最后采用最新版本VMware vSphere 6.0搭建了新的虚拟化计算资源池,新资源池的多台主机通过FC SAN(光纤存储网)与原资源池共享磁盘存储空间,通过主机的网络接口接入与原资源池相同的三个业务网段。计划两个资源池并行运行一段时间,随着原资源池的宿主机逐渐淘汰,新资源池宿主机不断增加,最终整合成一个资源池运行。因VMware vSphere 4.1与VMware vSphere 6.0的软件版本跨度过大,不能采用同一管理服务器进行管理,新增管理服务器部署vCenter Server 6.0,管理员需通过终端部署的vSphere Client 4.1及vSphere Client 6.0分别对虚拟化平台两个资源池进行管理,并通过部署迁移服务器,实现虚拟化资源池间的虚拟机迁移。
1.2 设备配置
数据中心虚拟化平台主要设备及配置如表1所示。
表1 主要设备及配置
1.3 扩容流程
虚拟化平台扩容主要包括资源规划、新计算资源池搭建、应用迁移三个重要阶段,虚拟化平台扩容流程如图2所示。
图2 虚拟化平台扩容流程
1.3.1 资源规划
资源规划是虚拟化平台扩容的重要步骤之一,做好资源规划才能有条不紊地进行后续步骤,主要包括设备安装位置规划、存储规划、网络规划、SAN网络规划、虚拟机资源规划等。存储规划:服务器本地存储,做RAID5,用于安装ESXi;磁盘阵列,用于存放镜像、模板、虚拟机及备份。网络规划:每台服务器作为宿主机连接到四台不同VLAN的交换机,其中VLAN101、VLAN102和VLAN103用于虚拟机的网络接入和服务,VLAN100用于虚拟化平台的管理。每台宿主机采用2个物理网卡连接同一个VLAN,起到网络流量分担和线路备份的作用。规划好宿主机物理网口及以太网交换机接口之间的对应连接关系,并分配管理IP。SAN网络规划: 每台宿主机分别连接两台SAN交换机,保证设备冗余、链路冗余,定义好宿主机物理光口及SAN交换机接口之间的对应连接关系。虚拟机资源规划:综合考虑当前应用服务处于高峰时段的CPU、内存、磁盘使用情况,预估应用将增加的资源需求量,尤其是对磁盘空间的需求以及应用系统计划升级所需的资源,做好资源的合理分配和预留。虚拟化平台扩容组网及设备连接拓扑见图3。
图3 设备连接拓扑
1.3.2 新计算资源池搭建
新计算资源池搭建包括宿主机的安装配置、 线缆连接、管理服务器安装配置、配置数据中心及集群、网络配置、SAN交换机及存储配置等步骤。(1)宿主机的安装配置。根据资源规划,将服务器按照规划位置进行上架,加电。将每台服务器本地磁盘做RAID5,以降低因磁盘故障导致的宿主机故障,安装虚拟化软件vSphere Client 6.0 server,并对主机名、IP、DNS与密码等进行必要的配置以满足实际需求。(2)连接线缆。根据资源规划中对以太网络及光纤网络以及接口的规划,进行线缆的连接,包括服务器到各业务网段交换机的网络连接,以及服务器到光纤交换机之间的SAN网络连接。按规范进行电源线、网线、光纤跳线等标注,在不影响线缆工作状态与性能的前提下做到整洁与美观。(3)管理服务器安装配置。安装vCenter服务器操作系统suse 11(64位),配置vCenter数据库,部署vCenter server管理软件。(4)配置数据中心及集群。通过vSphere Client连接vCenter server,建立数据中心,创建并配置集群,设置HA、DRS、DPM、EVC等参数;连接主机,将主机添加到适当的集群,并根据规划配置主机的网络、NTP等参数;根据业务需求等建立适当的业务资源池,配置资源保留与限额等。(5)网络配置。通过vSphere Client连接vCenter server,配置每台主机的管理网络和业务网络,创建VMkernel 网络用于VMware Vmotion,创建Management Network,用于主机管理,分别建立vSphere Distributed Switch对应不同的vlan,并定义相应的网卡适配器。(6)SAN交换机及存储配置。分别配置两台SAN交换机,将每一台新增服务器与磁盘阵列在SAN交换机上的接口配置成一个zone,完成5个zone的创建后将其全部加入同一个zoneset,最后激活zoneset生效,完成新增服务器到磁盘阵列的连接。
根据资源规划,对存储进行LUN划分,定义新增主机组并映射。通过vSphere Client连接vCenter server,在其中一台主机上添加存储器,将从磁盘阵列映射的存储LUN添加给服务器并进行挂载、命名,添加完成后新建的数据存储会自动添加到集群内的所有主机。因VMware ESX Server 6.0支持的最大LUN已达62 TB,较VMware ESX Server 4.1支持最大LUN 2 TB已有极大的提高,为新虚拟化平台在磁盘的分配及使用上提供了更大的便利,也在一定程度上降低了磁盘碎片产生,提高了利用率。
1.3.3 虚拟机跨资源池迁移
由于两个计算资源池采用的虚拟化软件VMware ESX Server 6.0和VMware ESX Server 4.1存在较大的版本跨度,资源池之间无法直接跨平台管理,在此利用配有FC HBA卡的服务器通过安装ESXi6.0虚拟化软件、接入共享磁盘阵列,搭建了迁移服务器。通过迁移服务器将原计算资源池的业务系统迁移到新资源池中运行,解决了虚拟机及模板跨资源池迁移问题,为之后虚拟化平台间的平滑过渡提供了解决方案。具体的实现方法如下:(1)将配有FC HBA卡的服务器安装EXSi6.0虚拟化软件,作为迁移服务器,通过SAN网络连接磁盘阵列。管理新资源池的数据中心,新建一个集群vCluster-Transport,添加迁移服务器。(2)配置磁盘阵列的映射主机组,将新部署的迁移服务器添加至ESXi4.1的主机组中。重新划分一个临时中转LUN,LUN空间需满足待迁移虚拟机的磁盘空间需求,将LUN映射给VMware ESXi4.1主机组,并通过在ESXi4.1的主机上创建中转存储LUN,使迁移服务器和原资源池都能看到此中转LUN。(3)在原资源池中,使用VMware Storage VMotion功能将需要迁移的虚拟机及模板从原数据存储克隆或者迁移到中转存储LUN上,完成后关闭需要迁移的虚拟机并从清单中移除。(4)在新资源池中,使用VMware Storeage VMotion功能将需要迁移的虚拟机从中转LUN克隆或者迁移到新资源池的数据存储上。将发生迁移的虚拟机从新资源池的数据存储中找出并添加到清单并启动运行,完成迁移。
2 应用经验
2.1 应用规划
服务器虚拟化平台扩容是虚拟化平台运维的重要内容,扩容方案既要满足当前及未来几年业务系统的运行需求,也要兼顾平台进一步扩展的可行性。并非所有的应用都适合被虚拟化,在虚拟化之前需要做好规划,哪些应用适合被虚拟化,哪些不适合。不适合被虚拟化的应用包含:附加有特殊硬件才能运行的应用,对内存、CPU、磁盘空间有极高要求的应用,极重要但未在虚拟化平台上成功测试的应用,对时间同步有高精准度要求的应用,存在涉密或敏感数据的高安全级应用等。
2.2 迁移
已经陈旧且混乱无序的应用,如果通过P2V直接迁移至虚拟机的话,很容易造成未来更多兼容性上的问题,所以最好还是全新安装虚拟机系统(杨帆,2015)。无论是P2V迁移还是从原虚拟化平台迁移至新平台,发生迁移后,一定要保留原应用版本并行运行一段时间,确认没有任何问题后再清除原应用版本;如果是极其重要的应用,建议保留原应用版本作为备用,一旦出现故障,方便切换恢复。
2.3 资源规划
虽然虚拟化给资源增减提供了便利,但如果管理员毫无规划地进行空间的分配会导致物理磁盘产生大量的磁盘碎片。如果没有做好资源管理和规划,供需就会失衡,导致资源浪费或资源不够用,直接影响虚拟化平台上虚拟机应用的运行效果及正常扩容需求,做好资源规划可以避免成本浪费、更好地保障虚拟化平台及虚拟机应用稳定运行。
2.4 虚拟机的生命周期管理
随着虚拟化程度的进一步提高,业务应用对虚拟化平台的依赖程度进一步加强,虚拟化平台起到了越来越重要的信息支撑平台作用,因此更要重视和加强日常的监控和运维管理。虚拟化平台管理员应做好虚拟机整个生命周期的管理,即从虚拟机的创建、资源扩容、配置修改、应用下线后移除等。加强管理有助于资源的合理利用,对分配的过剩资源及时回收,对资源不足的虚拟机及时增加资源,为各应用系统提供更稳定的平台。
3 结语
通过对虚拟化平台的计算资源及存储资源进行扩容,将CPU核心数由原来的192颗扩展至432颗,内存由原来的256 GB扩展至1536 GB,存储由原来的80 TB扩展至160 TB,解决了扩容前出现的内存瓶颈、存储容量无法满足业务系统扩容需求以及因资源不足造成的可靠性降低等问题。扩容后对业务系统在虚拟化平台上的分布做了进一步的优化,实现了在任意两台物理主机出现宕机的情况下,平台上的业务系统不受影响,仍然可以正常运行。虚拟化平台的扩容进一步提高了平台的服务能力及稳定性,为各业务系统的安全可靠运行、功能升级和新业务上线提供了有力保障。