VMware服务器虚拟化中的热备与恢复技术
2016-02-22顾景民时阳
顾景民 时阳
【摘 要】本文介绍了vmware ESXI虚拟化集群技术以及vmware虚拟服务器的备份和恢复。
【关键词】虚拟化;VMware;ESXI;HA;SRM;备份;恢复
1 服务器虚拟化技术
服务器虚拟化技术是当下流行的一种技术,是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机资源的利用率。
在虚拟化技术出现之前,每台主机只能使用一个操作系统,在同一主机上运行多个应用程序通常会发生冲突,而采用部署多个应用中间件的方式,将有可能导致主机系统资源利用率降低,硬件成本高昂而且不够灵活。通过采用虚拟机技术,将管理操作系统和应用程序有效分离,分别作为单一的个体运行。并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。可以实现IT资源的动态分配、灵活调度、跨域共享,提高IT资源利用率,使IT资源能够真正成为社会基础设施,服务于各行各业中灵活多变的应用需求。
2 利用VMware HA工具实现服务器的热备
VMware,Inc是一家可以提供服务器、桌面虚拟化的解决方案公司,在虚拟化和云计算基础架构领域处于全球领先地位,所提供的、解决方案可通过降低复杂性以及更灵活、敏捷地交付服务来提高IT效率。VMware众多虚拟化技术中,HA不仅可以实现虚拟机的热备,还可以实现虚拟机的集群,资源的动态分配。
VMware HA将一组物理主机合并为一个具有共享资源池的群集,HA监控群集中的所有主机。一旦某台主机发生故障,VMware HA会立即响应,并在另一台主机上重新启动受影响的虚拟机。每一台VMware ESXI服务器配有一个HA代理,持续不断地检测群集中其他主机的心跳信号。ESXI主机每隔五秒就会通过服务主机的网络连接发送心跳信号。假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号,那么该主机就被默认为发生了故障或者与网络的连接出现了问题。在这种情况下,原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。反之,如果一台主机无法接收到来自群集的其他主机的心跳信号,那么该主机便会启动一个内部进程来检测自己跟群集中其他主机的连接是否出现了问题。如果真的出现了问题,那么就会中断在这台主机上所有正在运行的虚拟机,并启动预先设定好的备用主机(图1)。
图1
VMware HA的群集具有以下功能:
(1)当虚拟主机发生硬件故障时,将为故障切换容量范围内所有正在运行的虚拟机提供自动故障切换。可以在无需任何人员干预的情况下自动检测服务器故障和重启虚拟机。
(2)VMware HA可以提供动态的、智能的资源分配和虚拟机优化。
(3)VMware HA支持易于使用的配置和使用Virtual Center进行监控。HA确保该容量总是可用的(在指定的故障切换容量限制内),以便重启所有受服务器故障影响的虚拟机(基于为虚拟机配置的资源预留)。
(4)不间断地监控容量利用率,并“预留”备用容量以便能够重启虚拟机。当未发生故障时,虚拟机可以完全利用备用故障切换容量。采用VMware HA后,对于虚拟主机的维护工作将减少50%以上,同时利用HA的资源监控和分派功能在较短的时间内了解具体应用对资源的要求。
3 利用VMware SRM实现灾难恢复
VMware vCenter Site Recovery Manager(SRM)是一个业务连续性和灾难恢复解决方案,可以计划、测试和执行一个站点(受保护站点)和另一个站点(恢复站点)之间 vCenter 虚拟机的恢复。它提供了用于灾难恢复管理、无中断测试和自动化故障切换的功能,可以自动在服务器群和灾难恢复站点之间进行自动化故障转移,也可以在两个包含活动工作负载的站点之间的故障切换。使用SRM能实现恢复计划的设置、测试和执行等关键要素的简化和自动化(图2)。
图2
使用SRM实现灾难恢复的流程如下:
(1)设置恢复基础架构:SRM将指导用户完成连接到远程站点和正在使用的存储复制软件这一过程。另外,还可将生产资源(包括计算和网络资源)映射到恢复站点上的相应资源。
(2)创建恢复计划:SRM提供了直观界面,可帮助用户针对基础架构的各种故障切换情形和不同部分创建恢复计划。用户可以将虚拟机挂起或关闭,以释放资源供恢复过程使用。用户还可以指定虚拟机的启动顺序,设置自动执行用户定义的脚本,并能根据需要确定暂停恢复过程的位置。
(3)测试恢复计划:SRM通过使用存储阵列的快照功能并将虚拟机连接到用户的隔离测试网络,自动在恢复站点上创建无中断且隔离的测试环境。它会自动执行要在实际故障切换时使用的恢复计划,并在测试完成后清除测试环境。测试结果可保存起来,以便随时查看和导出。
(4)自动执行故障切换:一旦管理员从VMware vCenter Server启动了恢复计划,SRM即会自动执行恢复计划中的步骤,以确保恢复过程的执行与当初的设计完全一致。管理员可以了解整个执行过程。但为了保证灾难恢复的有效性及可操作性,在部署SRM之前,首先必须对如下关键的问题进行仔细地规划,否则将严重影响SRM恢复的有效性。
3.1 虚拟机布置
对于VMware SRM,简单地将所有的虚拟机存储在一个SAN当中是远远不够的。对于成功的SRM部署,虚拟机在存储区域网络(SAN)中的位置也是十分重要的。
为什么虚拟机位置十分重要?首先,虚拟机位置可以影响SAN的复制。VMware SRM依赖于SAN提供的复制技术。VMware SRM不能管理或者提供这种技术;它需要的只是其可用、恰当配置和可操作性。大多数SAN复制技术在逻辑单元号(LUN)层进行复制,意味着只能以整个LUN决定是是否复制。这样的结果是,组织必须确保需要通过VMware SRM保护的虚拟机被存放于同一个可被复制的LUN当中(否则SRM将不能提供保护)。一些组织可能会在第一次安装和配置SAN复制时考虑解决虚拟机放置问题。如果没有,就需要在安装SRM之前解决这个问题。可以使用VMwareStorage VMotion实现在没有宕机的情况下将虚拟机在数据存储间进行迁移。
其次,虚拟机位置重要的原因是VMware SRM在操作时需要同时移动整个LUN(或者数据存储)。在SRM故障转移过程中,有些虚拟机不能同时进行移动,就需要将它们放置于不同的数据存储当中。只有当灾难恢复过程中,位于同一个数据存储的所有虚拟机可以同时进行故障转移的情况下,才可以将虚拟机放置于同一个数据存储当中。同样,Storage VMotion可以在没有产生宕机的情况下将虚拟机移动到恰当的数据存储之中。
为了解决这个注意事项,组织需要在文档中明确规定虚拟机在SAN中的存储位置。一旦位置被确定下来,就需要对一些虚拟机进行迁移,比如将虚拟机移动到可复制的LUN之中,实现通过VMware SRM进行保护。直到SRM实施过程中才会进行另一部分必要的迁移。拥有这些文档可以简化之后的迁移过程。
3.2 规划灾难恢复计划
VMware SRM可以为非虚拟化资源提供集成特性,比如运行脚本来控制网络设备。VMware SRM的正确定位为:灾难恢复策略中的一个组成部分。组织仍然必须定义灾难恢复事件,比如怎样才能构成一个合格的灾难恢复事件,组织仍然必须定义多个角色来表明灾难事件中的任务分配。VMware SRM不能替换这些角色,但是VMware SRM需要组织这些定义来使得这项技术可以适用于灾难恢复策略。寻求以技术作为策略的组织最后会发现很难达到项目的成功准则。
虽然VMware SRM提供了服务器群资源整合功能,但SRM只是企业中一个全面的灾难恢复战略的一部分。仍然需要一个为数据中心余下的物理机器制定一个完善的灾难恢复计划。用户必须明确定义灾难恢复事件以及处理灾难事件相关的各种角色和任务,并将这些内容与SRM结合起来,以便使SRM能根据企业的实际需求制订模型化的灾难恢复战略。
4 总结
利用VMware技术实现服务器的虚拟化,以及热备和恢复,充分发挥了服务器的硬件性能,能够在确保企业投入成本的同时,提高运营效率,节约能源降低经济成本和空间浪费,对于发展迅速,成长规模大的用户来说,可以通过服务器虚拟化技术带来更多的经济效益。
【参考文献】
[1]Whats New in VMware Data Recovery 2.0 Technical Whitepaper[M].VMware:Jul 12,2011.
[责任编辑:王楠]