基于Vsphere的高可用性方案在地震业务系统中的设计与应用
2016-12-27方伟华周蓝捷林鸿杰
方伟华,周蓝捷,汪 豪,林鸿杰
(厦门地震勘测研究中心,福建 厦门 361021)
基于Vsphere的高可用性方案在地震业务系统中的设计与应用
方伟华,周蓝捷,汪 豪,林鸿杰
(厦门地震勘测研究中心,福建 厦门 361021)
以福建省简易烈度计数据处理系统为例,介绍了福建省简易烈度计数据处理系统的体系流程,引用Vsphere的高可用性解决方案,重点阐述了数据处理系统中服务端的高可用性体系架构与配置,对当前业务系统进行优化,实现了数据处理系统的5个主要功能,有效地保障地震业务系统高可连续性。
Vsphere ;高可用性方案;地震简易烈度台网;业务连续性
0 引言
近年来,随着地震行业面向公众的业务增多以及自身业务提出的需求,要求地震业务具有高可连续性。以福建省地震预警项目中简易烈度计台网系统部署为例,项目按照每个乡镇布置一个台站,评估地震对乡镇的影响;按平均台间距10 km左右设置;单台平均定位精度小于5 km,最大不超过8 km;首台触发3~5 s发布首报预警信息;运行维护率≥90%。总体计划分2期实施,1期在地震活动性较强或者地震影响较大的区域,选择人口较多和经济发达区域进行设备安装。在完成第1期较高密度建设以后,开展第2期建设,在部分城市稀疏布点。对于这套由1 000台站点组建的台网系统,数据中心服务器将面临巨大的数据交换访问压力,需要研究如何更好地提高系统运行的高可用性与业务的连续性。本文将引用系统运维中的高可用技术,来提高系统业务可靠性、维护率、时效性,并通过部署与试运行,解决业务系统运维中存在的以下各种问题[1]:
1)业务系统服务器出现日常维护时(计划宕机、硬件升级),停机时间较长,如何缩短维护时间,提高业务连续性是我们所面临的挑战。
2)出现突发故障时(如硬件宕机、中毒、黑客攻击)需手动检测故障发生点,无自动检测机制来实现平滑过渡,需提高业务自动恢复能力。
3)传统系统备份繁杂,且不易操作,无可靠的系统容灾机制对当前业务做冗余保障。
高可用性技术以解决数据业务连续性为目的,是一项集虚拟化、集群、数据容灾、虚拟机迁移、容错、负载均衡等多项功能为一体的综合体系架构方案。本文介绍采用基于Vsphere整体高可用性解决方案,搭建基于B/S方式可视化的福建省简易烈度计台网数据中心高可连续性系统,旨在提高业务系统连续性[2]。
1 架构工具选择
1.1 高可用性技术介绍
高可用性已成为未来IT的发展方向之一,实现高可用性的有效方法就是虚拟化整体解决方案,是指通过尽量缩短因日常维护操作(计划内)和突发的系统崩溃(计划外)所导致的停机时间,以提高系统和应用的可用性。高可用性系统是目前行业内防止核心数据中心业务系统因故障停机的最有效手段。
1.2 工具平台选择
目前国内外公司高可用性解决方案很多,比如有微软的Hyper-V,VMware的vSphere,红帽的KVM。VMware Vsphere因其产品相对其它产品资源更丰富,国内外网站相关学术交流平台多,问题更易得到解决[3]。
应用VMware Vsphere自身的vSphere HA功能可提供中断快速恢复和连续可用性,以最小化或消除非计划停机时间,从而轻松提高为应用程序提供的基准级别,且以更低成本和更简单的操作来实现更高级别的可用性。使用vSphere可以实现:
1)独立于硬件、操作系统和应用程序,提供更高可用性;
2)减少常见维护操作的计划停机时间;
3)在出现故障时提供自动恢复。
2 系统架构
福建省简易烈度台网设备规模为1 000台左右,通过中国电信的MPLS VPN组网方式将数据传输至厦门地震勘测研究中心与福建省地震局。每个观测台站提供2 M SDH链路带宽供烈度计记录数据上报使用,省局与厦门地震勘测研究中心分别采用一条10 M光纤汇聚专线接入中国电信VPN平台,用于收集各观测台站数据。对于部分未辅设SDH链路的区域,采用3G信号进行辅助接入数据处理中心采用基于Earthworm的地震报警软件框架系统(图1)。
图1 福建省简易烈度计台网业务系统拓扑图
提高数据处理系统的业务连续性,采用Vsphere HA的高可用性方案,需要在7台高性能的服务器上进行实施部署。DC域服务器主要用于系统环境中用户权限的统一管理;Vcenter服务器主要用于ESXI虚拟主机的统一管理,对资源层做资源动态分配管理,应用Vsphere的HA,VMOTION,FT组件等功能来实现业务的高可用和业务连续性;SQLserver数据库服务器用于存储Vcenter统一管理中所产生的数据;2台ESXI主机实现集群功能;基于Openfiler搭建的NAS共享存储用于实现虚拟机的存储备份功能。我们通过使用VMware Data Recovery组件来实现异地备份虚拟机的功能[4](图2)。
图2 系统架构示意图
3 软件需求设计
重要硬件配置见表1:
表1 软硬件配置及功能说明
4 功能与实现
为了保证简易烈度台网业务系统的连续稳定性,我们采用基于Vsphere平台高可用性方案,对原有系统进行调整与优化,以实现数据处理系统的高可用性。系统部署在福建省地震行业网,部署后系统的主要功能主要包括以下5个方面(图3):
图3 基于Vsphere HA功能规划图
1)HA(高可性)功能模块:主要解决在系统遇到计划停机时,缩短维护时间,提高业务连续性作用。
HA的主要目的是在日常维护中,让业务中断时间尽可能短的功能。它是将多台主机组建成一个故障转移集群(Cluster),运行在集群上的服务(或VM)不会因为单台主机的故障而停止。vSphere HA 利用配置为群集的多台 ESXi 主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性[5-6]。vSphere HA通过在群集内的其他主机上重新启动虚拟机,防止服务器故障。持续监控虚拟机并在检测到故障时对其进行重新设置,防止应用程序故障。
2)容错(FT)功能模块:主要解决在系统遇到突发故障时,起到对系统的热备作用,使得备用系统可平滑过渡,保障业务连续性作用。
FT是在业务出现突发故障时所采取的保障措施,使得业务平滑过渡,无中断现象, Fault Tolerance 通过确保在虚拟机的指令执行的任何时间点,主虚拟机和辅助虚拟机的状态均相同来提供连续可用性。主机容错FT业务是使用 ESXi 主机平台上的 VMware vLockstep 技术来完成系统连续可用。通过vLockstep使主虚拟机和辅助虚拟机执行相同顺序的 x86 指令来完成此过程。主虚拟机捕获所有输入和事件(从处理器到虚拟 I/O 设备),并在辅助虚拟机上进行重放。辅助虚拟机执行与主虚拟机相同的指令序列,而仅单个虚拟机映像(主虚拟机)执行工作负载。如果运行主虚拟机的主机或运行辅助虚拟机的主机发生故障,则会发生即时且透明的故障切换。正常运行的ESXi 主机将无缝变成主虚拟机的主机,而不会断开网络连接或中断正在处理的事务。使用透明故障切换,不会有数据损失,并且可以维护网络连接。
3)数据备份功能模块:主要解决系统数据容灾备份作用,保证数据的可靠性。
VMware Data Recovery软件是运行在Esxi主机上的一个虚拟机,实现VM周期异地备份,不仅能起到数据备份作用,同时起到了地震业务功能的备份,可以在最短的时间内恢复地震业务功能,并将其信息收集在还原点中。如果发生数据丢失或损坏,它可以将单个虚拟文件或整个虚拟机还原到前一状态。
4)业务快速恢复:主要实现主业务系统出现突发情况时,业务能够快速恢复,减少了传统系统部署费时、费力的情况,只需要一个模板即可轻松恢复原有的业务。
通过配置一台Earthworm数据处理系统,常规做法需经过安装系统、配置相关参数、费时费力,通过该模块功能,仅需将一台部署好的系统配置成模板即可。
5 系统部署关键配置与说明
实现Vsphpere高可用性的前提,是在系统环境中搭建Vcerter,才可以实现HA、FT、Vmotion、负载均衡等高级功能。Vcenter的作用是对所有ESXi主机进行统一的管理与调度的工具,如果只是单一ESXi主机,它的功能就相当一台Vmware workstation一样,无任何高可用性功能。它的搭建需建立在DC(域环境)、SQL Server 2008、DNS环境下进行。
5.1 HA高可用性的实现
与其他群集解决方案不同,vSphere HA 提供基础架构并使用该基础架构保护所有工作负载,无需在应用程序或虚拟机内安装特殊软件,所有工作负载均受 vSphere HA 保护。配置 vSphere HA 之后,不需要执行操作即可保护新虚拟机,它们会自动受到保护。建立HA的关键配置:①相同的共享存储;②相同的虚拟网络配置;③DNS正确的解析。
HA配置中接入控制为参数设置的的重要环节。在福建省简易烈度台网环境中共有1 000个简易烈度计观测站点。一般1台Earthworm服务器可以接收400左右个数据通道的汇聚数据。2016年福建省预计先布设300台烈度计,1台设备有3个通道数据,总计900个数据通道,因此需在1台Esxi主机上搭建3个VM,分别接收闽南、闽西、闽北3个区域的数据,2台Esxi主机搭建成一个簇,实现HA功能,每台主机有36G内存,单个VM Earthworm接收站消耗5G内存,系统消耗1GB,主机闲置18G。当其中1台主机宕机或常规维护时,启用群集允许的主机故障数目为3台,即可在不断记的情况下实现3台接收站同时维护(图4~5)。
图4 HA功能规划与设计图
图5 集群的故障恢复参数配置图
5.2 主机容错FT的实现
主机容错FT业务是使用 ESXi 主机平台上的 VMware vLockstep 技术来完成系统连续可用,在进行透明故障切换之后,将重新生成新的辅助虚拟机,并将重新建立冗余。整个过程是透明且全自动的,并且即使 vCenter Server 不可用,仍能保证工作。建立FT关键配置(图6):
1)在建立FT双机热备之前,要确保虚拟机的虚拟CPU是1颗1核心。
2)其次是要建立FT功能的主机必须有VMlernel网络用于FT。
3)在群集设置中,满足FT的群集要求,创建并启用vSphere HA 群集,在群集设置中勾选“打开vSphere HA”。
4)检查ESXi主机的CPU是否支持FT指令,如果不支持,会在打开FT时报错。
5)右击一个虚拟机,并在弹出的快捷菜单中选择 Fault Tolerance > ,打开 Fault Tolerance。
6)开启FT需要使用精简置备的磁盘,所以在开启FT前,vCenter会自动转换虚拟机磁盘。
7)转换之后,特定的虚拟机将指定为主虚拟机,并在另一台主机上运行辅助虚拟机。现在,主虚拟机已启用了容错功能。虚拟机运行在esxi01上,FT保护副本运行在esxi02上。
图6 Vsphere架构FT功能配置图
5.3 数据备份的实现
利用VMware Data Recovery软件,用户可自行决定何时运行VMware Data Recovery任务及还原点的保存时间,方便恢复数据。例如,用户可以调度备份在凌晨进行,得到的还原点可以保留数周、数月或数年(图7)。
5.4 业务快速恢复功能实现
通过在新机器中部署Earthworm数据处理系统,不用任何配置,只需将模板转换成新的虚拟机即可,相当于电脑中的复制粘贴功能,方便高效,整个恢复过程只需10分钟(图8)。
图7 系统备份配置示意图
图8 模板部署业务系统示意图
6 结束语
6.1 应用效果比对分析
经过一段时间的测试,系统运行良好,稳定性与可连续性较高,对于系统运维过程中所面临的计划宕机、非计划宕机、数据容灾的问题都能得到有效的保障,各项测试任务如表2所示。
表2 各项功能比测
6.2 总结
地震行业内存在大量的业务系统运维工作,十三五规划以来,地震系统的重点工作是地震预警,直接面临社会服务效力的问题。地震系统业务连续性需要得到有效保证,解决传统的运维模式存在的诸多问题,如业务连续性差、系统恢复工作效率低下、数据灾备费时费力、统一监控难等。本文通过在福建省简易烈度计数据处理系统中应用Vsphere 高可性解决方案,具有高效便捷经济的特性,使得地震行业内的业务运维连续性问题得到有效解决,适于在整个地震行业内进行推广与借鉴。
[1] 许高攀,曾文华.高可用性系统技术研究[J].微计算机信息,2010,26(15):6-7,5.
[2] 孙晓蓉,牛忠宾.计算机系统高可用性解决方案[J].计算机与网络,2004(10):53-54,59.
[3] 李琳,祁天.服务器虚拟化技术探讨-Hyper-V与VMware的分析与比较[J].科技传播,2010(11):114,118.
[4] 李刚,周利霞,宋军,等.基于 VMware Esxi 软件的服务器虚拟化技术在天津地震监测网络中的应用[J].震灾防御技术,2011,6(3):311-318.
[5] 刘震宇.基于 VMware vSphere4.0的PC服务器资源池构建[D].大连:大连海事大学,2010.
[6] 杨斌,马朝晖,郝志勇.虚拟技术在地震应急指挥技术系统中的应用[J].震灾防御技术,2012,7(3):313-321.
Design and Implementation of Seismological Business System Based on the High Availability Scheme of Vsphere
FANG Wei-hua,ZHOU Lan-jie,WANG Hao,LIN Hong-jie
(Xiamen Research Center of Seismic Exploration,Xiamen 361021,China)
In this paper,the flow of the data processing system of facile seismic intensity meter in Fujian Province is introduced.On basis of the high availability scheme of Vsphere,according to the architecture and configuration of the high availability server in the data processing system,we optimize the current business system,implements the five major functions of a data processing system to ensure the comprehensive high availability and business continuity of the seismological business system in Fujian Province.
Vsphere; high availability; facile seismic intensity reporting network; business continuity
方伟华,周蓝捷,汪豪,等.基于Vsphere的高可用性方案在地震业务系统中的设计与应用[J].华北地震科学,2016,34(4):28-33.
2016-04-14
福建省简易烈度计地震预警项目(2015DZLDY004)
方伟华(1982—),男,工程师,主要从事的工作地震业务系统运维工作.E-mail:258279496@qq.com
P315-391
A
1003-1375(2016)04-0028-06
10.3969/j.issn.1003-1375.2016.04.005