大规模数据中心迁移关键技术研究
2018-12-07眭建新陈毅波胡其辉
眭建新 陈毅波 胡其辉
[摘 要] 围绕大规模数据中心迁移过程的需求和难题,科学合理地制定了系统分级分类迁移方案,帮助企业完成大规模数据中心迁移工作。文章主要技术内容和创新之处在于:1)提出了基于软硬件资源池的大规模数据中心的分批快速整体迁移方法;2)提出了大规模数据中心迁移中的设备利旧决策方法;3)提出了大规模数据中心迁移过程中分级分类分批次的时间优化调度方法;4)提出数据中心服务连续性无缝迁移方法。
[关键词] 数据中心;迁移;技术
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 19. 061
[中图分类号] TP308 [文献标识码] A [文章编号] 1673 - 0194(2018)19- 0142- 03
1 背景及問题
大规模数据中心承载了营销、生产、财务管控等百余套信息系统,对于企业业务的正常开展和稳定运行起着至关重要的作用。随着公司信息化建设的深入开展,原有数据中心在空间布局、电气消防、空调以及安防等方面均不能适应信息化建设的需求。新老数据中心迁移工作将面临诸多问题,需要进行统筹考虑和协调,管控和保障该项工作的顺利进行。大规模数据中心迁移的信息系统不仅数量多、范围广,而且工作任务重、时间紧、难度大。
通常,新数据中心通过综合利用资源池和云计算技术,以软硬件资源池形式实现对硬件资源的集中管理、按需分配,从而提高资源利用效率,降低信息化建设成本,提升运维管理水平,为集中式数据中心的建设提供安全、稳定、柔性的硬件基础设施服务。数据中心迁移工作涉及软硬件资源、网络、监控配置和安全保障等各方面的配合,涉及大量与业务部门和上下级单位之间的协调工作,这些专业技术人员跨多个部门,来自多个不同的供应商。另外,信息通信系统搬迁过渡技术复杂、工作量大,存在一定安全风险。因此需要研究并制定一套科学的搬迁方案,研究快速且平稳可靠的迁移方法,保证数据中心安全平稳地过渡到新数据中心,实现总体管控和协调。
2 总体思路
数据中心承载了营销、生产、财务管控等百余套业务系统,原有数据中心在计算机软硬件资源、空间布局、电气消防、能耗、安防等方面均不能适应信息化建设的需求。公司新数据中心建成后,需要实施数据中心整体迁移,但数据中心迁移工作面临的挑战包括:(1)本次迁移的信息系统超100套,涉及虚拟机超400台,物理设备超1 200台,信息系统之间集成关联关系复杂,如此大规模的数据中心系统包含大量未虚拟化的应用和数据,且包含大量商品化套装软件,只能采用数据中心整体迁移的方式;(2)搬迁过程面临如何高效利用资源、缩短时间、降低成本的挑战,在迁移过程中,还要采用充分利旧减少购置和租赁的方式进行成本控制;(3)数据中心承载了公司的核心业务,为了保障业务的正常开展和稳定运行,数据中心迁移还需快速和尽量保障业务连续,搬迁过程涉及多部门、多供应商的协调调度与管控难题;(4)搬迁过程存在风险,特别是系统长时间停运和数据丢失风险,数据中心迁移对于安全性、风险控制和架构优化与调整也提出了更高的需求。
本文围绕公司大规模数据中心迁移过程中的成本控制、架构调优,以及业务连续性、数据一致性、风险点管控等难题,科学合理地制定了系统分级分类迁移方案,圆满完成了迁移工作,总体设计思路与技术路线如图1所示。
3 技术方案
3.1 大规模数据中心整体迁移方法
本文迁移研究采用了一种基于虚拟化技术和两阶段重新部署技术的方法,对公司的大规模数据中心,进行了分批快速的整体迁移。这种方法的基本思想,是将待迁移的数据中心设备、应用与数据等,首先分为进入虚拟资源池的资源和系统,以及进入物理资源池的资源和系统[1]。对于进入虚拟资源池的系统,采取虚拟化技术,在新数据中心构建虚拟资源池环境后,将原数据中心中由物理服务器承载的信息系统或原资源池承载的信息系统,分别通过P2V(Physical to Virtual)和V2V(Virtual to Virtual)迁移技术,实现原数据中心的系统至新数据中心虚拟资源池的迁移。物理资源池采用了两阶段重新部署的方式,租用了两台小型机作为过渡介质,首先将原数据中心中需要利旧,但又不能中断服务的服务器上的应用和数据分别通过重新部署和存储复制,迁移到过渡介质上,然后过渡介质作为一个冗余系统,与原系统一同上线运行;然后将原系统停机,进行物理搬迁,在新信息中心重新运行后,将过渡介质上的数据再进行存储复制,回到原来所在的物理服务器上。当所有利旧设备及其上的应用和数据都以这种方式迁移完毕后,再将过渡用的小型机返还。由于租用的开销远少于新购的开销,因此这种方法可有效地降低迁移成本。对于迁移过程中可短时中断服务而不影响业务连续性的设备、应用和数据,则采用停机搬迁后重新部署的方式,完成其迁移。
3.2 大规模数据中心迁移中的设备利旧决策方法
针对大规模数据中心中大量硬件设备利旧的决策问题,提出了一种基于专家系统的计算机系统健康状况评价和设备利旧决策的方法[2]。该方法的主要步骤如下:(1)自动收集各计算机系统的日志文件;(2)利用程序对日志文件进行自动处理和分析,从中提取与计算机性能密切相关的指标,包括系统错误信息、给定时期内系统的内存和CPU利用情况的数据、给定时期内系统的硬盘空间使用情况等;(3)根据各计算机所属的系统对其赋予不同的重要性等级。一共分为三个重要性等级:“非常重要”、“重要”、“普通”;(4)根据专家经验构建设备健康状况评价专家系统,采用IF-THEN规则式专家系统,且评价针对计算机系统的单项性能指标进行开展,评定等级为“良好”、“一般”、“较差”。例如专家系统的知识库中可能包含类似“CPU利用率<12% -> CPU处理能力=良好”、“近一年发生过重大故障 -> 可靠性=较差”这样的规则;(5)利用设备健康状况评价专家系统,对各个计算机系统的各个单项性能指标进行自动评定;(6)根据专家经验构建设备利旧决策专家系统,同样采用IF-THEN规则作为知识表示方式。利旧决策中的决策规则通常都是根据多项性能指标的等级综合评定得到可利旧等级,可利旧等级指明了该设备可被使用的最高重要性等级。例如,决策规则“NUM(=较差)=0 AND NUM(=一般) < 2 AND 可靠性=良好 -> 非常重要”表示,若设备的健康状况被评价为较差的指标数量为0(即没有任何指标被评价为较差),且被评价为一般的指标数量小于2,则该设备可以被利旧用于非常重要的使用等级;(7)针对不同使用场合,对各项指标赋以不同的优先级别。如果对某个使用场合,有多台设备可被利旧使用,则优先使用在优先级别较高的指标上指标值较高的设备。根据设备利旧决策专家系统和各使用场合的指标优先级别,即可最终确定可利旧设备的使用场合,并根据利旧前后使用场合的重要性等级的差异,可以判断出设备是提高使用等级利旧,或维持使用等级利旧,还是降低使用等级利旧。
3.3 大规模数据中心迁移过程中分级分类分批次的时间优化调度方法
系统无缝迁移是否及时、准确,将会直接影响到新系统能否及时上线,也是影响新系统能否稳定运行的重要前提和根本保证[3]。因此,该信息系统无缝迁移中涉及各类要素不仅数量大,而且类型多,既包括硬件设备与系统,也包括软件系统与工具;既涉及硬件设备采购、运输、安装与调试,也设计软件系统的采购、开发、测试和部署;既需要满足时限要求,又需要兼顾经济成本,還需要估计可能的风险[4]。为了在一个统一的模型框架下来研究和优化信息系统的无缝迁移方案,需要对上述诸要素进行适当的抽象与描述,以满足普适性的模型的需求[5]。
基于上述分析,本文使用了一种时间最优信息系统无缝迁移优化模型(TOISM)。模型建立如下:
(1)机房集合:R={r1,r2,…,rm},其中rj表示第j个机房,j=1,2,…,m;(2)信息系统集合:S={s1,s2,…,sn},其中si表示第i个信息系统,i=1,2,…,m;(3)迁移系统序列集合:MS={ms1, ms2,…,msn},其中msi={msi1, msi2,…,msik}表示系统si中各设备的迁移顺序序列;(4)可搬迁机房集合:MSR={msi1, msi2,…,msik},其中msi={msij1, msij2,…,msijk}表示系统si中各设备可迁移的机房;(5)搬迁时间矩阵:T,tij∈T表示第i个系统si搬迁至机房j的时间;(6)迁移时间:f(Wt)=∑mstjtij,即求出对应无缝迁移优化方案所需时间;(7)迁移目标:min f(Wt),即找出时间最短的无缝迁移优化方案。
3.4 数据中心服务连续性无缝迁移方法
本文的数据迁移采用磁盘阵列复制技术为主,数据库复制技术为辅的迁移过渡方式。在新数据中心部署一台新购置的阵列,将老大楼对应阵列数据复制到新数据中心的阵列上,供新数据中心重新部署的应用系统数据库访问使用。该方法的优点在于数据复制速度快。支持数据的增量复制,能够最大限度地减少业务停机时间,即先配置新老环境数据复制关系,完成大部分数据的同步工作,停机后仅需完成增量数据的同步,极大地减少了停机时间,保证了业务连续性,尤其是对营销等业务数据量较大的系统,效果尤其明显。同时,由于磁盘阵列复制技术还带有数据校验功能,可检测两端数据是否同步完全,对迁移数据的有效性和完整性提供了有效保障。灵活使用主机复制技术在B机房同配置重构一套与A机房A应用服务集一致的B应用服务集,通过应用服务代理技术加入代理后台服务池中。A、B应用服务集同时对用户提供应用服务。待B应用服务集运行稳定后,将A应用集从代理后台服务池中移除,完成系统应用服务的无缝迁移。用户通过域名访问代理应用服务,整个应用迁移对用户业务应用无影响。
4 结 语
本文提出基于软硬件资源池的大规模数据中心的分批快速整体迁移方法,解决了系统迁移中涉及业务连续性、安全性、物理隔离性等方面的高效调度、强制性约束难题,顺利完成了大规模设备、海量数据的平稳迁移。提出了大规模数据中心迁移中的设备利旧决策方法,突破了大规模信息系统决策迁移中大量硬件设备健康状况的多维度评价和利旧决策的难题,实现了低成本迁移。提出大规模数据中心迁移过程中分级分类分批次的时间优化调度方法,最大限度地降低了因搬迁暂停服务造成的社会影响,提高了搬迁时效。建立了数据中心服务连续性无缝迁移技术,极大地减少了停机时间,做到了数据零差错,保证了业务连续性。能够帮助大型企业实现大规模数据中心稳定、平滑、无缝迁移。
主要参考文献
[1]李喆,万小健. 企业级信息系统数据迁移方法 [J]. 计算机系统应用, 2011(1):182-184.
[2]吴淑玮,闫训超,曹齐. 企业级信息系统数据迁移 [J]. 计算机系统应用,2013(7):53-57.
[3]赵贵菊. PCEDM模型的数据迁移方案设计及实施 [J]. 数字石油和化工,2009,(3):49-53.
[4]赵钦,周丹. 政府办公自动化信息系统数据迁移解决方案 [J]. 广西科学院学报,2008(4):354-355,359.
[5]梁秀娟. 医院信息系统升级中的数据迁移方案与实现 [J]. 中国数字医学,2007(11):51-53.