交行卡中心虚拟机灾备难点及措施探讨
2021-07-19黄楠
黄楠
摘要:该文在调研災备系统背景及原理的基础上,阐述了交行卡中心虚拟机及网络现状,分析了目前交行卡中心虚拟机灾备系统设计当中的相关难点问题并针对交行卡中心虚拟灾备系统的建立提出了在数据复制方案以及网络切换方案选择上的对策方案。
关键词:灾备系统;交行卡中心;数据复制;网络切换方案;对策
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2021)14-0240-03
1 绪论
1.1 研究背景
灾备系统是保证企业业务正常运转,为企业和用户提供优质服务的重要组成部分。电子计算机技术的发展为更多的企业带来业务上的发展机遇,但受限于机器设备的落后,在很大程度上影响了工作的正常运行,常常出现企业相关系统瘫痪的现象,一些企业的业务无法正常开展而使得企业遭受了巨大的损失。目前交行卡中心有A、B、C、D四级灾备系统,其中A级灾备系统与B级灾备系统在灾备管理要求上一致,但是A级灾备系统要求在实施之前必须先按照B级和C级的管理要求实施灾备管理,在此基础上为A级灾备系统的实施提供数据、应用的技术信息支持。
1.2 灾备系统原理
多个虚拟机如果要在一台物理服务器上实现同时运行需要依托虚拟化技术为基础的云平台,依托虚拟化云平台可以实现硬件设备与软件系统之间的强耦合,同时带来了封装、分区及隔离等多方好处。灾备系统很重要的一点就是虚拟机备份的问题,备份主要涉及虚拟存储、虚拟机系统状态等两个方面的内容,而内存、虚拟磁盘及其他配置信息组成了虚拟机存储。
2 交行卡中心虚拟机及网络现状
目前,交行卡中心已经建立的虚拟机灾备系统当中,包括两个重要组成部分,虚拟机应用部分以及相应的网络架构设置部分。通常情况下,灾备系统当中,虚拟机实际上是作为信息备份、数据存储的应用操作点,各地区之间的网络架构通过各个点位连接在一起,使得虚拟机各个点位有效结合在一起,成为一套有机统一的灾备系统。本文主要对交行卡中心虚拟机应用现状以及网络架构现状两个方面进行分析。
2.2 交行卡中心虚拟机现状
虚拟机作为计算机平台与用户终端之间创建的一种联系纽带,可以让用户带来操作软件,也可以模拟硬件设备的实现。
目前,交行卡中心的灾备系统使用的都是VMware虚拟机和SRM系统。该系统的总体架构共分为4层:第一层为数据存储层,所有虚拟机都存放在数据存储层中。第二层为物理机层,是所有虚拟机载体。第三层为虚拟机层,每台虚拟机为一个单独的业务系统。第四层为虚拟映射设备层,包括虚拟映射串口、虛拟映射USB等。
2.2 网络现状
交行卡中心主体网络结构分为两个部分,办公测试网络区域和生产网络区域,两个网络区域依靠管理网络、虚拟机交互网络和VMotion网络三部分来实现区域之间信息数据的交互传递。管理网络主要是为了方便部门管理人员对两个子网络进行信息数据的查询与监管;虚拟机网络和VMotion网络则是实现异地的信息备份与复原。交行卡中心生产网络区域的结构设置与XX企业生产区域核心机房的地理位置设置相类似。在交行卡中心办公测试网络区域之中,设置了办公VCenter区域网络以及测试PaaS VCenter两个子网络区域,而在交行卡中心生产网络区域之中设置了生产VCenter、生产金京PaaS VCenter和生产富特PaaS VCenter三个子网络区域。
3 灾备方案流程及设计难点
3.1 设计方案流程
交行卡中心在建立整体灾备方案之前,首先要明确构建灾备系统的目标与原则;其次需要建立完善的灾备中心,需要包含同城灾备中心与异地灾备中心;接着建立起重要业务恢复灾备等级;最后建立灾备系统的IT基础架构。在建立网络IT基础架构方面,主要包含了三项内容:(1)建立良好的存储系统;(2)建立性能完善网络整体结构;(3)建立良好的数据库系统。
3.2 设计难点
(1)同城、异地灾备中心的网络切换
在交行卡中心灾备系统的建立过程中,由于不同的机房之间的网络IP地址不同,因此要解决同城、异地灾备情况下进行合适的网络切换的问题。在进行网络切换时,往往需要考虑的因素包含了从网络层、存储层、主机系统层三个层次的网络切换问题。当选择不同的灾备方案时,具体的网络切换需求也有所不同,也就是说当生产中心出现灾难时,选择同城灾备与选择异地灾备时,会产生不同的网络切换方案。
(2)不同机房的虚拟机之间的数据复制
在交行卡中心灾备系统正常使用的过程之中,不同的虚拟机之间的数据需要进行复制,此复制过程关系到各个站点机房(生产中心、同城灾备中心、异地灾备中心)之间的数据信息能否正常且高效地传递,因为,良好稳定的数据复制传输才可以有效保证虚拟机灾备系统的正常运行,交行卡中心现有的灾备系统中,虚拟机之间的位置关系、网络架构较为复杂,因此就需要设计出完善的虚拟机数据复制过程。
4 虚拟机灾备系统建立对策
4.1 数据复制方案的设计与实施
4.1.1 通过存储进行复制
通过综合考虑,我们选择了通过存储来实现进一步复制的方案,将所有需要灾备管理的虚拟机所在的LUN通过存储复制到灾备端。正常工况下,灾备端虚拟机的LUN呈现只读的模式,会通过脚本的方式把所有虚拟机清单建立;非正常工况下,例如处于灾备演练状态或者主站点出现灾难而需要进行灾备管理的时候就需要通过脚本启动虚拟机。
(1)方案拓扑
(2)灾备流程
灾备流程主要针对非正常工况下需要进行灾备管理的状态,虚拟机会实现从主机房切换到灾备机房,通过存储复制方式,由脚本把虚拟灾备机房挂载到灾备的VCenter的清单中,然后开启虚拟机,再通过脚本的方式配置IP地址、网关和DNS,然后进行应用验证其是否正常,最后进行业务验证。
(3)优缺点分析
优点是成本低,部署方便;缺点是恢复复杂,脚本套脚本,容易出错,耗时长,RTO没有保障。
4.1.2 通过SRM进行复制
交行卡中心虚拟机系统设计通过SRM进行VR复制,通过SRM进行调度恢复,在部署SRM服务器和vCenter、ESXi和VR版本实现兼容的前提下当遇到需要进行灾备管理的情况时,故障主站点如果要实现切换到同城灾备站点,只需要一个按钮,就可以按事先的设置方案进行切换,无须人工和脚本干预,IP地址和DNS都会按事先的设置方案自动配置。
4.1.3 方案选择
根据前期的调研和对比,我们使用SRM站点恢复管理软件的方式来做虚拟机同城灾备,因为需要灾备的虚拟机有400多台,后期可能因为系统的调整,需要做灾备的虚拟机会越来越多,怎么在满足监管要求的同时,做到满足业务的实际需求,做到操作便利都是需要进行考虑的问题。
4.2 网络切换方案选择
4.2.1 同城灾备网络切换
同城灾备实施全网切换的时候需要考虑网络层、存储层以及主机系统层三个方面的切换。
网络层:网络层的主要作用是当生产中心网络完全不可用的时候来实现所有分行的切换和连接。
存储层:储存层作为灾备中心储存数据的一层,当主机的存储设备被控制或者同步数据复制链路被断开后来进行自动切换。当同步数据复制链路恢复后,储存层中更新的数据会自动复制回生产中心的存储设备中。
主机系统层:同城灾备系统使用的是DNS机制,因此,主机系统层的应用访问可以平滑的在生产中心和同城灾备中心间迁移,无须进行切换。
4.2.2 异地灾备网络切换
网络层:当出现同城灾备中心及生产中心网络断开而无法服务时,所有的网点切换、分行及外联都由异地灾备中心的网络层进行连接。
存储层:异地灾备中心的主机持续进行远程复制(CRR)灾难恢复模式的时候,可对异地灾备中心的存储数据进行访问。当停止对异地灾备中心存储的访问的时候,再将全系统的同步数据复制关系进行重新恢复,来实现对更新的数据进行回切。等数据同步完成后通过对全系统的数据复制关系进行反转,最后恢复到原生产模式。
主机系统层:异地灾备的实现通过采用DNS访问方案,对原有应用服务的访问方式的IP地址进行修改实现。
4.2.3 DNS方案设计
本次DNS为硬件设备,DNS切换总体方案采用缓存递归和权威分离的架构,可以实现流量精细化的控制、区域之间的边界安全策略、满足客户端和服务端快速查询的需求以及分离DMZ区用于权威域名资产安全的管理。
本次部署的设备总计8台,数据中心划分为生产区、办公区、测试区。每台DNS设备生产端口均双上联交换,绑定模式为动态链路聚合,实现链路冗余。采用与负载均衡设备联动方式进行部署,所有的DNS由SLB提供VS访问入口,所有的服务端DNS主指向本区域SLB VS地址,备指向异地中心相同区域的SLB VS地址。
5 结束语
在灾备方案设计当中会牵扯到各种各样的虚拟化内容,包括机房的建设、网络方案的设计选择、DNS方案的设计选择、存储方案的设计选择等,这些内容都需要虚拟化的灾备和恢复方案。笔者在本次同城灾备的研究之中从前期的准备到方案调研、IP地址的变换、使用DNS方式等过程都经过了反复的论证最终得出适合交行卡中心的方案。在关于虚拟机灾备方案的选择之上,笔者以数据信息的复制与恢复、灾备系统各模块之间的关系、建立保护組等作为重点研究内容,在确定好最终网络方案后对其进一步做了实现。确保交行卡中心的虚拟机灾备系统的建设能够满足监管和实际业务的要求,当主机房发生故障时,可以快速切换到灾备机房,为交行卡中心的同城灾备系统的信息化、数字化、现代化建设,打下了良好的基础。
参考文献:
[1] 闫瑾,宫思明,姚丹,等.信息系统容灾备份技术探讨[J].信息与电脑(理论版),2020,32(12):46-48.
[2] 韩莹利.数据同城灾备系统的建设思考[J].数字技术与应用,2019,37(12):232,234.
【通联编辑:代影】