APP下载

局域网内异地循环接管的灾备系统关键技术研究与设计

2018-07-13张锁董玉芹郭名芳王阳阳

河南科技 2018年16期

张锁 董玉芹 郭名芳 王阳阳

摘 要:信息系统搭载计算机技术获得飞速发展,在生产中的作用也越来越明显。短时间的信息系统突发性故障会造成严重的经济损失。因此,数据的容灾备份系统也显得尤为重要,其全面覆盖任意灾难系统,实现本地/异地灾备。本文建立强大的异地循环接管和灾备系统,在常规容灾技术实现的基础上,在异地局域网内引入循环接管模式,实现业务系统在发生灾难时仍能实现对外正常提供服务。

关键词:异地局域网;灾备系统;循环接管

中图分类号:TP309.3 文献标识码:A 文章编号:1003-5168(2018)16-0014-04

Research and Design of Disaster Preparedness System in Local Area Network

ZHANG Suo1 DONG Yuqin2 GUO Mingfang1 WANG Yangyang1

(1.Henan Institute of Metrology,Zhengzhou Henan 450008;2.Henan Institute of Product Quality Supervision and Inspection,Zhengzhou Henan 450047)

Abstract: Information system carrying computer technology has developed rapidly, and its role in production has become more and more obvious. The sudden failure of the information system for a short time will cause serious economic losses. Therefore, the disaster-tolerant backup system of data is also particularly important. It comprehensively covers any disaster system and realizes local/off-site disaster preparedness. In this paper, a powerful off-site circular takeover and disaster preparedness system was established. On the basis of the implementation of conventional disaster tolerance technology, a circular takeover mode was introduced in a local area network to achieve a normal service in the event of a disaster.

Keywords:local area network;disaster preparedness system;cyclic takeover

本文旨在闡述建立统一灾备运维监控管理平台,实现三地数据中心灾备状态的统一管理、监控及调度。通过容灾循环接管方案规划,整合数据备份、快照、系统恢复、灾难恢复、异地灾备和循环接管等多项功能[1]。利用现有技术开创性地对灾备系统关键技术进行剖析,以最经济的投入拥有高效、稳定、完备的应用即时保护。

1 容灾循环接管方案规划

容灾设备分别部署在第一和第二分部中心,制定优先级策略,实现应用层、处理层及存储层融合,具有良好的兼容性及扩展性。提供业务支撑能力,使相关应用系统也能迅速通过灾备系统快速启动,配合统一灾备运维监控管理平台实现业务的快速接管。

容灾系统网络架构如图1所示。

在三地分别配置三个节点,在本部生产中心(以下简称“本部中心”)、第一灾备分部中心(以下简称“第一分部中心”)和第二灾备分部中心(以下简称“第二分部中心”)三地分别部署,做到三地互备,满足三地应用级容灾,实现三地的数据实时同步。任一节点出现故障,其余两个节点都可以按照优先级即时接管业务,保证业务的连续性。具体循环接管形式如下。

①当本部中心、第一分部中心、第二分部中心及各链路均正常时,本部中心正常提供业务服务,并向第一分部中心和第二分部中心实时传输增量数据。

②当本部中心正常,第一分部中心、第二分部中心有一方或两方同时异常时,主要面临着系统宕机和断电的状况,仍由本部中心提供业务服务,待第一分部和第二分部恢复正常后,由本部中心延续宕机、断电前的断点进行增量续传。

③当本部中心、第一分部中心、第二分部中心各区域正常,但连接本部中心与第一分部中心或本部中心与第二分部中心的链路异常时,第一分部中心或第二分部中心将无法连接至本部中心进行办公。该种情况下,仍由本部中心提供业务服务,待链路恢复后,由本部中心延续断网前的断点对第一分部或第二分部中心进行增量续传;如果是本部中心与两个分部中心的链路异常,通过灾备系统实现本部中心生产数据库服务端的自宕机程序对自己进行保护性宕机(如停止数据库服务、应用系统服务和EXE文件等)。第一分部中心作为第一优先级执行相关的数据库系统、业务系统自动接管,待链路恢复后,由第一分部中心延续断网前的断点对本部中心进行增量续传,配置相关的回切策略进行计划内回切。

④当本部中心异常,第一分部中心、第二分部中心正常。本部中心采用双机双柜方式进行服务,任一服务器或存储宕机情况下,均不影响正常业务。若本部中心双机双柜方式不能提供服务,该种情况下第一分部中心作为第一优先级执行相关的数据库系统、业务系统自动接管,确保生产端和灾备端的数据一致性。通过灾备系统实现本部中心生产数据库服务端的自宕机程序对自己进行保护性宕机(如停止数据库服务、应用系统服务和EXE文件等),待本部中心异常解除后,本部中心自动成为灾备中心,由第一分部中心延续断网前的断点对本部中心进行增量续传,需配置相关的回切策略对本部中心进行计划内回切。

⑤当本部中心异常,第一分部中心接管后,也出现异常的情况。该种情况下,第二灾备中心执行相关的数据库系统、业务系统自动接管。通过灾备系统实现第一分部中心生产数据库服务端的自宕机程序对自己进行保护性宕机(如停止数据库服务、应用系统服务和EXE文件等),待异常解除后,第一分部中心自动成为灾备中心。由第二分部中心延续断网前的断点对本部中心、第一分部中心进行增量续传,同时故障灾备端应对故障前的数据进行校验,以确保数据的完好可用,完全保障备份数据的完整可用。完成切换后本部和第一分部客户端统一连接至第二分部中心办理业务。在本部恢复后可以配置相关的回切策略进行计划内回切。

2 技术指标的规范化设计

按照容灾循环接管方案规划的基本需求,对容灾系统研制和实施过程中的技术指标进行规范化设计,需要从以下几方面进行系统实施。

2.1 异常预警

在数据库数据或文件数据实时备份过程中若出现异常情况,均要能及时进行短信和邮件预警。短信预警,需提供相应的短信发送设备,并提供预警短信。

2.2 业务接管

在灾备中心接管业务后,在保证灾备中心业务不中断的情况下,实现数据的恢复。对于接管后的数据库数据,可以采用增量回传的方式进行数据恢复;对于接管后的文件/文件夹数据,在灾备中心接管后,记录变化文件/文件夹的改动记录,并采用增量回传的方式进行数据恢复。可运用循环业务切换功能,实现A/B/C三地主从顺序切换并互为灾备的功能要求。在本部中心出现故障后,第一分部中心或第二分部中心接管业务系统时,自动接管时间不大于15min。实现业务系统IP地址变更的情况下,各个客户端电脑访问业务系统的无感知。

2.3 数据恢复

灾备中心接管业务后,在保证灾备中心业务不中断的情况下实现数据的恢复。对于接管后的数据库数据,可以采用增量回传的方式进行数据恢复;对于接管后的文件/文件夹数据,在灾备中心接管后,记录变化文件/文件夹的改动记录,并采用增量回传的方式进行数据的恢复。在回切业务至生产中心时,要保证异地灾备中心接管的业务不停机,且数据以增量数据的形式从接管业务的异地灾备中心实时传输至生产中心。

2.4 断点续传

在主机写入数据的过程中断电,备份机应该具有和主机断电前一样的数据。当供电恢复后,自动校验存储和备份服务器上的数据,保证数据的准确性和可用性,应具备断点续传功能。

2.5 数据库同步

在不停止数据库服务的情况下,对数据库进行自动监控,将生产中心数据库的所有变化实时同步到异地灾备中心。以增量数据捕获的方式,可以将生產中心服务器上数据库的任何变化不受距离限制,以增量数据传输的方式实时同步到灾备中心,严格保证生产中心和灾备中心数据的一致性和完整性。

实现数据库实时同步,严格确保容灾数据库的可靠性、稳定性、一致性;实现数据库操作语言(DML)复制,在生产数据库上对记录进行增、删、改操作可自动、实时复制到容灾数据库;实现数据库定义语言(DDL)复制,在生产数据库上进行各类数据库对象的操作能自动复制到容灾数据库,如建表、修改字段和建索引等操作。当生产系统发生故障时,容灾系统能够快速接管业务,从而保障业务的连续性[2]。当生产端故障修复时,支持将数据回切到生产端。

实现实时查看容灾端数据库与生产端数据库是否一致并且可用。当生产数据库发生故障时,容灾数据库可接替生产数据库投入运行。系统能对结构化数据库和非结构化数据同时进行实时同步。

2.6 文件及文件夹同步

以增量数据捕捉方式,可以将生产中心服务器上的文件或文件夹的任何变化不受距离限制,以增量数据传输的方式实时同步到灾备中心。同时,备份的文件和文件夹必须支持任意时间点的还原功能。

3 关键技术研究

在容灾系统的建设过程中,会遇到主备端数据不一致、同步存在时差等问题,需要对照容灾系统规划之初的关键技术指标,展开科技攻关,从而使局域网内异地容灾循环接管技术取得突破性进展。

3.1 容灾备份过程中数据保护存储池的配置管理

将已安装好的近线存储设备与应用主机接入到同一LAN中,设备管理的近线存储可以为每台需要保护的应用主机供给存储容量,使每台应用主机都可以访问分配给自己的容量。这些容量被设备存储管理器集中管理,附加了设备提供的高级功能进行数据的近线保护。

3.2 本异地容灾备份集中存储池的数据版本管理

在近线存储设备上已被附加了高级存储功能,如SnapMark,其可以被设置为定时给所设定的卷生成时间标记,对保存在存储池中的数据版本进行管理,可以定时为保护的数据标记版本,每次标记时不会有数据搬迁的过程,只有当新数据改写旧数据时,才会将要被改写的旧数据搬迁到一个快照区中,保护标记的那一时刻点数据的完整性。因此,可以说是逻辑上的数据版本管理,最佳化存储容量的使用。

3.3 循环接管数据的快速恢复

应用是否正常取决于数据是否正常。对于全备、增量、差异等备份方式来说,数据的正常需要一个恢复的过程。缩短RTO的有效方式就是实时恢复,CDP容灾备份系统可以实现数据从主机备份到备份机后,随时进行恢复,等待应用对数据的调用,是一份最新、完整的Standby数据。随时准备接管主机,保障业务的连续性[3]。业务接管模型见图2。

3.4 循环接管站点的建设

在灾备站点将存储管理器接入灾备中心的SAN中,通过设备对SAN中的存储设备进行管理,就可以进行容灾系统的实时容灾配置,通过使用两端即生产站点和灾备站点的远程容灾功能,就可以在线配置容灾保护系统。

3.5 实施数据的远程容灾

生产站点和容灾站点的存储设备都被设备存储管理器管理起来后,就可以在线对生产中心的近线存储设备提供数据的远程容灾保护,通过设定的策略会自动地以增量的方式将所需保护的数据通过IP网复制到远端灾备中心的存储设备中。

复制的策略有2种:一是基于增量的方式,如数据的增量及定时复制;二是连续的数据复制。两种方式都能在生产中心的主机不受影响的情况下,异步将数据通过网络层搬迁到远程的灾备中心,实现数据的远程容灾。快速恢复系统服务模型见图3。

3.6 灾难发生时的业务异地接管和恢复

灾难发生时,若生产站点受损不能提供业务服务,将灾备中心的存储管理器所管理的在复制链中的复制盘提升出来,临时分配给备机或生产中心现有的主机或已修复的主机,可以通过多种链路供给主机进行数据存取访问。灾备中心的备机可以通过SAN进行存取访问,最大化保证业务系统的在线性[4]。

3.7 灾难发生后的数据恢复

灾难发生后的数据恢复,修复好生产中心的主机及存储设备后,然后再将复制盘中的数据反向复制到生产中心已修复好的磁盘中,当数据完全同步复制完成后,就可以将业务系统切换到生产中心,恢复日常业务处理,同时再依次恢复以前的数据容灾保护方式,恢复数据的近线灾难保护及远程灾难保护。异地灾备模型见图4。

4 结语

建立异地循环接管、恢复体系,实现在本地与异地架构瞬间的恢复体系。灾备系统的数据库一致性保证,即不间断地为数据处理提供自动管理保护。容灾技术与循环接管高效融合,保障循环接管的时效性,从而保证生产系统持续稳定、高效地提供服务。

参考文献:

[1]张慧明,周德群.网络环境下政府信息资源共享能力评价研究[J].情报科学,2008(4):595-598.

[2]郭琪.政府信息资源共享的障碍因素分析与对策研究[J].特区经济,2008(3):229-230.

[3]万瑾慧,李涛,胡晓勤,等.一种应用级容灾系统的设计与实现[J].计算机安全,2008(2):7-9.

[4]周焕军,张士平.远程应用级容灾系统架构设计与研究[J].计算机工程,2006(10):277-279.