信息系统灾备技术分析及方案设计
2022-09-06杨珺
杨 珺
(中国铁路信息科技集团有限公司 网信技术处,北京 100038)
随着信息系统建设的飞速发展,各行各业对利用信息系统处理事物和数据分析的依赖性越来越大,越来越多的企业认识到信息系统安全运行的重要性。2019年发布的《信息系统安全等级保护基本要求》(简称:等级保护2.0)中对不同的等级系统需采用的灾备方式提出了要求,其中,等级保护二级信息系统需实现异地数据备份功能,等级保护三级信息系统需实现提供异地实时备份功能,等级保护四级系统则需实现业务应用的实时切换。因此,灾备技术的研究对构筑信息系统坚实的防线十分重要。
1 灾难恢复考虑因素
1.1 恢复时间目标和恢复点目标
恢复时间目标(RTO,Recovery Time Objective),指系统从中断恢复到企业可接受的运行状态所需的时间。RTO值越小表示系统恢复能力越强。
恢复点目标(RPO,Recovery Point Objective),指为支撑系统恢复进行所需数据的备份时间点,表示系统恢复后需修复或追补的数据量。RPO值越小代表系统数据丢失越少。
1.2 业务连续性
实现业务连续性是信息系统灾备的最终目标,也是灾备方案价值的具体体现。为保障灾难发生时的业务连续性,系统需进行网络切换和应用切换,保障业务系统能够在备用数据中心继续安全运行,从而最大限度地保障企业利益。
1.3 数据和网络
数据的完整性和连续性是保障业务连续性的关键,在本地一般采用独立磁盘冗余阵列(RAID,Redundant Arrays of Independent Disks)技术来保障,而在异地则需采用数据复制技术来实现。
通信网络的质量直接影响灾难恢复的效率,包括网络的数据传输带宽、网络传输通道的冗余性。
2 灾备的等级划分
国家《信息系统灾难恢复规范》[1]规定了信息系统的容灾级别,并分别给出了应对措施,如表1所示。
表1 《信息系统灾难恢复规范》规定的容灾级别及其应对措施
实际应用中,从系统的保护程度来分,灾备大体上可以分为数据级、应用级、业务级这3个灾备等级,如图1所示。
图1 灾备的3个等级
2.1 数据级灾备
数据级灾备的重点在数据的备份和恢复,采用人工或工具将数据保存到异地,如数据的复制、备份和恢复等。灾难发生后利用备份数据将用户数据的丢失或者破坏降到最低,是所有灾备工作的基础。
2.2 应用级灾备
应用级灾备强调应用的功能接管,是在数据级灾备的基础上再构建一套应用支撑系统,如数据备份系统、备用数据处理系统、网络系统等。在生产中心发生故障的情况下,由灾备中心提供业务的接管。此方式提供比数据级灾备更高级别的业务恢复能力,同时也是业务级灾备的基础。
2.3 业务级灾备
业务级灾备是最高级别的灾备模式,对业务有更强的支撑能力,不仅提供支撑系统继续服务的能力,还提供备用办公场所、办公人员等其他非业务方面的备份。
2.4 灾难恢复需求参照等级保护
结合灾难恢复需求,参照等级标准给出的恢复时间、恢复时间点目标参考值,计算出应用系统的灾难恢复需求,即应用系统的RTO、RPO值。灾难恢复需求参照等级标准作为计算应用系统的RTO、RPO值的参考模型,制定过程需要结合行业灾备领先实践、灾备技术发展水平、行业特征以及对应用系统的依赖程度等因素制定。灾难恢复需求参照等级标准,如表2所示。
表2 灾难恢复需求参照等级标准
在推导应用系统的灾难恢复需求时,还需要考虑以下因素:(1)分析应用系统是否与其他系统相关联,如果应用系统作为其他应用系统灾难恢复的基础时,其RTO、RPO值应该参照关联系统的灾难恢复需求;(2)是否存在对应用系统的灾难恢复有特定的管理规范,应用系统的灾难恢复需求应满足管理规范要求;(3)承载信息系统运行的数据中心采用的基础平台的技术特征,采用传统的架构搭建的数据中心,灾难恢复需求较高,采用云架构搭建的数据中心,由于云架构本身具备的高可用和灵活性,灾难恢复要求可较上表适当降低。
3 灾备技术分析
3.1 业务连续性保障策略分析
业务连续性保障策略有通常有应用双活、热备、暖备、冷备等方式。
(1)应用双活方式
应用双活是在主数据中心与备用数据中心均配置同等级的资源,使部署的应用集群实现业务同时在两个数据中心运行,并根据一定的规则进行业务负载分担,实现自动业务切换。
(2)应用热备方式
应用热备是在备用数据中心提前部署软硬件和业务数据。当灾难发生时,灾备系统可自动接替主站点生产系统运行,主要通过跨数据中心集群或负载平衡方式实现。此方式需要较高的运营水平,数据的实时性取决于数据恢复方法。
(3)应用暖备方式
应用暖备是在备用数据中心配置恢复系统所必须的资源,提前部署软件。当灾难发生时,应用暖备需要在备份站点进行业务数据恢复,并人工将网络切换到备份站点之后,备份系统才可接替生产运行,此方式要求保证备用数据中心资源处于活动状态。
(4)应用冷备方式
应用冷备则是在数据中心配置满足数据存储和应用运行所必需的硬件资源。当灾难发生时,应用冷备需要在备用场地进行系统重建工作,从而在备份数据中心恢复业务运行。
(5)策略分析
应用双活方式可以做到RTO趋近于0,基本达到数据的零丢失。应用热备方式RTO一般为分钟级/小时级,会损失主数据中心正在处理的部分数据。应用暖备方式RTO一般为小时级,会损失主系统宕机后至备用启动前的所有数据。应用冷备方式RTO一般以天计算,同样会损失主系统宕机后至备用启动前的所有数据。
RTO决定了应用系统连续性保障策略的选择,同时RTO值越小,所需的投资也就越多。根据业务影响分析结论,可根据系统能够忍受的数据丢失程度结合投资采取相应的应用系统连续性保障策略,具体如表3所示。
表3 应用系统连续性保障策略
3.2 数据复制方式分析
3.2.1 数据复制方式
灾备数据复制方式包括数据同步复制、数据异步复制、数据定时复制、数据离线备份[2-3]。
(1)数据同步复制
数据同步复制是生产系统的I/O写入主数据中心盘阵时,同步写到备用数据中心后,才开始处理下一次I/O,但是高的I/O 应用限制了主数据中心和备用数据中心间的距离,通常要求两中心的距离不超过100 km。
(2)数据异步复制
数据异步复制是生产系统的I/O写入主数据中心盘阵时,同时发送到备用数据中心,生产系统不用等到I/O写入到备用数据中心完成,就开始处理下一I/O,可以远距离传输但是不能保证数据复制是按照顺序进行。
(3)数据定时复制
数据定时复制指生产数据定时从主数据中心复制到备份数据中心,复制到备份数据中心的数据是生产系统一段时间内最终变化的数据。
(4)数据离线复制
数据离线复制按照离线流程,实现数据从磁盘到磁带的定期备份,并进行异地保存。
数据同步复制方式没有事务性数据丢失;数据异步复制方式RPO达到秒级或分钟级,能够基本保障数据的完整性和即时性。数据定时复制方式RPO一般为小时级(最高达24 h),虽然能够保障一段时间内的最终数据得到复制,但是过程数据等没有备份无法追溯。数据离线复制方式RPO一般为12 h以上甚至数天,从上次备份到备份系统运行期间产生的数据将丢失。
RPO和数据中心间的距离决定了灾备数据复制方式的选择。基于业务影响分析的结论与数据中心距离,可选择相应的应用系统灾备数据复制方式,具体如表4所示。
表4 应用系统灾备数据复制方式
3.2.2 数据复制技术
目前,通常采用的数据复制技术有基于操作系统和存储(包括虚拟存储)、基于数据库及基于中间件和应用层这3种模式。
(1)基于操作系统和存储的数据复制技术
基于底层的物理卷、数据块,通过存储存储虚拟化等技术实现数据复制。这种数据复制技术的主要优点是支持所有类型的数据,可以在不影响生产存储数据的情况下进行灵活的各种数据管理,如存储快照等。这种复制技术的主要问题是数据需要集中存储,所以进行灾备复制前可能需要进行数据迁移,数据耦合度高,依赖存储类型或操作系统,数据可用性校验较差。
(2)基于数据库的数据复制技术
大部分数据库软件都提供数据复制技术,包括商数据库业和开源数据库,实现数据的物理和逻辑复制复制。这种复制技术的主要优点是效率高、网络带宽占用少、同时可利用软件自身的检测功能,增加数据坏块的检验,提高数据的可用性。这种复制技术的主要不足是只针对数据库数据,不能提供应用数据的复制。
(3)基于中间件和应用层的数据复制技术
基于中间件和应用层的数据复制技术采用中间件或者应用层面的双写,通过应用架构设计实现数据复制。这种复制技术的主要优点在于可以根据业务需求来自行定制、自主可控性高。这种复制技术的主要缺点是应用设计复杂,根据特定应用场景定制,普遍推广性差,一般情况下应用需要改造,不适用于高频更新、一致性要求高的场景。
4 信息系统灾备方案设计
根据2.4节中不同的灾难恢复需求等级,可以采用不同的灾备策略,对于评估分值高于8的系统,可采用最高级别的业务级灾备,对于评估分值为4~8的系统,可采用应用级灾备。对于评估分值低于4的系统,信息系统灾备方案可采用数据级灾备。
4.1 数据级灾备方案
一般是在主数据中心部署应用,并在本地实现数据备份的基础上,将需要备份的数据通过人工方式定时运输或通过数据复制工具采用异步方式保存到异地。当主中心出现故障时,数据级灾备方案利用灾备中心的备份数据可完成数据恢复,待将用户请求切换到灾备中心后即可恢复业务运行。
4.2 应用级灾备方案
应用级灾备一般采用双中心主备或双活模式部署,应用以主中心为生产环境、灾备中心为备份环境。同一业务系统同时只能在某一个数据中心提供读写,另一个数据中心热备,通过负载均衡设备实现请求分发,应用数据库在本地实现高可用,同时向备份环境进行单向同步数据复制,其中,数据复制技术均可采用。当应用在主中心发生故障时,应用级灾备方案通过负载均衡将请求分发至灾备中心。灾备中心数据库变为主用数据库,向主数据中心数据库同步数据,从而实现在灾备中心接管应用,提高业务连续性[4-5]。
4.3 业务级灾备方案
业务级灾备除了必要的信息系统相关技术,还要求具备全部的基础设施能力,即非信息技术系统的备份(如电话、办公地点)。当灾难发生后,业务级灾备方案除了在灾备中心恢复数据和应用外,还能在备份工作场所开展的正常业务,让用户应用的服务请求能够透明地继续运行,保证信息系统提供的服务完整、可靠、安全[6]。
4.4 灾备模式对比
不同灾备模式的对比如表5所示。
表5 不同灾备模式对比
5 结束语
本文从灾难恢复考虑因素、灾备等级划分、灾备技术分析、信息系统灾备方案设计等方面进行了详细的论述,并对不同灾备模式进行了对比,旨在提升业务应用系统的连续性、稳定性和可用性,信息系统据此选择适合的的灾备方案能够以恰当的规模、合理的资源利用率及适当的运维模式实现信息系统灾备效果,从而达到保障企业安全稳定生产的目的。未来,将进一步研究信息系统灾备的具体技术手段和实现方案,实现信息系统安全可靠运行的目标。