基于铁路主数据中心建设的灾备管理系统框架研究

2020-07-24刘天宇

铁路计算机应用 2020年7期

岳阳，刘洋，刘天宇

（中国铁路信息科技集团有限公司运行维护与生产调度部，北京 100844）

中国国家铁路集团有限公司（简称：国铁集团）的铁路主数据中心，定位为中国铁路最高级别的信息中心和数据处理中心，是实现国铁集团信息化总体规划的核心，承载着中国铁路集中应用系统部署及数据资源存储的任务。随着铁路信息化的不断发展，国铁集团初步建设“国铁集团-铁路局集团”两级、“国铁集团-铁路局集团有限公司（简称：铁路局）-站段”三级信息系统运维体系，组建了相应的人才队伍[1]。目前，铁路主数据中心仍处于建设阶段，虽然已上线的各重大信息系统依托前期的运维管理系统框架建立了相关灾备管理系统，但是铁路主数据中心级灾备管理还处于各大信息系统各自为政的状态，没有统一的管理且缺乏自动化工具。灾备管理系统建设并不是技术堆叠和数据堆积，而是灾备中心在真正需要时能得用上。因此不仅要有技术体系，还要有持续性的管理机制[2]。本文从灾备日常管理、灾备运维管理和灾备恢复预案3 部分研究建设灾备管理系统框架。希望可以改善主数据中心的灾备管理系统缺乏统一化、自动化的状况。

1 灾备日常管理

1.1 灾备预案管理

灾备预案文档管理电子化，可通过梳理在业务受到威胁或发生灾难时需要采取的一系列关键步骤，包括业务应急预案、系统切换恢复预案等，在平台中可以对相关预案及脚本进行储存、查阅和管理。

1.2 应用系统等级管理

应用系统等级管理的目的是为应用系统生产、灾备系统建设和运维等提供标准。对于同时支撑多个应用系统的平台，如果应用系统不可独立部署，则支撑平台以其中最高的应用系统等级作为平台的等级；如果应用系统可以独立部署，则该应用系统单独评级，支撑平台则以其余应用系统中最高的应用系统等级作为平台的等级。

应用系统一直处在不断发展变化中，为了保证灾备系统的有效性，应用管理员需要定期对灾备中心的应用版本进行一致性检查和管理。灾备中心信息系统随时可用是灾备中心具备业务接管能力的必要条件。运维人员应定期检查应用服务器运行状态，确保应用环境稳定、应用系统可随时启用。定期对应用程序版本、系统软件版本、固件程序版本、关键配置参数等与铁路主数据中心信息系统进行对比与核查，确保灾备系统与生产系统同步。

1.3 灾备切换指标管理

鉴于故障的客观存在性和故障恢复需要时间，信息系统的不可用性会导致业务的中断，在市场竞争激烈的信息时代，由于业务中断所付出的代价非常巨大，如何保证业务在数据遭受灾难时及时恢复生产，是一个企业面对和亟待解决的问题[3]。在灾备管理各项工作中，关键在于如何保障灾备中心快速稳定的切换及切换后持久平稳的接管，需要建立切换和接管两类关键指标，衡量切换能力和接管能力高低，并用于总体评价灾备体系支撑能力水平。切换指标包括数据复制的延迟情况、突发事件响应决策速度、突发事件处理速度等。接管指标包括接管后持续的时长、用户感知的接管效果、应急容灾资源性能配比等。

1.4 灾备演练管理

灾备演练的目的是为了检验各科技、业务和支持保障部门联合应对灾难事件的能力，检验重要信息系统灾备环境和应急切换流程的有效性[4]，提高相关人员的临场应急处置能力和相关风险意识。

1.4.1 灾备演练分类

灾备演练分类，如图1 所示。灾备演练包括桌面演练、模拟演练和实战演练。桌面演练只需要沙盘推演，演练过程工作量小，易于实施；模拟演练要在模拟环境下做模拟演练，演练对技术要求高，对生产系统没有影响；实战演练需要在真实环境下演练，演练成本高，易于发现潜在问题。

图1 灾备演练分类

1.4.2 灾备演练流程

在演练过程中，灾备切换自动通过预定义的切换步骤编排，实现各业务系统或各故障场景一键自动切换（包括自动化的切换演练），并实现切换流程可视化，即灾备流程可进行可视化编辑和编排，可生成标准化灾备流程模版，如图2 所示。

图2 灾备演练管理及流程

1.4.3 灾备演练总结

灾备演练总结由演练发起人负责，演练总结的目的是分析问题，总结经验，完善灾备系统，提高灾难恢复能力。总结报告应包括取得成绩、发现问题和优化建议等内容。

在演练实施结束后，项目组根据演练过程记录对本次演练进行回顾和总结，分析演练中所遇到的问题，提出改进建议，并对灾难恢复预案进行修订，以保障灾难恢复系统的可用性和有效性。

2 灾备运维管理

2.1 日常运维管理

为保障灾备中心部署的业务系统随时具备业务接管能力，落实灾备系统“数据同步，应用可用，网络连通”的技术要求，应遵循以下灾备系统运维要求：灾备中心物理设施符合铁路主数据中心运行条件，日常运维管理根据信息系统运行维护相关规定，结合现有的运维管理体系，形成灾备系统日常管理规范。

2.1.1 设备管理

灾备机房是指同城数据中心机房和异地灾备中心机房，参照原机房管理办法运行管理。

（1）设立灾备应急场所（EOC），作为进行灾难恢复指挥和操作工作的场所。由运行管理员负责灾备应急场所的日常维护，以及内部设施、档案和办公用品的管理；需定期进行灾备应急场所检查。

（2）运行管理员负责灾备中心运行情况监控，内容主要包括CPU 使用率、内存使用率、文件系统、磁盘空间、数据复制状态和备份等。

（3）运行管理员应做好记录，发现问题及时提交事件单并进行处理。机房管理员配合及协助设备厂商或集成商例行设备巡检，以保障灾备中心基础设置、主机、存储、带库等的稳定运行。

（4）巡检结束后做好巡检报告等材料的管理，并将巡检报告等材料发送至灾备管理员进行归档。灾备系统事件、变更和问题管理参照生产系统相关流程和制度。

2.1.2 网络管理

确保铁路主数据中心与灾备中心之间、灾备中心与外部单位之间数据交换安全通畅，是灾备中心具备业务接管能力的重要前提。运维人员应定期检查网络运行状态，验证灾备中心与铁路主数据中心之间、灾备中心与用户单位之间的网络双向连通性。

（1）定期进行外连网络双向测试，确保应用层网络连通性；保证用户单位网络浏览工具已添加灾备中心地址为信任站点。

（2）定期进行应用登陆测试，模拟业务流程。确保灾备系统启用后，用户单位可正常访问。

2.1.3 数据管理

灾备中心与铁路主数据中心信息系统保持数据同步一致，是灾备中心具备业务接管能力的基础条件，数据备份需要保证数据的完整性、可靠性和一致性[5]。运维人员应严格制定系统部署及变更管理流程，确保与铁路主数据中心系统配置一致。

（1）定期检查数据库服务器运行状态，确保数据库服务器稳定可用，做到灾备系统数据库可以随时启用。

（2）实时监测数据复制通道或数据备份系统的运行状态，检查业务数据同步情况，确保灾备系统启动后关键业务系统数据丢失量小于恢复点目标（RPO）指标。

2.2 灾备自动化工具

通过灾备自动化工具，提高灾备管理的能力和水平，减少突发事件对业务的影响，满足业务对信息系统可用率的要求，可以实现将原有需要的多工种配合、全人工操作的容灾切换过程通过一个集中化、图形化的界面（工具）进行，简化操作，降低容灾切换的复杂度，提高容灾切换的成功率。实现“一键式”容灾切换，节省切换时间，降低总体恢复时间目标（RTO）。对自动化工具的应用可以有效地做好灾难恢复准备工作、实现演练自动化、提高可视化、降低运维成本等[6]。

3 灾备恢复预案

灾难恢复流程，也叫灾难事件应急响应流程，是在重大事件即将发生或已经发生后，将要影响或已经影响业务运营时，指导相关人员遵从灾备恢复预案进行的恢复流程，灾备预案的制定，如图3 所示。灾难恢复不仅是恢复计算机系统和网络等环境，还涉及到风险评估、业务影响程度分析、灾难恢复策略的制定以及策略实施等方面。灾难恢复是一项系统性、专业性的工作[7]。灾难恢复流程明确灾难恢复响应的阶段划分、每阶段的行动内容及负责人，更有效地进行系统恢复，使应对突发事件的响应更加及时、有序、有效，从而避免或减少损失。

图3 灾备恢复预案

3.1 灾备流程设计

灾备流程设计目标是为了提高灾难事件的应对处理效率，进行科学的决策，按照既定的计划实施灾难恢复工作，灾难应急处理流程主要包括出现灾难事件后的响应、升级、决策、人员召集、以及灾难恢复和回切等步骤。主要是在灾难事件发生后或者演练开始时根据流程来逐步进行，从而实现最佳效果。

3.2 灾备管理组织

管理是保证组织有效运行所不可少的条件。组织越大，构成越复杂，管理的重要性也越加突出[8]，通过完备的组织架构可以实现集中决策，提高灾难恢复工作对高效决策的要求，实现统一的管理与协调，整合生产和灾备运营的管理质量体系，使得分布在各级信息技术部门的技术人员能够参与到灾难恢复工作当中，承担相应的灾备工作，如图4 所示。

图4 灾备组织架构

3.3 灾备恢复策略选择

灾备项目的设计目标是为了确保重大灾难发生后，灾备系统可以安全、有效、及时地接管生产系统，将核心业务系统从位于生产中心切换到位于同城灾备中心，继续对外开展业务，使关键业务可以在短时间内恢复，把灾难事件造成的影响降到最低。当出现同城两个数据中心同时故障时，切换到异地灾备中心。

数据中心系统灾难恢复解决方案和策略如下：

（1）铁路主数据中心，作为核心业务系统的运行中心，负责整体的核心业务的数据处理。

（2）同城灾备中心，配置了灾难恢复所需的处理设备、通信网络和场地，并且与主数据中心的生产数据保持数据同步。一旦主数据中心灾难发生，将启用同城灾备中心接替主中心恢复核心业务系统运行。

（3）异地灾备中心，配置与同城灾备中心一致。一旦同城灾难发生，将启用异地灾备中心接替同城恢复核心业务系统运行。

（4）一旦灾难发生造成主办公场地无法提供正常服务，灾难应急指挥组将选择本地应急指挥中心的紧急工作区域。信息部办公场所将作为第2 备选的紧急工作区域。位于异地的信息部办公场所将作为第3 备选的紧急工作区域。

4 结束语

灾备中心目前已经是各行业数据中心必不可少的建设环节，其相应的管理系统也得到了更多企业的重视。本文研究的基于铁路主数据中心建设的灾备管理系统框架包括灾备日常管理、灾备运维管理、灾备恢复预案等[9]，实现了灾备的规范运维流程、统一数据备份管理，处理异常和故障等报警等，有效地规范了灾备运维工作流程，提高了灾备运维工作效率，是灾备工作不可或缺的一部分。保障信息系统安全稳定运行和提升灾备管理效能是灾备管理两大主要目标[10]，灾备系统为信息系统提供了一个能够应对各种突发灾难的保障。随着铁路主数据中心建设的不断完善和异地灾备中心的建设，可以继续探讨铁路主数据中心灾备管理与灾备中心灾备管理的结合，进一步提升铁路信息化灾备管理水平。