医院数据灾备应急系统的研究
2021-11-28陈涛
陈涛
(南京医科大学附属南京医院(南京市第一医院)信息中心,江苏 南京 210006)
1 研究背景
医院数字技术发展过程中,不同种类的系统架构演变迅速发展,医院信息系统应具备非常可靠的灾备能力,完善的医院信息系统应具有完善、可靠的数据备份机制和从灾难中快速恢复的能力[1]。云架构的灾备设计是目前的流行理念,然而传统的灾备架构体系并不适用于云架构。目前,医院灾备系统架构不断地由分散式向集中式发展,这使得以往灾备软件与快速扩展的灾备体系建设格格不入。传统灾备系统中,执行医院的基础数据迁移业务常常比较困难。灾难发生时协调停机困难,灾备数据备份验证周期长,基础数据环境重建耗时费力等问题,都阻碍了医院数据灾备体系建设数字化转型的步伐。灾难恢复是指灾难发生后,系统恢复正常运行的能力,而容灾指灾难发生时保持系统不间断运行的能力[2]。医院新的数据灾备应急系统亟需应用。
2 需求研究
具体需求包含以下几个方面:①根据目前的实际需求,新的医院数据灾备系统设备配制应不少于4 个千兆网口,包含两个物理主机服务器进行相关业务应急,系统在客户端上应可用Web 管理界面进行统一管理。②系统应该能够监测被保护服务器的CPU、内存、网络等性能指标,对数据库、中间层等其他应用服务器数据拥有监控其运行情况的功能。灾备应急系统应能够模拟不同用户的访问方式,有效地对各种应用服务提供运行安全监控。系统应该支持用户根据自身需要自定义数据库,并提供基于事件的统计报表和图表,且能够针对这些事件提供短信通知功能。数据灾备应急系统针对所备份的所有系统可能出现的各种状况进行日志统计,遇到错误事件发出事件报警等。③在数据灾备应急系统环境配置上,能够将医院信息系统数据的基础环境和数据存储对象实现虚拟化隔离,灾备系统以虚拟机映像文件的方式进行存储,保持与实际映像数据实时同步,保持业务驱动环境实时P2V 转换。④信息数据灾备应急系统应该支持二层、三层网络的接入,支持VPN 的接入,支持NAT 和桥接组网,支持虚拟子网管理等。⑤当信息系统数据业务服务器发生故障时,灾备应急系统要能够提供及时有效应急接管,应能够在不同故障发生时提供应急接管,比如人为原因的误删数据、数据服务器硬盘损坏造成的数据文件损坏丢失等。当灾备应急管理系统接管医院信息系统时,要能够满足灾备管理系统无需对医院信息系统配置进行任何修改,包括IP、MAC 地址,软件端的配置,系统口令等。信息数据灾备系统要有快照节点功能,能从快照设置的任意时间点启动接管程序。⑥信息数据灾备应急系统应能够支持多个独立的账号管理模式,能够实现整机业务级一体化备份且仅备份有效的数据块。系统设备应能够模拟机房内任何信息系统服务器的应用环境,在整个仿真过程中,数据灾备应急系统能够对信息系统平台作业和信息日常业务无任何影响。⑦数据灾备应急系统要能够支持各种单机环境以及主备集群的应急接管,共享磁盘、本地磁盘以及多路径软件环境同样要兼容适用。
3 系统架构研究
数据灾备应急系统底层框架应该基于超融合架构,超融合架构的诸多特点要能够体现在系统中。比如能够支持系统的横向扩展,用户能够根据实际需要进行扩展,以节省成本。设备资源及存储的横向扩展也使得压力分担到每一个节点上,这就解决了单点性能问题。
新的数据灾备应急系统应该具备一定的应急接管功能和仿真测试功能,所以系统应该由客户端Web 管理功能、管控平台、监控预警、恢复功能、接管功能、迁移功能、仿真功能、快照管理以及存储节点九部分组成。
3.1 Web 管理功能
构架基于B/S,用户在客户端通过Web 网页方式进行整个灾备应急系统的管理与操作。
3.2 管控平台
数据灾备应急系统具备独立物理服务器实体,架构于医院信息中心机房,负责各种物理主机和虚拟主机的镜像化复制,能够对源信息系统服务器的各项运行数据进行实时的捕捉,并存入自身虚拟化存储池。
3.3 监控预警
该功能作用于监控灾备应急系统的实体服务器资源情况,包括硬件资源、软件资源以及业务的可用状态等。当灾备应急系统出现问题时,监控预警功能即可触发告警,通过短信方式通知用户,让用户能及时了解掌握灾备系统问题。
3.4 恢复功能
该功能是让灾备应急系统能通过快照挂载的方式,把备份数据卷有效地挂载给源信息系统数据服务器,以实现瞬间恢复数据的能力。
3.5 存储节点
数据灾备应急系统在日常的数据备份过程中,数据传输需要分发处理,这就需要拥有足够的存储能力和空间。存储节点则对此提供了基础保障。
3.6 接管功能
接管功能用于应急接管,当灾备应急系统检测前端应用服务的业务发生故障时,接管系统则通过最近同步的业务节点,启动应急业务接管功能,并且虚拟服务器信息数据和原信息数据服务器相同。应急接管功能除了自动接管外,也可以手动接管,最大限度地保证业务正常运行。
3.7 迁移功能
迁移功能用于离线迁移主业务数据服务器数据,平时对源数据服务器进行在线备份,在源机离线时能恢复数据到异构平台上,进行整机的数据迁移。
3.8 仿真功能
该功能负责系统环境的测试和数据的仿真模拟,这对于业务需要、业务数据开发以及业务培训等都有着极大帮助。
3.9 快照管理
快照管理功能可以根据系统所设置的数据备份策略而自动生成数据时间节点快照,各个快照节点互相独立,且是云镜像。在快照系统下的用户可以根据不同的时间节点,产生应急演练的虚拟机,以此来测试源机服务器数据,验证正确性。
4 数据备份研究
数据灾备应急系统的数据备份,应该包括数据捕获、数据恢复、应急接管以及仿真测试四个环节部分。
4.1 数据捕获环节
数据灾备应急系统应该具备把源机数据服务器的操作系统、服务器上的各种应用以及数据数据打包成云镜像文件的能力,这样系统可以通过全量或者增量的方式去镜像化复制到自身的灾备系统中。
4.2 数据恢复环节
数据恢复应该分为两种方式,瞬时恢复和不间断恢复。瞬时恢复可以基于任意不同的快照时间节点,通过TCP 协议,进行分区的挂载,在这个过程中,不需要去移动原始数据,相对应的时间快照节点信息也不会改变。不间断恢复是指当源机数据服务器数据发生异常时,灾备应急系统先通过接管系统进行及时、有效的业务接管,不间断日常数据业务的正常运行,当源机数据服务器恢复正常后,灾备应急系统进行增量数据的回传,同时应急虚机保持在线运行。
4.3 应急接管环节
当源机数据服务器发生异常时或者用户想根据实际需要测试备份数据准确性时,用户要能在数据灾备应急系统中生成应急接管虚拟化服务器,对源机的业务进行一键接管,以此来保证源机数据的连续性。
4.4 仿真测试环节
数据备份的环节必须要有仿真测试这个流程部分。综上所述,灾备应急系统应该具备与源机实时同步的时间节点备份策略,在这些不同的快照时间节点上,必须要能生成跟源机数据业务环境隔离的仿真测试环境,在这个环境下,对备份的数据进行验证。验证完成后,可删除仿真环境,确保数据灾备系统的流畅运行。
5 系统用户管理研究
用户管理是每个系统都应具备的功能。用户管理权限的明确划分,可以确保数据灾备应急系统的操作安全性以及操作规范性。不同的用户管理权限,可以相互监督制约,以确保系统的安全稳定运行。数据灾备应急系统应该支持系统管理员、审查管理员、系统存储管理员、应急系统管理员四个角色:①系统管理员。负责数据灾备应急系统的日常维护与管理工作,对整个系统进行统筹管理,这包括数据备份查看、应急演练功能的测试、数据的恢复、计算节点存储节点的随时监测以及系统运行日志告警查看等。②审查管理员。负责数据灾备应急系统的运行日志的审查。③系统存储管理员。负责数据灾备应急系统的存储恢复等权限。④应急系统管理员。负责在数据灾备应急系统中进行应急演练等权限部分。
6 系统日志研究
数据灾备应急系统应该具备详细的系统的日志报表。日志报表记录着系统中所有用户的操作及系统运行问题,这能够确保所有用户在系统中操作都有记录监管,因人为操作原因而引起的系统故障,能够根据日志报表及时查出原因,或者系统自身运行出现的错误,通过系统运行日志报表可以及时修复改进。日志类型包括:①数据备份日志,记录数据备份相关信息;②警告日志,记录系统告警信息;③应急数据日志,记录系统中应急接管操作信息;④存储及恢复日志,记录系统的数据恢复以及系统存储的信息。
7 小结
目前,人类社会比以往任何时候都更加依赖于计算机系统,计算机系统在迅猛发展提供技术基础架构的同时,由于用户业务处理的高度集中以及不可预见的故障和灾难,导致整个系统存在灾难性破坏的隐患,有可能成为整体系统中的单故障点[3]。信息数据灾备系统成为医院信息工作中不可或缺的部分。新型、完善的信息数据灾备系统可使医院在信息化的运行中事半功倍、稳定运行。