基于混合云的医院容灾系统设计与实现
2020-03-15张云何懋周帆帆
张云 何懋 周帆帆
(昆明医科大学第一附属医院信息中心 云南省昆明市 650032)
近年来,大型综合性三甲医院通常建设有数据中心,以承载以电子病历为核心的HIS、EMR、PACS、LIS 等信息系统的运行,为医院业务工作的开展提供了平台技术支撑。随着互联网医疗、大数据、人工智能、智慧医疗等技术的不断应用,医院信息系统不断发展壮大,医院管理、科研、教学、医疗越来越依赖于信息系统支撑和数据的支持,庞大系统应用,信息数据海量增长,信息数据逐渐发展成为医院核心资产。信息系统高度集中和信息存储网络化,加大了各类风险的发生概率和信息资产的脆弱程度。
1 数据中心现状
昆明医科大学第一附属医院是一所集医疗、教学、科研、干部保健于一体的大型三甲综合医院,编制床位4500 张,年出院17.28万人次,门诊量396 万人次,每年产生结构化数据(HIS/EMR、LIS、PACS 等)和非结构化数据(PCSA 影像)约28TB。拥有同城两个院区,分别建设有B 级标准机房和数据中心。主院区数据中心核心网络区:利用万兆交换机通过交换机多虚一集群技术实现跨交换机的链路聚合,提供万兆网络接入服务。服务器区:数据库服务区主要采用X86 物理主机集群方式,利用Oracle RAC 实现服务器本地双活,支持HIS、EMR、PACS、LIS、ICU 等核心业务应用,保障医院业务7X24 小时持续运行,满足业务系统高性能、高可用、高可扩展性、高稳定的需求。应用服务器采用虚拟化方式形成计算资源池,采用多节点的虚拟化平台进行建设,通过资源管理平台对计算资源进行按需分配和动态调配。
2 需求分析
医院信息化的深入发展,医院信息系统成为迄今为止世界上企业级信息系统中最为复杂的一类[1],使得医院业务活动离开信息系统就难以运行的地步。源源不断涌入的人群,7×24 的业务运行方式,使得医院信息系统数据以TB 级增长,通过定时备份与恢复,可能导致数据恢复时间长,停机时间长、造成备份时间点到故障发生时间点的数据丢失。
综上所述,为保障医院业务持续性和数据的安全,在异地建设与生产中心主机性能按比例匹配、架构相同或与之等同的应用系统,即灾备中心,一旦生产中心意外瘫痪,灾备中心可以接替业务中心来对外提供持续的服务。
3 灾备方案设计
3.1 RTO/RPO值分析
目前业界以系统恢复时间(RTO)和数据丢失量(RPO)作为灾备系统建设标准。恢复时间目标(Recovery Time Objective,简称RTO)表示从灾难发生直到业务流程再次运行(即被恢复)的时间。RTO 有两个组成部分,明确灾难发生后指示恢复流程开始的决策时间和进行灾难恢复流程的实施时间。一般来说,恢复时间(RTO)越短,那么灾难恢复方案的成本就越高,灾难造成的业务损失就越小。结合医院实际RTO/RPO 值如表1 所示。
3.2 容灾建设级别分析
根据灾备系统建设内容和业务恢复需求,按照不同的灾备级别进行建设。针对各核心业务系统灾难恢复点目标(RPO)定义为趋近 0 分钟;灾难恢复时间目标(RTO)定义为30 分钟到48 小时不等。
3.3 容灾模式选型
表1:医院信息系统业务分析
图1:容灾拓扑
同城双中心:指在同城建立两个可独立承担核心系统运行的数据中心,双中心具备基本等同的业务处理能力,并通过高速链路实时的进行数据同步。在使用模式上可分为双活、双运营或主备运行模式。其运行模式如表2 所示。
结合医院业务应用和医院管理要求,容灾系统建设为同城主备营模式。
3.4 容灾技术选型
在医院容灾系统的建设过程中,生产机房和容灾机房位于同城不同院区,通过部署多条裸光纤的方式作为传输链路,则可供选择技术如表3 所示。
表2:容灾模式
表3:容灾技术选型
综上所述,考虑到各种技术的成熟度问题,容灾系统选择如下技术进行建设:
(1)本地备份系统建设:采用备份存储介质一体化的备份一体机进行建设;
(2)同城应用级容灾系统建设:核心业务系统采用基于数据库的复制技术实现数据复制。
4 容灾拓扑结构
如图1 所示,采用基于数据库的复制技术和基于存储阵列的复制技术构建应用级容灾中心;通过租用云服务商数据灾备服务,利用备份一体机远程复制功能将数据同步备份到云端提升数据容灾能力。
对HIS/EMR、PACS、LIS、ICU/手麻/血透等核心数据库服务器,在生产机房分别配置2 台X86 服务器,组成ORACLE RAC 集群。在容灾机房按照生产机房的业务系统配置相同配置的单台X86 服务器。
对于非结构化数据,在生产中心和容灾中心分别配置1 套大容量的NAS 存储,用于PACS 影像等非结构化数据的存储,通过NAS 存储的远程复制功能,实现非结构化数据的实时复制。
5 灾备系统测评
生产中心与容灾中心分属于同一个广域网上的不同网段,通过客户端的中心路由器配置Failover 切换,支持对两个中心的同时访问能力,保证客户端在灾难发生后仍能与灾难备份中心建立TCP/IP 连接。
(1)模拟测试:模拟核心业务系统发生灾难性故障,完全宕机失效,测试灾备中心可以在规定时间内对外提供服务。通过中断生产中心物理连接线缆,模拟生产中心出现故障,灾备中心存储变为可用,数据库启动。
(2)并行测试:模拟部分核心业务系统发生灾难性故障,灾备中心可以在规定时间内将故障业务接管并对外提供服务。模拟部分核心业务系统故障,通过更改网络,使容灾中心的该业务对外提供服务。
(3)完全中断测试:模拟全部核心业务系统发生灾难性故障,灾备中心可以在规定时间内将所有业务接管并对外提供服务。
经测试,生产中心与灾备中心、云端核心业务系统数据库经过系统切换后最大归档日志号一致,时间低于1 分钟,应用恢复RTO ≤10 分钟,RPO ≈0。
6 讨论
应用级别的系统容灾,存储和主机应统一考虑,容灾中心需要接管生产中心的数据库和应用服务器,配置应与生产中心主机性能按比例匹配、架构相同。
应用级容灾接管建议由人来决策,避免生产中心可能产生的如断电、网络故障、服务器暂时故障抖动。
为确保灾备系统数据的一致性、完整性、正确性,当灾难发生时生产系统可尽快恢复,需要在平时通过灾备演练对灾备数据、灾备系统、灾备流程做进一步的评测。