医院信息系统双活容灾备份体系的实现探讨
2017-06-03孔明军李芹王瑜
孔明军++李芹++王瑜
摘 要:由于医院业务的特殊性,任何人为或自然因素所导致的应用或系统中断或数据丢失,都会造成医院巨大的经济损失。医院需要一套完善的容灾保护方案来实现数据和应用系统的双活,当出现任意一台服务器、存储的灾难性事件时都不会造成业务中断,同时需要将应用环境中的虚拟化平台、数据库、操作系统等进行自动备份,从而达到保护数据、快速恢复业务系统的目的。该文以山东省泰安市中心医院建设以虚拟化存储网关为核心的双活容灾备份系统为例,详细介绍了可行的技术方案供同行实施时参考和交流。
关键词:医院信息双活 容灾备份 存储网关
中图分类号:TP399 文献标识码:A 文章编号:1674-098X(2017)03(a)-0129-02
1 项目背景
山东省泰安市中心医院是一家规模较大的三级甲等综合性医院,作为本地区医疗行业的龙头单位,经过多年来信息化的逐步发展和扩充,建成了HIS、CIS系统、LIS系统、EMR系统、PACS系统等核心业务系统,由这些系统构成的整个医院信息系统具有数据量大、数据类型复杂、事务并发多且实时的特点。在实施双活容灾备份系统之前,HIS、CIS、EMR系统运行在MSCS双机上,PACS系统运行在3台DELL R920搭建的VMware5.5集群上,双机和VMware集群后端挂接一台EMC VNX5400存储;LIS系统运行在另一套MSCS双机上,病例翻拍、运维等其他系统运行在6台服务器搭建的VMware虚拟化集群上,后端共用一台HP EVA P6350存储。改造前核心系统及数据存储设备拓扑图如图1。
由拓扑图可以看到,医院各应用系统的数据都保存在单存储器上,依靠数据库本身的备份机制进行数据库副本的冷备,存在极大的数据安全隐患,因此医院通过多次规划和论证,确立了建设双活容灾备份体系的实施方案。
2 建设目标
实现医院信息系统双活数据容灾备份, RPO与RTO趋向于零,支持任意时间点内数据回滚(预防数据逻辑错误),彻底解决任何单点故障问题,当设备或链路出现故障时做到自动切换,无需人工干预,实现医院信息系统业务不间断、数据不丢失。
实现在两个数据中心之间实时同步的保留两份数据,并且可以实现两个数据中心的两份同样的数据都是活动的状态,即可读可写的;当生产机房的存储故障后,通过生产机房的主机(或者容灾机房的主机)通过光纤链路访问到容灾机房的数据,整个过程无需人工操作,业务不受任何影响。容灾机房存储出现故障时,反之亦然;原有HIS、LIS等系统双机集群状态保持不变,服务器分别放在两个机房:生产机房的主机和容灾机房的主机同时对同一数据库应用进行读写操作,而且生产机房访问本机房的存储上的数据,容灾机房访问容灾机房的数据,通过缓存一致性技术保证数据的一致性。任何一个机房的主机、存储发生故障的时候,应用可以由另外一个机房继续提供服务,用户不会有任何感觉;可以实现任何一个机房的任何一个部件失败,包括:服务器、存储、虚拟化网关、交换机甚至整个机房瘫痪,另外一个机房都可以无缝的接管所有工作,业务不会停、也不需要人为干预;RPO与RTO趋向于零,支持任意时间点内数据回滚(预防数据逻辑错误);实现对现有医院信息系统乃至未来上线业务系统的数据、应用等做整体的容灾备份。
3 技术方案
按照对系统的分析,考虑到整个系统安全架构,笔者经过对比目前市场上多家相关软硬件系統的优缺点,选用了比较经济的国产虚拟化存储网关产品进行部署,设计出了医院容灾的规划方案,拓扑图如图2所示。
两台容灾网关通过与光纤交换机连接,以数据卷方式对外(应用服务器)提供存储服务。为了保护数据链路的可用性,使用两台光纤交换机构建冗余链路。两台容灾网关之间通过光纤链接进行数据镜像同步。该方案的最大优势在于其对业务连续性的保护。生产数据从应用服务器端写入存储网关容灾网关后,容灾网关之间将自动对数据进行在线镜像到另外一台容灾网关中。当存储系统中任何一个环节(容灾网关或链路)出现故障时,存储路径将自动切换到另外一台容灾网关上,存储服务完全不受影响。应用服务器上的业务将无缝地继续运行,业务完全不会受到中断。
3.1 主机层
目前HIS、CIS、EMR系统使用两台HP DL980服务器,一台EMC VNX5400存储,通过MSCS集群技术组成双机主备集群;LIS系统使用两台HP DL388G9服务器,一台HP P6350存储,通过MSCS集群技术组成双机主备集群。目前两套双机系统均采用共享存储方式提高数据安全性和数据响应速度。此次方案设计保留HIS、LIS等系统MSCS双机集群,将HIS、LIS等系统备机迁移到容灾机房,如果主机房服务器故障,容灾机房系统备机自动接管应用,无须人工干预,HIS、LIS业务系统使用不会受到影响。
OA服务器、手术麻醉服务器、超声服务器在内的周边业务系统,目前通过6台HP DL388服务器和一台HP P6350存储组建VMware虚拟化平台,此次新增4台HP388G9,并入原有的VMware虚拟化平台中,两个机房各放置5台服务器,实现周边业务系统主备机房一侧设备或链路出现故障时,虚拟机业务自动迁移,业务系统使用不会受到影响。
3.2 网络层
新的交换机,存储,服务器,存储虚拟化网关上线业务切换交割,为减少现有HIS、LIS等业务系统的停机时间,此次对于现有的4台光纤交换机不做位置的更改,新机房新购两台光纤交换机,与原有机房的4台光纤交换机三三级联,组成一个大的存储SAN网络,任意光纤交换机故障或任意机房出现灾难性事件,主机访问存储均不受影响,业务系统使用不会受到影响。
3.3 存储网关
在两个机房中分别部署一台存储虚拟化网关,在容灾机房中部署一台与原核心存储相同型号的EMC VNX5400高性能存储,使用新增的EMC VNX5400存储作为容灾机房HIS、LIS及虚拟化平台的后端存储,为前端虚拟化平台及HIS、LIS等业务系统提供存储数据存储双活服务。利用虚拟化网关将两个机房的3台存储统一管理起来,建立虚拟的存储池,通过虚拟镜像卷技术,保证数据在写入主机房HP P6350或EMC VNX5400的时候同时写入容灾机房的EMC VNX5400存储中,可确保存储数据保持时刻同步,并同时对外提供服务,实现存储双活,满足存储高可用的特性,并且能提供双活的负载均衡功能。如果遇到断电、火灾或其它故障,导致生产机房存储设备出现故障后,可立即由备用机房存储设备来接管、继续对外提供服务,从而可以保证存储出现物理故障时的业务连续性。
通过HIS、LIS双机、服务器虚拟化软件和存储方面的配合,当生产机房故障无法提供服务时,可由容灾机房自动接管业务,对外提供服务,保证业务不中断和数据的连续性,实现双活数据中心的功能。为预防逻辑错误,通过连续数据保护系统实现存储层的CDP保护,不需要在主机层安装任何软件即可对存储实现CDP保护,若出现逻辑故障时,可将状态恢复至14天的任意时间点数据。
3.4 后台备份
新增一台一体化的备份存储机,不改变现有网络架构,分配私有IP地址,通过网络(路由器、防火墙将地址与相应服务端口放开)与需保护服务器互通即可。备份存储机的客户端会按照设置的备份策略,将重要数据源源不断地同步到到内置的备份存储上,管理员可以在统一的备份恢复管理平台上进行物理环境和虚拟化环境的数据备份恢复任务管理和操作。
4 实施效果
通过服务器虚拟化集群、MSCS双机集群软件及虚拟化网关等实现核心业务系统的双活,无论出现任何硬件、网络、系统及软件故障,抑或是任一机房发生断电、火灾、地震等灾难时,均不会影响业务系统正常运行,无须人工介入干预。通过存储层连续数据保护系统实现存储层的CDP保护,实现14天内任意时间点数据回滚,预防数据逻辑错误。通过备份一体机实现对现有医院信息系统乃至未来系统数据的容灾备份。该方案可平滑升级两地三中心方案,在双活容灾的基础上,后续只需很小的投资可建设该城市异地的第三容灾中心,为与该院将来新建的分院区做好了连接准备。
参考文献
[1] 史子静.双活数据中心的搭建[J].信息与电脑,2016(14):21-122.