基于CDP技术建设同城数据容灾中心
2021-12-05李小林
李小林
随着医疗信息化飞速发展,数据已经成为国家重要的基础资源,数据安全关乎每一个人,关乎企事业单位的发展。医疗机构作为居民健康保障的重要场所,健康信息数据安全尤为重要。居民对智慧医疗的需求和依赖程度也越来越高,数据安全和系统可靠连续成为不可忽视的重点。笔者基于持续数据保护(Continuous Data Protection,CDP)技术,建设同城数据容灾中心,建立持续数据保护灾难保障体系,保障了医疗数据安全和业务连续。本文结合本院同城数据容灾中心建设对其设计和实践进行探讨分析。
一、医院数据中心现状
笔者所在医院创建于1958年,是一所市属公立二级甲等综合医院,开放床位350张,职工400余人。医院信息化始建于2000年,建有完整的HIS、PACS、LIS和电子病历系统,《电子病历系统应用水平分级评价标准(试行)》分级评价三级。2017年基于CDP技术,建设同城数据容灾中心,建立持续数据保护灾难保障体系,保障了医疗数据安全和业务连续。医院新建机房2010年投入使用,按照普通标准机房规范建设。随着近几年业务发展,核心业务系统的数据不断增量,业务管理信息系统不断增多,现有机房已不能适应医院信息化快速发展的需要。
医院核心业务系统服务器通过双机热备软件实现双机热备,承载医疗业务核心应用。机房环境设施按照标准配备精密空调、不间断电源、自动气体灭火系统,在日常管理和运行当中面临以下几方面问题。
(一) 机房设施故障不可控
机房动力环境设施均按照标准建设,但存在诸多不可控因素,如精密空调故障不制冷,导致机房温度增高,引发连锁反应带来的设备异常;网络设备故障导致数据丢包,服务器硬盘、电源、主板、存储硬盘或光纤控制卡故障,导致系统宕机等,虽然此类问题发生频次极少,但是发生后对医院的影响是非常巨大的。
(二)业务数据备份难恢复难
传统的数据备份方式主要是以保存数据为设计目的,设置策略定时备份,且定时策略数据量大,备份窗口有限,队列等待备份版本之间有间隔,在策略执行期间数据有间隔,存在数据差异现象。另外以数据为主备份在还原时必须回写硬盘,验证与恢复效率低下,在紧急情况下启用备份恢复,需要花费大量的时间,给生产业务带来很大的影响。
(三)操作系统备份难恢复难
核心业务应用服务器采用双机热备模式,但边沿的业务应用服务器,由于资源限制无法实现双机热备,如移动护理、体检系统、随访系统等等,这些服务器都是单机运行,操作系统备份时需要停机操作,中断业务。即使操作系统有备份,一旦需要紧急恢复时,往往与实际环境存在差异,很难恢复到理想的时间节点,同时也需要耗费大量的时间,对业务影响也是非常大的。
(四) 数据中心管理技术有短板
基层综合医院的信息科技术力量相对比较薄弱,人力资源的配备缺口相对比较大。信息技术涉及的领域广泛,专业技术要求高,配备具有全面的数据管理技术人才队伍是比较难的。
二、数据中心容灾模式
目前最常见的几种系统容灾和数据容灾模式有同城容灾、异地容灾、双活数据中心、两地三中心,各有优缺点,在选择容灾的模式上需要结合实际场景,选择合适的容灾模式。
(一)同城容灾中心模式
如果数据中心与灾难备份中心的物理距离比较近,可以选择同城灾难中心模式,因其通信线路物理距离短,线路质量较好,很容易实现数据的同步复制,同城容灾中心可以保证高度的数据完整性和数据零丢失。同城两个中心之间的系统维护也比较便捷,在人员和技术上容易协调和沟通。
(二)异地容灾中心模式
如果需要实现高级别的容灾安全保护,比如地域可能发生自然灾害的风险较高,如火灾、地震、水灾等导致建筑物破坏,异地容灾中心模式是一种比较好的方案。因异地容灾中心模式的两个城市之间物理距离跨度大,在遭受区域性灾难的时候可以有效的保护数据的完整。
(三)双活数据中心模式
双活数据中心模式是在本地机房建立数据中心和容災中心,两个中心同时承担业务和管理系统的生产,也可切换单个中心运行,在大型的生产业务场景中,双活数据中心可以起到高效的负载均衡;灾难时可在不丢失数据的情况下进行灾备应急切换,保持业务连续运行,但是这种模式如果在本地发生诸如火灾、地震灾难时,数据会存在损坏或丢失的风险。
(四)两地三数据中心模式
两地三数据中心模式是指同城双中心加异地灾备中心,两地是指同城、异地;三中心是指生产中心、同城容灾中心、异地容灾中心。这种架构是数据中心容灾比较完善的一种建设模式,对业务生产和保护数据完整起到积极的作用,但在资金投入上比较大的,对一些小型企业来说,投入压力还是比较大的。
三、选择同城容灾体系的优势
(一) 体系建设易实现
根据医院规模和未来发展的需求,结合目前的现状,从资金投入、运维管理等方面综合考虑,选择同城容灾方案,将中国电信三星级IDC机房作为医院生产数据中心机房,将医院自建数据中心机房作为灾备中心,两地之间距离20公里比较近,通信线路质量好。用VMware vSphere搭建虚拟化平台,数据中心负责日常生产运行,灾备中心负责在灾难发生后的应用系统接管,恢复业务系统。
(二) 机房安全有保障
IDC (互联网数据中心Internet Data Center) 机房是由国家骨干光纤线路接入,带宽充足,速度与稳定性有保障,具有多方面的优势和保障。有良好的安全措施和各项先进设备,更有利于服务器快速高效的运行。IDC机房有二十四小时值班监控措施,一旦服务器有异常情况,可在第一时间接到预警并及时解决。
《中国电信星级机房标准》共分四个星级,最高五星级,最低二星级。从认证、机房条件、电源、空调、数据网络、运行维护、客户服务等几方面分级。三星级机房周围环境远离腐蚀性气体、粉尘,远离强振动源和强噪声源、强电磁辐射源,机房附近和周边治安良好。抗震级别丙级;机房(含电源机房)在不易受浑水淹没的地方,地面至少高于历史最高洪水水位0.5米以上。消防系统采用气体灭火,设置门卫,进出记录保存1年以上。机房供电采用二类市电,并备有大功率柴油发电机组,保障市电断电后2小时供电。安全防护布设按照等级保护要求规范执行第三级保护,3年以来50%以上服务器阻断1小时以上故障不超过1次。机房专人值守,客服7*24在线,专职技术工程师提供支撑。
(三)技术成熟有可靠
CDP通过在操作系统核心层中植入文件过滤驱动程序,来实时捕获所有文件访问操作。对于需要CDP连续备份保护的磁盘,当CDP管理模块经由文件过滤驱动拦截到其改写操作时,则预先将文件数据变化部分连同当前的系统时间戳(System Time Stamp)一起自动备份到CDP存储体。从理论上说,任何一次的文件数据变化都会被自动记录,因而称之为持续数据保护。利用CDP技术实现应用级容灾,备份数据的同时对操作系统及应用程序也进行容灾保护, 双重保障数据和应用的安全。
(四)数据恢复效率高
这种CDP一体化技术方案解决了物理故障、逻辑故障以及站点级灾难。数据中心和灾备中心的容灾设备之间数据实时远程复制,实现全生产数据和应用互为异地灾备,安全得到双重保护,灾备数据可即时恢复到任意秒级时间点,保证最优RTO、RPO的应用级容灾。
四、 同城容灾体系演练
(一) 演练目的
建设数据容灾的目的是在突发应急情况下能够即时启动容灾,接管应用使业务恢复正常。在系统灾难恢复体系中,应急演练(模拟灾难场景)是非常关键的,以保证系统在发生灾难后,恢复体系是有效和可用的。通过应急演练的实景模拟,确定在发生灾难后启用容灾系统接管业务实际所需时间,根据演练过程和结果优化流程,缩短灾难后业务的RTO(系统恢复所需时间)和RPO(数据丢失量)。
(二) 演练管理
应急演练(模拟灾难)的管理由领导组、执行组、系统恢复小组、网络恢复小组、系统验证小组组成,在应急演练或灾难发生后各负其职,承担指挥、制定计划、组织实施、总结汇报等职责,确保应急演练和实际灾难时的工作顺利。
(三)演练流程
当IDC机房数据中心发生不可预知的灾难后,医院业务发生中断,通过技术研判在15分钟内不能恢复应用,则进入容灾恢复流程。
场景一:两个中心间的网络链路正常;优先启用生产中心灾备,接管业务恢复应用系统,这样可以保证灾备系统有数据保护。
场景二:两个中心网络失联;由于线路原因导致两个中心之间网络无法连接,则启动医院灾备中心系统,但是本地灾备系统存在无容灾保护的安全风险,应尽快恢复生产中心运行环境,在最短时间内将业务回切到生产中心,或将恢复后的生产中心作为当前系统的灾备中心,使本地灾备系统有容灾保护措施。
场景三:生产中心应用系统故障或破坏;灾备中心系统副本远程传送到生产中心,恢复生产中心应用系统运行。
场景四:数据丢失严重或数据库逻辑错误;通过CDP技术恢复到可用时间点,恢复生产中心应用。
(四)演练结论
通过CDP技术应急演练,不论是IDC机房软硬件故障,或者是两个中心的网络链路问题,导致核心业务不能正常使用,经验证,8-10分钟生产业务就可恢复正常,数据丢失量为零。
五、同城数据容灾中心建设
(一) 建设难点
项目的可行性分析后立项是最大难点,需要医院管理层决策。虽然CDP技术在数据保护场景中的应用领域较为广泛,VMware vSphere虚拟化管理软件也很成熟,但是医疗机构是一个非常特殊的行业,数据安全和信息系统运行的连续性非常重要。在项目建设初期,由于医院采用VMware vSphere虚拟化管理核心生产业务信息系统案件较少,同时又选择同城非本院机房作为数据中心将生产中心放在20公里以外的IDC机房,可以借签的案例更少,医院管理层确定是否立项面临选择的压力是非常巨大的。
网络链路稳定对整个数据中心和容灾中心的运行至关重要。医院的核心生产数据中心建在院外,医院内的全业务信息系统依赖网络与数据中心联通,系统运行是实时的,任何影响网络链路出现网络中断引发的后果都是非常严重的,会给医院的正常医疗秩序产生巨大的影响。
(二)设计思路
将距离医院20公里以外的中国电信IDC机房作为医院生产数据中心,同时建立灾备中心,将医院自建机房作为容灾中心。用VMware vSphere搭建虚拟化平台,组建虚拟集群;数据中心承担医院日常信息系统生产业务,容灾中心承担灾难后的应用接管,作为紧急线路故障無法短时间连接数据中心时容灾使用,两地三个中心完成医院全业务的数据运行和数据保护。
(三) 解决方案
为保障同城数据中心项目能够立项和顺利建成,前期医院做了充分的准备,从项目调研、立项、系统搭建、环境测试、模式运行、实战演练、正式上线共历时12个月,完成了整个项目建设。网络线路方面,两地布设6根裸光纤,采用三主三备冗余模式互联互通。数据容灾采用CDP技术实现秒级持续数据保护,一旦数据中心出现问题,灾备中心可在5分钟内启用,恢复业务生产。如果IDC数据中心与本院机房的网络线路全部故障,无法在短时间内容修复,则立即启用本地容灾中心。在实际系统测试和实战演练阶段,项目组采用网络线路拔除,直接引发系统宕机,多次验证线路冗余和数据持续保护的可靠性。
(四)建设亮点
医院同城数据容灾中心项目的成功建设,成为当地唯一一所采用同城数据容灾技术构建信息化底层基础应用的医院,结合实践,主要有几大亮点。一是一次性投入资金少,医院不要采购大量的服务器和存储设备,利用电信IDC机房的现有资源,根据医院实际需要合理分配物理资源分批投入;二是软件技术成熟,CDP技术和VMware vSphere虚拟化管理软件都是当前应用比较广泛的技术和软件,应用领域广泛,成熟可靠;三是数据中心安全有保障,IDC机房环境稳定,24小时有人值守;四是应用搭建效率高,,系统部署块,软件易上手部署应用服务器30分钟内即可完成,较物理服务器部署节约近5倍以上的时间;五是数据应用恢复快,数据保护使用的CDP数据持续保护技术,容灾恢复可以到历史任意时间节点,5分钟内即可恢复业务生产;六是运维人力成本低,数据中心和容灾中心统一资源管理,操作简单,医院信息科维护人员容易掌握技术要领,可以独立完成系统的维护工作。
在项目建成近几年中,突发不可预测的宕机事件为零,笔者在真实工作场景中因服务器安全漏洞修补出现过1次服务器宕机,实景验证同城数据容灾的应用恢复和数据恢复,在既定的5分钟内恢复应用业务,数据正确有效。
六、结语
新形势下医疗信息技术的发展,必须要有快捷高效安全的系统灾难恢复体系做保障,建立同城容灾中心,利用成熟的IDC机房作为生产业务数据中心比自建机房更加可靠。利用CDP技术构建数据灾备体系,投入成本低,容易实现,安全有保障,运维简单高效等特点,尤其在24小时连续业务环境中,更能体现出很强的数据保护优势,值得推广和实践。
作者单位:张家港市第六人民医院信息科