数据中心应急系统搭建
2015-12-03■
■
目前笔者单位数据中心机房有二三百台PC服务器,网站及重要的业务系统许多都运行在不同互联网接入的局域网中,业务系统安全持续运营问题日益突出,诸如病毒感染破坏、黑客攻击、误操作破坏、硬盘故障、人为破坏等安全问题,往往造成系统失常、文件损坏、文件丢失事故等问题。日常运维中发现例如服务器的主板、RAID控制器、网卡、电源、内置/外置存储等硬件出现问题,数据误删除、黑客/病毒攻击、系统崩溃、死机等软件问题都会造成业务系统的中断,造成用户数据、业务数据丢失,有时短时间内难以恢复运行, 长时间停止运行会造成不可挽回和难以估量的损失,政府对外服务形象的大打折扣,造成政治和社会等一系列负面影响。
为了保证业务系统的连续运行,各种主动被动防范的技术手段都会采用,包括防病毒、入侵检测、防火墙、双机热备、虚拟集群、数据备份等等,而磁带备份、基于磁盘的备份、Cluster/HA等传统的数据保护机制对于上述灾难都只能提供有限的保护,由于传统的保护模式成本高,恢复时间长,难以满足业务连续性的要求。
业务应急系统解决方案
业务应急系统采用数据存储、数据复制、iSCSI及网络启动等多项技术,为业务系统提供从系统到数据的全方位保护和快速恢复。它可以在业务系统正常运行时,对操作系统、应用软件以及数据进行全方位的复制,并形成多时间点、多版本的历史快照。可以同时对多个服务器进行保护。如果多个服务器上的业务同时出现故障,业务应急系统可同时应急顶替多个业务系统工作,并由系统管理员选择在网络相对空闲时将故障业务系统恢复到正常状态。对多个业务系统应急恢复时,仍然可以通过快照版本回滚功能选择最合适的版本做应急和恢复使用。
实现过程
业务应急系统对业务系统的保护分为两个阶段:业务系统正常运行阶段和业务系统应急阶段。
(1)业务系统正常运行阶段
当业务系统正常运行时,对业务系统进行在线复制,业务应急系统能自动扫描各服务器的本地磁盘信息(如C、D、E等及其各盘大小),然后对应每台服务器的磁盘在网络存储上为其分配相应的空间。根据预先设定的规则,业务应急系统自动对各服务器的操作系统、应用软件、数据及数据库实施动态差异量复制,并形成多版本镜像数据,供恢复时选用。
(2)业务系统应急阶段
当业务系统中断时,由业务应急系统接替业务主机的硬盘并启动,恢复业务系统的运行。当业务系统出现中断时,将业务主机网络启动操作系统、应用软件,并使用原有的复制的数据,数据库数据;由于在网络存储里保存着可用的操作系统、应用软件、数据及数据库等多版本镜像,因此可在数分钟内由网络启动来恢复多台服务器的运营,屏蔽各服务器本地盘的故障与问题。若所选择的某时刻的文件、备份数据有问题,则可通过回滚到其他不同时刻的版本而快速恢复到可用数据状态。
当实施网络启动操作系统、应用软件并恢复业务运营后,可在系统I/O比较少的时间(如深夜),使用业务应急系统的恢复功能,对各服务器原有的磁盘进行恢复操作;将存放在网络存储里的可用的操作系统、应用软件、数据及数据库恢复(回写)到本地盘,该操作支持对数十台服务器的自动恢复,非常便于运营管理。当完成对本地盘的全部系统和数据的恢复后,根据需要只需重启系统,并选择本地启动即可将运营切换到本地盘上。
业务应急系统与备份系统的区别
业务应急系统与备份系统的区别如表1所示。
业务应急系统的选择
考虑数据中心业务应用的现状和技术人员数量、资金等多方面因素,主要能满足以下4点应用需求:
(1)在数据中心的业务应用系统发生中断时,可以通过应急启动的方式快速恢复业务的运行,缩短停机时间,提高业务系统的可用性。
(2)在进行数据中心的业务应用系统升级、补丁修补等操作时,可以利用业务应急系统的多版本回滚功能,当升级出现问题时,快速地将业务系统恢复到升级前的版本,避免因升级而造成的长时间业务停顿,有效降低业务系统升级的风险。
表1 业务应急系统与备份系统的区别
(3)考虑到数据中心的旧PC服务器更成新服务器,其他业务应用系统迁移到数据中心机房时,可以使用业务应急系统的虚拟机启动功能,将业务系统先在业务应急系统上运行,再对业务服务器进行迁移,完成后进行将业务系统重新运行,这样就可以大大缩短系统迁移所需要的停机时间或者迁移前的准备时间,降低系统迁移的风险。
(4)为了保障在业务应用系统7×24不间断正常运行,在日常运维工作中,使用业务应急系统具备的自动多主机在线复制、镜像的功能,能够制定灵活的备份策略,全面高效地备份数据;降低系统运维人员在备份、备份介质管理等相关的维护难度,降低工作强度。
通过调研,我们选购了北京智网科技有限公司公司开发的BES业务应急系统,通过与SNS iSCSI相配合,利用基于逻辑层文件复制技术,可以用来保护用户的操作系统和数据(包括数据库和普通文件)。使用BES业务应急系统,当用户的系统崩溃时,可以在分钟级时间内将用户系统恢复正常,使之继续对外运营,如图1.
图1 软件界面
业务应急系统的使用效果
2010年部署了一套BES软硬结合的业务应急系统,保护数据中心机房重要的20多台服务器业务系统,涉及到 Windows 2000、Windows 2003、Windows 2008、等 系列Microsoft Windows服务器系统及RedHat Enterprise Linux 5以上版本平台的主机保护,系统运行了三年多时间,解决了数据中心重要业务系统的数据备份与恢复,服务器软硬件出现故障时能快速处理,起到了一定的“应急”效果。特别是运行网站及重要业务系统的服务器出现发生硬件故障时,如主板、CPU、电源、内存、网卡等,可以通过BES业务应急系统的虚拟机启动,将被保护服务器的系统及数据及时迁移到业务应急系统上运行,通过虚拟机启动模式,快速恢复运营。据统计该系统运行期间共发生了6次服务器硬件故障即2次主板,1次电源、2次内存,1次CPU故障,使用BES业务应急系统都进行了快速处理。又例如政府网站线访谈节目即将开始前,发现在线访谈系统无法打开,经检查系清理垃圾文件时误将D盘的应用程序和图片文件删除,此时已经没有时间重新部署程序并找回丢失的图片文件。我们采用BES系统的应急启动功能,发现服务器的windows 2000操作系统未有被损坏,只需恢复程序和图片数据,所以无需用BES系统中的C盘备份代替本地系统盘启动,通过点击:快照管理→选定主机→挂/卸载网络盘,将BES系统中的最新版本的D盘挂到系统中。然后在计算机管理的磁盘管理中更改盘符,将原系统中的D盘更变为其他盘符,将BES挂载的D盘盘符G更变为D盘。启动D盘在线访谈程序,程序成功运行,图片也全部恢复。等此次访谈圆满结束后,将D盘的图片数据拷贝到原D盘,改回盘符,在BES系统中卸载挂载的D盘,最后重新安装部署在线访谈程序,整个系统全部恢复,表2为主机管理列表。
结论
数据中心的业务应用系统和数据必须要重点监控和保护,保障业务系统7 X 24持续运转,因此需要突破传统数据保护仅仅对文件及数据库的保护,通过对操作系统、应用软件、数据库、数据文件进行复制,实现了对系统的全方位的保护,使得信息系统能够在遭到破坏时,利用其“多版本回滚”技术,使系统迅速恢复到故障前的正常运行状态。在实现传统意义上的安全产品(如:防火墙、防病毒、VPN等)基础上,利用数据保护技术,丰富和完善了数据中心现有的安全防护体系,提高了系统的可用性;因此,业务应急系统不是传统安全产品的替代品,而是作为数据安全体系的补充和扩展。由于业务应急系统本身可抗拒任何病毒和攻击,可有效保护业务系统和数据,特别是基于IP SAN的集中存储,成本低、容量大,扩展容易,支持RAID方式的数据保护等特点,可以大幅度提高数据中心业务系统和数据的安全性和可用性。
表2 主机管理列表