工程机械企业IT灾备系统建设
——记广西柳工机械股份有限公司本地灾备系统建设
2013-01-06杨波
杨 波
(广西柳工机械股份有限公司信息技术部,广西柳州 545007)
工程机械企业IT灾备系统建设
——记广西柳工机械股份有限公司本地灾备系统建设
杨 波
(广西柳工机械股份有限公司信息技术部,广西柳州 545007)
简要阐述了中国工程机械行业中IT基础系统建设的共性,从企业特点与灾备系统建设的相关性方面,分析了容灾备份能力关键指标RPO和RTO与IT核心系统的关系,以广西柳工机械股份有限公司的灾备系统建设为例进行分析与阐述,提出了一条企业IT灾备系统的建设思路。
容灾备份;存储区域网络;连续数据保护;数据恢复点目标;数据恢复时间目标;总体拥有成本
如今,信息已成为企业生存发展的必不可少的元素。随着越来越多的企业认识到IT系统在信息处理过程中的迅捷和高效,ERP(企业资源计划)、PLM(产品生命周期管理)等各种类型的IT系统相继在多个企业中得到运用。IT系统在加速企业信息处理流程的同时,也产生了更多的数据。各类主数据、交易数据、电子文档、报表是IT系统最重要的数据,这些数据对绝大部分规模以上企业来说,是支撑企业存在和发展的信息化基石。对这些数据的保护重要性不言而喻。信息技术的应用程度越高,数据的备份就越显得重要。在很多关键业务系统中,存放在机器上的数据往往比机器本身还要昂贵,因此对系统和业务数据的备份就成为非常重要的工作。备份的目的是在系统出现故障或灾难时能够快速地恢复系统或数据。要能够做到快速灾难恢复,就必须设计好灾难恢复方案,选择一个可行的备份策略[1]。
顺应数据大集中的趋势,很多企业均已建设或在建设自己的数据中心。企业绝大部分信息系统都在数据中心内运行,IT系统承载着公司的各项业务,进一步促进信息系统的集成和整合。将分散的数据集中到了一起,零星数据变成了海量数据,数据量从原来的几GB到几十GB,变为了几百GB到几TB,甚至几十TB,大数据的概念也由此而来。数据量的剧增也给备份和管理带来了机遇和挑战。首先数据的集中存放,使集中备份成为可能。然而,要实现对海量数据的集中存储备份和统一管理,采用原有的传统磁带机、磁带库等备份设备的备份方案很难达到备份目标。磁带或CD备份是一种最便宜的方法,也是较为有效的方法,但是它的恢复却是最慢的。而磁盘热备份与全系统热备份的成本就比较高,但它的恢复速度是非常快的[1]。因此,连续数据保护、虚拟带库、重复数据删除等先进备份技术应运而生,这些技术的出现,对于构建新型高效的灾备方案,保证业务数据的高效及安全,提供了强有力的技术支持。
1 现行国内工程机械行业IT灾备模式分析
对国内一些主要工程机械企业的研究表明,这些企业在IT系统建设上都有很多共性:(1)用于业务支持的IT系统很多,核心的ERP系统采用国际上较为完善和通行的大型应用软件,如SAP或ORACLE系统,对IT系统的支持和保障要求很高。(2)园区内都有两个或两个以上的机房或数据中心。(3)核心IT系统都采用高端存储设备,使用光纤SAN链路,有一定的数据容灾能力,但是没有完整的应用容灾系统。(4)大型IT项目建设的时间跨度很大,在IT建设的各个阶段逐步引入多种技术方案,各个方案的建设需要保持平缓过渡,有利旧要求,以实现对原有投资的保护,降低IT的建设成本。
工程机械企业园区占地面积较大,有条件在几百米甚至上千米外的同一园区内建设自己的另一数据机房,如另一栋楼、另一片厂区等,使得本地灾备系统可以建立在本园区内的另一机房。虽然不能避免地震、洪水等自然灾害,但是通过合理地设计和配置,已经可以在很大程度上避免火灾和停电等外部因素的影响。通过在园区机房间内建立FCSAN网络,使得备份可以得到较高的效率和较好的成本控制,免去了租用高成本的光纤链路与额外的人力资源管理成本。
对于核心应用系统的保护,最基本的是要避免系统的单点故障。主机端使用双机热备技术,网络端使用双核心的架构,存储端使用镜像或连续数据保护系统,通过以上对应用系统的规划设计,基本上可以避免主机、网络、存储端的单点故障。通过连续数据保护系统还可以降低逻辑错误、误操作等风险。
制造业对IT投入的成本较为敏感,在满足企业对IT系统数据备份要求的同时,希望降低IT总体拥有成本(TCO)。通常情况下,由于SAP、ORACLE等大型ERP系统使用高端的小型机服务器,出于成本方面的考虑,园区内的主机房通常用于存放一套核心和主要业务系统,并对核心数据进行保护。园区内的备份机房主要用于存放备份设备及部分其他应用。而工程机械行业的离散制造的特征,决定了企业对IT的投入需要按实际情况分阶段进行投入,并且各阶段的IT建设需要保持连续性,以保护原有投资,避免重复投资和浪费。企业的灾备系统建设只有适应该特征,才能在满足需求的基础上制定出性价比最优的方案。
数据备份系统通常会通过两个最重要的指标来进行评估:RPO和 RTO。RPO(Recovery Point Objective),即数据恢复点目标。主要用于评估业务系统所能容忍的数据丢失量,在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO为异步传输数据排队的时间,对于时间间隔较大的数据备份而言,RPO等于连续两次成功备份的时间之差。RTO(Recovery Time Objective),即恢复时间目标。主要用于评估所能容忍的业务停止服务最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间。RTO描述了应用恢复过程需要花费的时间,即从恢复过程开始到恢复过程成功完成所经历的时间。RTO值越小,代表灾备系统的恢复能力越强。RPO和RTO的关系如图1所示。
图1 RTO和RPO示意图
RPO针对的是数据丢失量,而RTO针对的是业务连续性中断时间,二者没有必然的关联性,但都是判断企业灾备能力的关键指标。RTO和RPO的确定不仅仅是IT部门的事情,而是需要在对企业业务系统和IT状况进行风险分析和业务影响分析后,才能根据不同的业务需求确定合适的值。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。通常情况下RPO与RTO越小,系统的可用性就越高,用户需要的投资也越大。
在工程机械行业中,核心系统通常为ERP系统和PLM系统。对ERP系统来说,绝大部分数据的录入都需要有原始单据,原始单据会有相当长的保留期,因此对于发生短时的系统不可用或数据丢失的情况,可以在后续进行单据补录,RPO和RTO越大,后续的系统补录工作就越大,对EPR周边系统影响越大,同时各系统间的数据一致性就越难保证,因此ERP系统对于RPO和RTO的要求较高。而对于PLM系统来说,数据都是在系统上进行实时录入的,数据丢失就意味着很多设计图纸丢失了,对RPO的要求相对ERP就更高。由于现在企业中的IT系统众多,从十几个到几十个,甚至上百个,相互间通过中间件或接口进行连接,数据流非常复杂,保证数据一致性也是必须要考虑的重要因素。因此在进行RPO和RTO定义时,IT部门需要与业务部门进行充分沟通,考虑各系统的特点,规划和平衡其影响程度、范围、成本的关系,才有可能得出相对合适的指标。
工程机械行业中这些大型企业,均采用了大型的FC-SAN为承载核心业务数据的基础链路。大型FC-SAN被称为“FC+LAN”双网结构,这是指该系统由FC光纤通道网络和LAN以太网络共同构成,其中以太网络负责工作站与服务器及工作站之间的元数据信息传输和交换,FC光纤通道网络只负责实际数据的高带宽传输。这种网络结构可充分利用两种网络的特点,发挥出这两个网络的最大效率[2]。后续灾备方案也将基于这种网络进行设计。
2 柳工灾备系统建设方案介绍
企业IT灾备系统的建设通常从备份开始做起。而离散制造业IT系统有自身的特点,与金融证券业以及业务连续性要求较高的汽车制造业相比,其RPO和RTO要求相对较低,因此其对备份的要求也随之降低。针对柳工的备份需求,根据业务的特点和业务系统的数据规模,柳工数据灾备项目分为三期进行。
广西柳工机械股份有限公司(以下简称柳工)的灾备系统建设目前已进行了三期。
第一期为企业磁带库建设,目的是实现基本保护,项目一期跟随公司SAP项目同时启动,企业的数据量备份需求由100G级上升到1 000G级,通过部署企业磁带库和网络版备份软件,使用IP架构进行备份,将一些主要的应用系统数据和文件备份到企业磁带库。
第二期为连续数据保护系统建设,目的是对核心系统实现重点保护。由于当时企业核心系统数据量已超过5TB,系统的备份窗口超过24h,恢复窗口超过48h,传统备份已经无法满足进行快速备份和恢复的要求。同时,由于核心系统业务的复杂性,产生了对逻辑错误进行保护的需求,因此企业部署了连续数据保护系统,使用SAN架构进行数据同步,达到基于时间点的数据保护,核心应用系统的RPO指标数量级由一天级提升到分钟级,RTO指标达到4h以下。通过对日志卷的回滚,具备快速恢复到保护期内多个时间点的能力,当恢复到一个时间点后,发现不是最佳恢复点还可以选择恢复到另一时间点,这在实际使用中非常实用,并且能够实现在不影响生产环境的前提下,快速搭建与生产环境一致的测试环境。连续数据保护系统可以对逻辑错误进行防护,因而具有一定的本地容灾能力,通过采用HACMP的双机热备系统实现对主机端的保护,通过连续数据保护系统实现对存储端的保护,使得在主存储系统出现逻辑错误时可以进行快速数据回滚,而在主存储出现物理故障时可以快速切换到备份存储,并且可以选择时间点恢复数据,实现分钟级的RPO。值得强调的是,本方案支持的主备存储为异构系统,即不同品牌、不同型号。这为企业在技术方案设计和设备选型上提供了很大的灵活性,有利于对企业原有IT基础设施进行利旧。将原有中端存储降级为备存储,新引入高端存储作为主存储,既提高了整体性能和可靠性,也让原有IT基础设施得以继续沿用,降低了项目成本。
第三期为对大数据的全面保护。随着企业业务的发展,项目开始时IT系统的数据总量已经超过20TB,传统的数据备份设备很难达成RTO和RPO备份目标。为此,采用了带重复数据删除功能的虚拟带库备份解决方案。以带消重功能虚拟带库为前端,提高并发备份作业数并缩短备份窗口,以速度相对较慢的物理带库为后端,以降低备份成本。在备份链路上采用以太网络和光纤SAN网络组合的方式进行搭建。对于数据量大且重要程度高的业务系统采用高效的SAN网络进行备份,对于数据量小的业务系统和海量的文件存储采用经济的千兆以太网络进行备份。最终的拓扑示意图如图2所示。
图2 备份拓扑示意图
通过三个阶段的IT备份系统建设,柳工在复杂环境下成功部署了整套本方案,连续数据保护与虚拟带库、物理磁带库结合使用,形成高中低搭配,分层次的备份体系,能够满足不同系统和数据的备份需求,公司形成了一套较为完备的本地备份容灾方案,并且可灵活扩充到同城或异地备份容灾,为柳工后续异地备份容灾的规划实施做好了准备。
3 结束语
企业业务的扩张导致企业IT系统的扩张,与此对应的是海量的数据和对数据备份容灾的要求越来越高。由于工程机械制造企业的行业特点和对成本控制的敏感程度,使得企业在进行灾备系统建设时,需结合企业自身的特点,依据从粗到细、由简入繁的原则,达成从无到有并逐步完善的目标。通过统一规划、分步实施,充分利用现有先进的备份技术构建适合本企业的备份容灾方案,才能设计和实施最优TCO方案。
[1]于宁斌.IBM UNIX&Linux -AIX 5L系统管理技术[M].1版.北京:电子工业出版社,2003:496.
[2]王改性,师鸣若.数据存储备份与灾难恢复[M].1版.北京:电子工业出版社,2009:52.
IT Backup Disaster Recovery System Construction in Engineering Machinery Enterprise
YANG Bo
(Guangxi Liugong Machinery Co.,Ltd,Guangxi Liuzhou,545007,China)
Taking the application of backup disaster recovery system in Guangxi Liugong Machinery Co.,Ltd as an example,it briefly describes the common IT infrastructure construction in the domestic construction machinery industry,analyzes the enterprise features and the construction of disaster recovery system,builds the relationship between the backup disaster recovery capability key indicators RPO and RTO and IT core system.It puts forward the idea of the construction of an enterprise IT backup disaster recovery system.
Backup and Disaster Recovery;Storage Area Network;Continuous Data Protection;Recovery Point Objective;Recovery Time Objective;Total Cost of Ownership
TP315
A
2095-509X(2013)05-0071-04
10.3969/j.issn.2095 -509X.2013.05.018
2013-03-06
杨波(1974—),男,广西柳州人,广西柳工机械股份有限公司工程师,主要从事IT大型应用系统集成、运维管理、系统架构分析方面的工作。