铁路运输企业虚拟化技术应用与容灾系统建设
2020-06-19陆波刘瑞林
陆波,刘瑞林
(中国铁路武汉局集团有限公司信息技术所,湖北武汉 430071)
0 引言
铁路运输企业信息化发展日新月异,运输组织、客票发售等业务完全依赖信息系统。运输企业的服务性质决定其对信息系统的稳定运行和数据备份具有较高要求。保障数据中心的高可用成为信息系统运维的首要任务,同时灾难恢复也被高度重视。虚拟化技术在企业已广泛使用多年,通过服务器虚拟化和存储虚拟化实施,极大地改善了企业信息系统基础设施条件,使容灾系统建设成为可能。在此,结合中国铁路武汉局集团有限公司(简称武汉局集团公司)信息系统实际情况,研究探讨铁路运输企业在充分保护已有信息系统投资前提下,渐进式地应用虚拟化技术整合新旧资源,完成资源池化改造,消除单点故障,建立容灾备份系统的解决方案。
1 消除单点故障
网络设备、应用服务器、数据库服务器、存储设备都会产生单点故障。以高昂的费用购买高冗余的高端设备当然可行,但运输企业信息系统建设经历了10多年,已积累大量信息设备,充分利旧和保护投资也是需要考虑的现实问题。
1.1 网络虚拟化
企业信息网络作为信息系统的关键基础设施,故障往往不可容忍,任意1台交换机故障都不应对核心生产业务造成影响,实际上网络堆叠技术早已被广泛应用。
网络堆叠技术是一种网络虚拟化技术(见图1),将多台网络设备组成1台虚拟网络交换机,在接入设备双上连时分别接入不同物理交换机,单台物理交换机故障不影响网络连接,实现了网络设备的高可靠。主流厂家的交换机产品都能很好地支持堆叠技术,其优势在于简化了网络管理,弹性扩展了交换机的端口数量,解决了网络设备高可用,已成为数据中心的网络设备必选项。目前常见的有华为技术有限公司的集群交换机系统(CSS)技术、杭州华三通信技术有限公司的智能弹性架构(IRF)技术、思科公司的虚拟交换系统(VSS)技术等网络堆叠技术[1]。
图1 网络堆叠技术示意图
由于堆叠技术的局限性,也有网络厂家提出,数据中心还可采用网络架构中“去”堆叠等其他实现方式解决网络单点故障问题。思科公司提出的虚拟链路聚合(VPC)技术就很强大,该技术是基于数据平台的虚拟化,更加灵活和安全。
1.2 服务器虚拟化
为满足企业信息系统对基础设施的需求,给运维人员提供高效运维手段,并增强基础设施的安全和可靠性,利用成熟的虚拟化手段建立资源池是最佳选择。
VMware vSphere是业界领先且可靠的虚拟化平台。用户能够从容地使用虚拟化技术纵向和横向扩展应用,重新定义高可用性和简化虚拟数据中心,最终实现高度可用、恢复能力强的按需基础架构,这是云平台环境的理想基础[2]。企业采用VMware vSphere虚拟化架构搭建基础平台,初期利用既有20台服务器建立虚拟化群集。为满足虚拟化群集设备要求,必须对服务器加配光纤通道(HBA)卡为服务器和存储设备间提供输入/输出处理,新增2台80口的光纤交换机作为存储区域网络(SAN)的存储交换机。资源分配上基本按1台物理机虚拟4台虚机的原则进行,另外预留5台物理机作为虚拟机迁移、备份、硬件维护等使用,建成1个少量资金投入的计算虚拟化池,仅占用4个标准机柜,对企业提供60台虚拟服务器,解决了几十个应用系统的资源需求,优势非常明显。
服务器虚拟化给信息系统运维带来前所未有的便利。单台物理机故障不再让运维工程师焦躁,秒级就能完成虚拟机迁移,大幅减少了宕机事件。新系统建设任务也不再是体力活,项目负责人只需在申请的虚拟机上安装系统,无须完成设备上架、磁盘初始化、驱动程序安装等工作,大大缩短了实施时间。系统成功安装后,还可保存成模板共享使用。若在用系统出现性能瓶颈,简单的操作就能完成资源扩容和服务器复制。
从企业角度看,服务器虚拟化的实施大幅降低了信息系统成本。物理服务器不再需要按年限报废,极端情况可以用到彻底无法修复。新建项目也不用单独考虑硬件设备投入,虚拟资源池将共享信息系统基础设施变成现实。以往单个应用系统配置的设备常常占用1~2个机柜,新系统设备资源闲置,旧系统可用资源不足。虚拟化实施后这些问题都迎刃而解,大大节约了机房空间,减少了硬件设备数量,降低了机房能耗。
1.3 存储虚拟化
计算资源虚拟化完成后,服务器硬件故障不再是问题,但是多台虚拟机运行在单台存储设备上,存储性能和容量遭遇瓶颈,同时存储设备成为单点隐患,维修和升级都变成难题。单存储的计算资源虚拟化池示意见图2。
基于上述问题,搭建存储虚拟化池就成为企业必须开展的工作。主要完成2个任务:一是综合利用机房已有的老存储,同时购置高性能存储,建立分层存储系统;二是突破单个存储容量限制,建立供多个服务器共享的存储池。武汉局集团公司既有存储资源情况见表1。
图2 单存储的计算资源虚拟化池示意图
表1 武汉局集团公司既有存储资源情况
在现有架构下,存储系统主要由使用多年的高端存储和新购待用存储组成。总容量空间为115 TB,已用空间为42 TB,存储总空间利用率仅为36%,但小型机B空间已用完,达到100%,小型机B和VMware虚拟化群集空间占用都超过75%,急需扩容。在现有架构下仅新购1台存储不能解决全部问题,同时老存储存在性能、容量上的瓶颈,急需整合与升级。此外,存储系统缺乏容灾保护,一旦存储发生灾难,业务系统将会瘫痪,甚至带来经济损失。因此存储虚拟化改造除了解决目前迫在眉睫的性能、容量问题外,还能通过集中存储,提升整个基础架构的易管理性、安全性,并能实现存储级别的容灾。它能将存储网络上各种品牌的存储系统整合成1个可以集中管理的存储池,并在存储池中按需要建立1个或多个不同大小的虚卷,并将这些虚卷按一定的读写授权分配给存储网络上各种应用服务器,可达到充分利用存储容量、集中管理存储、降低存储成本的目的。
国际商业机器公司(简称IBM公司)的SAN卷控制器(SAN Volume Controller,SVC)是整个SAN的控制器,可将整个SAN中各种存储设备整合成1个巨大的存储池,充分利用存储资源并按需分配存储空间、性能和功能[3],能够很好地解决传统SAN网络中每种存储系统都自成一体、像一个个独立孤岛的问题[4]。
基于存储池的计算资源虚拟化池示意见图3,是武汉局集团公司改造后的信息系统基础架构,所有存储都纳入SVC统一管理。HP 3PAR 10800和IBM DS8700主要用于虚拟化应用服务器和核心小型机。IBM DS8800和HP XP24000主要用于虚拟机备份和数据备份。
图3 基于存储池的计算资源虚拟化池示意图
随后几年中,通过更新和扩容建设,企业物理服务器得以持续增加,存储也进行了同步升级,虚拟化群集规模不断扩大,企业对基础设施需求也不断增长。目前物理机数量已扩展至100余台,虚拟池可对外提供300余台虚拟机,成为生产核心平台。随着资源池不断扩大,也带来了虚拟机管理问题,如何更高效地监管虚拟机运行状态,如何更合理地分配虚拟机资源成为需要解决的问题,于是又引入资源监控平台,逐步开始实现资源自动管理。
另外,由于高端存储投资巨大,为了寻找更多有效且廉价的存储池解决方案,尝试搭建由6台服务器组成的VMware分布式存储(VSAN)测试环境,由集中式大存储向分布式存储发展。分布式存储系统是将数据分散存储在多台独立的设备上,而传统网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但提高了系统的可靠性、可用性和存取效率,还易于扩展[5-6]。在测试环境中进行的输入和输出(I/O)测试表明,VSAN读速度为800 MB/s、写速度为200 MB/s,对比HP 3PAR存储读速度,VSAN的读速度较为满意,写速度还需提高,如果服务器数量增加到一定规模,VSAN将会有更好的表现。
2 基于存储虚拟化的服务器灾备
当前集群由2套SVC构成,分别位于A机房和B机房,2个资源池已实现互联互通,受限于光纤交换机资源不足,暂时用SVC互联实现,光纤交换机通信能力大于SVC,将来用它互联SAN网络效果会更好。SVC互联实现跨机房存储池互联示意见图4。
图4 SVC互联实现跨机房存储池互联示意图
在已实现存储虚拟化的前提下,建立服务器灾备系统则比较简单。在A机房和B机房各建立1套VMware群集,通过1个VCenter管理2个群集的存储资源和计算资源。一是在日常维护时可由人工完成虚拟服务器机房迁移;二是利用SVC镜像功能,实现虚拟机数据在2个机房存储上双写。一旦出现紧急情况,环境正常的机房可以接管另一个机房的虚拟服务器。
企业以往关键业务数据库服务器运行平台主要由小型机加集中式存储组成。上述存储虚拟化池搭建完成后,对小型机直连存储的模式进行了改造,实现通过SVC来分配存储。改造过程是利用数据库小型机安装的集群文件系统(GPFS)镜像功能对老存储和新存储镜像[7],然后拆分镜像去除老存储,从而完成数据库服务器的存储虚拟化迁移。
为进一步保障核心系统稳定运行,实现单个存储池故障不影响系统正常运行,利用SVC镜像功能在2个机房不同存储上双写数据。数据库服务器本身采用ORACLE RAC技术[8],2台小型机构成数据库集群,单个小型机停机几乎不影响系统正常运行,更不会造成数据丢失。至此,数据库服务器单点故障隐患已基本消除。
3 数据库应用灾备
多个机房基础环境同时出现问题也会威胁信息系统稳定运行,错误操作导致的数据丢失和系统不可用也可能发生。为避免这种情况影响系统运行,使用ORACLE数据库系统自带的恢复管理工具(RMAN)比较有效。只需要在灾备机房准备专门的备用数据库服务器,每日完成1次目标数据库全库备份收集,每20 min在目标数据库上执行1次强制归档,并且同步收集新增归档日志,同时记录收集时间,以此判断数据库最大限度恢复时间点。备份数据库每次收集完备份和日志后都立即实施恢复,保证备份数据库随时具备接管条件。采取这种异地备份方式可实现多个生产数据库对应1个备用数据库。跨机房数据库灾备示意见图5。只需在备用数据库上建立不同的实例来对应,且无任何额外软件费用,硬件投入也少;缺点是对网络带宽要求高,最好在万兆网络上实施,在极端情况下会出现20 min的数据丢失,属于不完全恢复,所以还要考虑应用系统恢复要求[9]。在数据丢失零容忍的情况下,可以采用ORACLE DATA GUARD来实现数据备份,灾难发生时可以完全恢复数据库[10];缺点是设备投入量大,必须按照1∶1的方案准备备用设备,在正常运行时,备用服务器实际处于闲置状态,计算资源未发挥作用,还需耗电和散热[11]。
4 结束语
经过多年建设,武汉局集团公司应用网络堆叠技术完成了网络加固,应用VMware虚拟化技术实现了计算资源虚拟化,应用SVC存储虚拟化技术实现了存储资源池建立。企业信息系统架构中的单点故障基本消除,系统稳定可靠,并且在此基础上完成了本地容灾系统建设,为企业信息系统稳定运行提供了有力保障,为云平台建设提供了基础。今后还可在改善网络的基础上进一步实现异地容灾系统建设,最终实现搭建高可用、易扩展、易维护、省成本的信息系统基础设施的目标。
图5 跨机房数据库灾备示意图