虚拟化技术在铁路信息系统运维中的应用研究
2015-06-28王奇成
王奇成
(广州铁路(集团)公司 信息技术所,广州 510088)
虚拟化技术在铁路信息系统运维中的应用研究
王奇成
(广州铁路(集团)公司 信息技术所,广州 510088)
信息系统运维中主要有3个问题:系统持续可用、资源均衡使用和维护简便。传统应对方法存在资源闲置或不够用、资源不能灵活调配、系统维护不便的问题。应用虚拟机技术,能有效解决这些问题,在实际工作中利用4个节点运行多个高可用应用,充分验证其有效性。
信息系统;运维;高可用;IT资源;IT服务;虚拟化
随着铁路的快速发展,信息系统全面建设完成后,都进入了运行维护阶段。运维阶段的工作,因为历史沿革的原因,一直没有什么大的改变,现在面对业务形势的快速发展变化,需要改变理念和思路,引入新的方法和技术平台,来应对日益沉重的运维压力。
1 信息系统运维主要问题及传统应对方法
信息系统运行维护中最主要的问题有 3 个:(1)保证 IT 服务持续可用,持续在线,应用系统不间断运行;(2)IT 资源包括存储、网络带宽、服务器等得到均衡使用;(3)对系统进行更新维护尽可能简便。有关这3个问题的传统应对方法及其弊端阐述如下。
1.1 服务持续在线
保证 IT 服务持续在线的基本思路是对各种资源都设计出多路冗余的结构,能相互备份,消除单点故障,提高可靠性。在实际应用中,机房电源、空调、网络、存储、主机等环节都采用至少双路以上设计。
机房的双路设计称作灾备。网络、存储的双路设计体系,提供了故障转移和负载均衡的双重功效,存储网络类似于通信网络。
双路主机称为双机群集,首先提供了故障转移功能,即一台服务器故障,自动切换到另外一台,但切换需要时间,应用还是会离线。如果让两台服务器同时在线一起分担负载,当一台故障时由另外一台全部承担负载,服务器系统就不会因一路资源故障而离线,大大提高可用性。
IT 资源采用双路以上结构,投资需要翻倍。为保证服务在一段时期内持续在线,还要考虑如何应对未来的需求扩展,有两种基本策略:(1)预估未来业务需求扩展空间,预留资源,这种方式导致前期资源闲置;(2)紧跟需求变化动态扩展资源,在实际中,拘于立项申请、预算审批、工程招投标、产品订购、安装配置调试等各环节的流程,这种方式效果很不理想。所以在实际工作中,为了最大限度追求系统的高可用,往往碰到资源闲置或者不够用的问题。
1.2 资源均衡使用
各种 IT 资源均衡使用的问题,既体现在同一个应用内,也体现在不同应用间,包括两方面要求:资源使用的忙闲程度尽可能做到多点均衡;出现不均衡时或者按照特定的业务需求可以灵活调配。
资源使用的忙闲均衡,使得资源负荷减轻,故障率自然下降,使用寿命延长,IT 基础架构的整体可靠性提高,更好地发挥了所有资源的整体效能。资源的灵活调配,对于这类应用,需要在高峰期借用其它应用的资源来缓解压力,在平日把富余的资源共享出去给别的应用使用。
这种跨应用的资源均衡是传统 IT 基础架构很难做到的,原因在于传统基础架构规划很多环节停滞在静态思维模式,新形势下开展工作一般沿用原有思路,很少启用或者渗透动态、变化的理念,要在这种过于僵硬的传统架构下实现跨应用资源均衡,工作太过复杂,会产生巨大的运维风险和负担。
1.3 系统维护简便
运维中常见的几类场景:应用升级、服务器修理、网络架构调整、机房搬迁。使用传统处理方式效果都不理想,不仅经常导致业务系统中断运行,而且维护工作变得繁琐、被动。
1.4 传统应对方法的弊端
面对 IT 运维这 3个方面的问题,传统应对机制已显得捉襟见肘,它的根本原因在于传统 IT 架构不够灵活,很难跟上业务变化。
如果在业务需求和底层基础架构之间构筑一个中间层,就能够使 IT 资源的使用灵活性大大加强,即由传统的数据库服务器、客户端两层结构扩展成数据库、应用服务器、客户端3层结构。构筑这个中间层,业界称做虚拟化。
2 虚拟化技术解决方案
2.1 虚拟化概念
虚拟化是指计算机系统运行在虚拟基础上而并非真实物理硬件上。在计算机硬件或操作系统上插入一个精简的软件层,虚拟机访问物理硬件经过该软件层。多个虚拟机同时运行在单台物理机上,共享硬件资源。借助虚拟化,可降低资金成本,发挥资源高可用性和性能,提高业务连续性,加快桌面部署,减少技术支持负荷。虚拟化让基础架构更好地适应业务变化,让 IT 运营更有效率。
2.2 服务持续在线
因虚拟化技术的存在,可以方便地对 IT 物理资源进行切割分块、重组,搭配出更多的虚拟资源,形成更多有双路以上冗余设计的系统。在某些系统出现故障时,即时投入另外资源,回归双路架构模式,持续保证服务的高可用。
2.3 资源均衡使用
使用虚拟化技术,很容易做到资源的均衡使用和灵活调配。例如服务器虚拟化,多台虚拟机在一般设置下,就可以轻松共享存储空间、整机内存和计算资源。共享存储空间如果也做了虚拟化,很容易让访问数据的 IO处理物理分散到多台存储、多个RAID 组上。
2.4 系统维护方便
有了虚拟化技术,系统维护可以做到更便捷。
(1)对于应用系统升级,利用虚拟机快照保存一个升级前的可用状态,出现升级失败时可以快速复原回退。利用导出功能,可以快速建立一个用作备份的旧系统。(2)对于物理服务器修理,切换虚拟机到另外服务器上后就可以停机修理。切换支持实时迁移,切换的瞬间也不会中断业务系统。(3)对于网络架构调整,基于DNS的域名访问机制,切换虚拟机到另外网络上,更新域名服务器中记录,利用组策略实时分发到客户端,然后再进行施工。(4)对于机房搬迁,先在新机房部署适当数量的服务器,分批把虚拟机迁移到新机房,然后轻松搬迁物理设备。
总之,由于 IT 基础架构的灵活性,就不再需要用户部门太多关注和参与基础架构的调整,包括资源的维修,省却了很多业务协调、沟通,不仅大大提高服务品质,而且也能避免部门之间配合不畅带来的问题,减少出错几率。
当 IT 基础架构中全方位引入虚拟化体系后,灵活性大大增强,但整体的技术管理工作变得复杂很多,如果还是依照原有手工作业模式,风险极大,这时一定要借助专业的虚拟化管理平台来辅助管理,并全面加强人员的素质培训,才能让整体工作简化。
3 应用案例
在实际项目建设和系统运维中的一个案例,可以验证以上观点。这是由 4 台 IBM 3850 x6 服务器组建的两个 Windows Server 2012 群集,每群集两节点,每个节点可以连接到两台存储共 4 个 RAID 组,运行了 SQL Server 2012, Oracle11gR2,AD 域控制器,SharePoint Server 2013 平台,System Center 2012 平台等应用,每个应用都实现了高可用,4台服务器实现了负载均衡。
3.1 存储分配及群集架构
在两台存储上创建了 4 个 RAID 组,命名为:DS1H、DS2H、DS1K、DS2K。
总共划分 10个存储空间,分配给 4个节点,提供相关应用,如表1所示。
表1 存储空间及节点
其中节点 1、节点 3组成群集,节点 1上为主运行 SQLServer2012,跟节点 3 上 SQLServer组成AlwaysOn 高可用组,主节点分配多一些存储空间,容纳数据仓库平台,该平台是试验性,舍弃了高可用特性;节点 3上为主运行虚拟机组 1,包括以下虚拟机,如表2所示。
节点 2、节点 4组成群集,节点 2上为主运行Oracle11g,跟节点 4 上的 Oracle 组成普通 Windows群集;节点 4上为主运行虚拟机组 2,包括以下虚拟机,如表3所示。
对于AD域,由于在两个群集上都有域控制器,4个节点只要有一个节点工作,AD域都可以访问,它拥有最高级别的可用性。
其它虚拟机都运行在共享存储上,单节点故障,虚拟机自动切换到另外节点继续运行。
表2 节点1和节点3上的服务器名称、所属应用及角色
表3 节点2和节点4上的服务器名称、所属应用及角色
3.2 群集共享卷和虚拟机迁移方式
虚拟机要在群集节点间实现高可用,需把虚拟机建立在群集节点都能访问的群集共享卷(CSV)上。在群集共享卷技术出现之前,存储管理员必须在共享式存储上针对每个虚拟机提供 LUN,通过使用 CSV,所有群集节点都可以访问共享存储,每次新建虚拟机时不再需要提供新的 LUN。群集共享卷极大地简化了存储管理。
虚拟机在群集节点间做故障转移或切换,分为快速迁移(QuickMigration)和实时迁移(LiveMigration)两种方式。快速迁移是先把节点1的内存数据保存下来,然后通过网络传递到节点2后再把内存数据给还原出来,在此过程中虚拟机的网络连接会中断,中断时间随虚拟机内存大小及网络速度从几秒到几分钟不等。而实时迁移是在迁移虚拟机时,原来由节点1读取群集共享卷,改为由节点2来读取,同时节点 1上内存数据通过网络传送到节点 2。整个迁移过程中只有当节点2接替节点1读取群集共享卷时才会出现非常短暂的服务中断,中断时间仅在毫秒级别,用户基本体验不到。
3.3 创建群集角色
在 Windows Server 2012 操作系统下利用故障转移群集管理器创建一个群集角色,在高可用性向导界面中选择虚拟机类型,然后选择虚拟机,即每一台虚拟机将作为一个群集角色出现在列表中。在故障转移群集管理器中就可以对虚拟机进行手工迁移以测试高可用,当在单台物理服务器有计划停机或者出现故障突然宕机时,这种迁移会自动发生。
3.4 应用效果
数据库服务和应用服务两大类应用都取得了高可用,其中很多应用服务器部署在虚拟机上,均具备高可用能力。在应用服务器中,作为最高等级的域控制器部署在两个群集上总共4台物理服务器上,只要其中任意一台在线就能确保域的可用。两个群集总共4台物理服务器上运行多个应用,资源效率得到了充分均衡的使用。在进行服务器软硬件配置时,经常重启服务器,重启过程中所有应用都不会中断。作为应用服务器的虚拟机,在节点间迁移方便。进行负载架构调整时,省时省力。
4 结束语
虚拟化技术是云计算技术的基础与核心,当容纳众多信息系统的数据中心尚未按照云计算理念全面更新改造完成时,逐步引入虚拟化技术到 IT 系统建设和运维工作中,是解决目前信息系统运维中常见问题的有效法宝。
[1] 广小明,胡 杰,陈 龙,等 .虚拟化技术原理与实现 [M].北京:电子工业出版社,2012.
[2] Stephen R.Smoot,Nam K.Tan. 私有云计算:整合、虚拟化和面向服务的基础设施 [M].潘 怡,译 .北京:机械工业出版社,2013.
[3] 王春海 . Microsoft虚拟化与云计算应用案例详解 [M].北京:中国铁道出版社,2013.
责任编辑 方 圆
Virtualization technology in operation and maintenance of Railway Information System
WANG Qicheng
( Institute of Information Technology, Guangzhou Railway (Group) Corporation, Guangzhou 510088, China )
There were three problems in operation and maintenance of Information System, such as the system continuously available, balanced use of resources, easy maintenance. The traditional methods were with the problems of idle resources idle or shortage of resources, not f l exible deployment of resources, system maintenance inconvenience. These problems could be effectively solved by application of virtual technology. Four nods were used to run several high available application in practical work. The effectiveness was fully proved.
Information System; operation and maintenance; high availability; IT resource; IT service; virtualization
U29∶TP39
:A
1005-8451(2015)03-0039-04
2014-05-15
王奇成,高级工程师。