企业级数据中心运维管理探讨
2018-03-08王振宇
王振宇
摘 要 随着科技的不断发展,信息技术水平不断提高,推动了企业的信息化水平,提高了企业运营效率和竞争力。作为企业运营数据、计算和存储的数据中心也成为各领域各行业的核心机构,但是目前数据中心运维管理水平普遍较低,不能适应和满足网络信息系统发展和业务发展实际需要。数据中心运维管理需要灵活的管理机制和方法,让各技术层面协同工作有機配合并不容易,同时也需要企业数据中心管理人员提高管理水平,加强运维管理,向着高可用、高效稳定、低成本和运维管理自动化的方向发展。为此,我们需要进一步分析和探讨数据库中心的运维管理现状,不断完善和改进运维管理手段和能力,全方位提高运维管理水平。
关键词 数据中心;运维管理;IT运维;运维服务;业务驱动管理;运维管理自动化
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)205-0148-02
如今,作为企业数据传输、计算和存储的数据中心,集中了各种软硬件资源和关键业务系统,这也让数据中心的运维管理变得很困难。首先,依据上层业务的角度来看,计算是数据中心的主要任务,要确保服务器、数据库、中间件和Web等运行正常。其次,依据运维和服务的角度来看,数据中心各个方面的服务质量和服务流程是影响企业业务的直接因素。最后,从技术发展趋势方面来看,一定要将数据中心软硬件资源的各项指标标准化,最终实现运维自动化。这一过程需要灵活的管理机制和方法,需要业务相关部门协调配合,健全运维管理机制,从而实现企业级数据中心高效运行。
1 企业级数据中心运维管理工作范围
企业级数据中心运维管理工作主要包含4个部分,其一是数据中心信息系统的运维管理,数据中心的信息系统主要包括运营支撑系统、企业资源管理系统、客户服务系统、办公自动化系统、监控系统等多种数据信息系统以及承载的小型机、服务器和网络设备等硬件资源。其二是数据中心数据库及存储管理,数据库是系统的核心,存储是承载数据的硬件设备,保证数据库及数据安全和存储管理是数据中心运维管理工作的重中之重。其三是数据中心机房的网络管理,对网络设备包括交换机、路由器、防火墙、负载均衡等设备进行统一配置和管理,保证网络的正常运行。其四是数据中心机房环境管理,对数据中心的监控以及机房环境进行管理,运维对象包括入侵监测系统、精密空调、视频监控、环境监控、门禁系统、电力设备系统、消防系统等。
数据中心运维管理的主要任务是配置管理、变更管理、故障管理、监控管理以及资源管理。配置管理主要是指对数据中心的核心系统、核心设备以及机房环境等配置相应的档案库,提高数据中心的运维管理水平,充分调动管理人员的工作积极性和主动性。变更管理主要是指根据数据中心的业务需求和运维管理需求,对网络配置、存储资源、软件系统、硬件设备、机房环境,调整业务数据,升级和更换参数配置。故障管理主要是指数据中心对相关部门反映的问题和运维管理中出现的问题,及时进行处理和解决。监控管理是指对网络系统的运行性能和运行状况、存储系统、信息系统、主机设备、机房环境等进行实时监控,定期进行巡检和维护,全面掌握系统运行情况和运行趋势。资源管理是指对数据中心的网络资源、存储资源、主机资源以及环境资源进行管理规划,优化资源配置,根据不同的需求及时调整资源配置,提高数据中心资源利用率。
2 企业级数据中心运维管理面临的挑战
从企业级数据中心运维管理发展现状看,主要体现出如下问题:
现状一:IT运维人员成本偏高。据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业因为业务的需要实施了很多IT信息系统,使得系统运行越来越复杂,也越来越难管理。同时,IT运维成本过高的一个原因是IT运维的自动化程度很低,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括培训、人员流失、招聘成本等。
现状二:处在“救火式”的IT运维方式。国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:IT运维人员终日忙碌,维护难度高,运维工作压力大而不受重视;故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应。IT运维服务人员的工作始终得不到业务部门的认可,而且工作量也难以量化。
现状三:IT运维服务管理方式缺乏创新。IT运维服务管理方式效率低下。运维管理通常是企业运维部门根据技术类别需要培养各方面的IT运维人员,技术水平层次不齐,岗位设置不够合理,技能考核不够专业,技术监控水平落后,疏于管理,缺乏有效监督,工作效率低下,管理方式缺乏创新。
现状四:运维管理技术落后。近年来信息系统的软件和硬件都趋于集成化和实现云计算,对数据中心运维管理的能力提出了新的要求,目前数据中心的IT运维管理技术已经不能满足各个行业业务发展周期变化的需求,限制了很多企业的创新和发展,需要不断改进运维技术手段和运维方式,提高运维管理水平,满足业务发展的需求。
3 提高企业级数据中心运维管理能力的有效策略
3.1 提高运维管理人员的综合素质,加强团队建设
管理人员是数据中心运维管理的关键核心,只有不断提高运维管理人员的综合素质,才能不断提升数据中心运维管理的水平。可以通过多种形式,鼓励管理人员学习更多的运维管理知识,提高自身的运维操作技能,充分调动工作人员的积极性和主动性。开展数据中心运维管理的系统化、专业化培训,重视运维技术的学习,激励管理人员探究数据中心的信息系统建设,提高对企业的认同感。endprint
运维人员管理问题,关键在于运维工作分配业绩考核。可将运维人员根据技能层次水平分成一、二、三线支持,不同运维人员各司其职,能使有限的运维力量得到合理利用,整体工作效率将明显提升,同时也方便对各自的工作业绩进行评估,再据此制定相应奖惩措施和制定技能培训规划,也能提高员工工作积极性。加强运维团队的建设和管理,有利于沉淀内部知识积累,快速培训新员工,减少核心员工离职带来的冲击。
3.2 确立以业务价值为核心的业务驱动管理的管理思想
为了不断提高数据中心运维管理的能力和水平,必须加强对业务环境的了解和分析,健全运维管理机制,提高决策能力。及时了解和研究业务环境,首先需要找出数据中心信息系统和业务环境之间的关联因素,深入分析业务环境对信息系统的影响。其次,仔细分析业务环境的变化内容,研究业务发展趋势。最后,正确分析业务环境影响因素,评估业务环境的风险,提高数据中心建设发展决策能力。
要在运维管理的战略層面上建立“业务驱动”的运维治理和管理思想,使得业务部门的目标和运维管理的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和运维部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务发展”的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
3.3 引进先进的运维监控管理技术
企业级数据中心要积极引进先进的运维监控管理技术,不断提高运维管理自动化水平。做好业务系统与信息系统的结合,利用先进的管理方式和自动化运维监控技术,不断完善和提高数据中心系统的运行效能,构建以业务和客户服务为中心的运维管理体系,加强技术能力团队建设,制定规范的运维管理制度,提高数据中心运维管理效率。
3.4 数据中心运维服务管理的创新
企业级数据中心运维管理工作经过不断发展和探索,目前主要包括自营管理和外包管理,随着IT系统复杂程度的增加,对于IT运维能力的要求也越来越高,自营服务的成本已远远大于外包服务的成本,在某些非关键的领域,应该引入IT运维服务外包这一创新管理模式,以降低服务成本并得到专业的运维服务,同时将企业自己的IT运维人员解放出来,做更有价值和意义的工作。
IT运维服务外包存在一定风险,关键在于对于IT运维服务外包供应商的管理不到位,具体体现在招标环节疏于审查、过程监督环节疏于监管、以及事后评价环节疏于考核。通过在招标环节加强对供应商资质、能力水平、案例等考察可以有效的对供应商的资格进行把关;通过在服务过程中加强监督可及时发现供应商提供运维服务的真实能力水平;通过事后评价可以建立运维服务供应商的退出机制,保证供应商提供优质的运维服务。
4 结论
企业级数据中心运维管理是一项系统的工程。加强运维工作科学管理和高效运作,同时全面提升包括业务各部门协同管理、高效运作的能力,从而持续推进企业的信息化建设,建立与信息化发展相配套、相适应的整体设想,通过持续、科学的管理,保障企业信息化的快速,协调、可持续发展,满足企业业务发展要求。企业级数据中心运维管理是对计算机系统进行综合集中管理,既面向资源又面向应用,同时还面向运维管理人员,是人才、技术、流程和工具紧密结合的系统工程,要不断创新运维管理思路和方式,采用先进科学的技术手段,使企业级数据中心运维管理水平达到新高度,以适应时代发展的需要。
参考文献
[1]朱伟雄,王德安,蔡建华.新一代数据中心建设理论与实践[M].北京:人民邮电出版社,2009.
[2]林予松,李润知,刘炜.数据中心设计与管理[M].北京:清华大学出版社,2017(8).
[3]韦琛江,谷和启.浅析企业级数据中心运维管理[J].信息系统工程,2013(8):66-67.endprint