数据中心基础设施运维管理体系建设探索
2018-10-21胡杰王广伦路启銮
胡杰 王广伦 路启銮
摘要:随着数据的大集中,以及云计算技术的日益成熟,数据中心規模越来越庞大,结构也愈发复杂,通过建立一套完整科学的运维管理体系,实现数据中心的合规性、可用性、可靠性、经济型与标准化,显得尤为重要。本文结合新一代数据中心的建设与管理经验,就建设一套切实可行的运维管理体系进行探索。
关键词:数据中心;基础设施;运维管理体系;标准
引言
与以往相比,数据中心规模更为庞大,结构也更加复杂,而传统的数据中心运维管理水平普遍较低、专业化程度不高,已无法适应机构对数据中心合规性、可用性、经济性和服务性的要求,严重影响到数据中心的生命周期,建立与信息系统同等的精细化、标准化与流程化的基础设施运维管理体系,变得日益重要。
完整运维管理体系不仅是简单的一套程序,更是一个完整的战略,最终达到加强运维管理,提高运维效率,改善运维质量、提高系统安全的目的,充分发挥对信息系统运行的支撑作用。完整的运维管理体系可通过规划、实施、评估、审计、优化的循环管理过程,持续提升运维服务质量和效率,系统、科学的指导运维管理工作,同时涵盖了人员、组织、培训、制度、流程、规范、标准、管理、平台、工具、技术等所有的运维要素,全方位的支撑运维管理。本文结合数据中心建设共性,就如何建设一套通用运维管理体系进行研究,在实际工作中,不同的业务需求对运维管理体系要求不同,不同的管理架构对流程体系的要求也不同,应结合自身业务及管理架构进行运维体系建设。
1、基础设施运维管理目标
数据中心运维期是从数据中心项目交付使用,直到项目废除的全过程,而运维管理就是为提供符合要求的基础设施系统服务,对与该基础设施服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是基础设施服务有关各项管理工作的总称。因此,此阶段的运维管理,就是用好、管好已建设交付的数据中心,以合规的运维过程,实现基础设施的可用性、安全性、服务性、经济性。
2、基础设施运维管理内容
数据中心的运维管理可以分为运维人员的管理、设备及设施的管理及运维流程的管理。其中:运维人员包括数据中心运行值班服务人员(称一线人员)、运维管理人员和技术支持人员(称二线人员)以及第三方支持人员(称三线人员)等;数据中心设备及设施主要有两方面:一是为保障数据中心的IT设备正常运行所必需的电力系统、空调与制冷系统、消防系统、综合布线系统及智能化系统等,二是包括管理工具自身的管理:包括IT基础设施的监控软件、报警系统、工作流程系统、身份认证、安全审计系统和KVM等;运维流程包括服务提供与服务支持管理,其中,服务提供主要为服务水平管理、容量管理,服务支持包括事件管理、问题管理、变更管理、配置管理;规章制度:系统操作流程、规章制度、管理办法等。
3、运维体系建设思路
数据中心基础设施运维管理体系的建设以完善的运维管理制度为基础,以先进成熟的运维管理平台为手段,以高素质的运维服务团队为保障,涉及制度、人员、技术、对象四类因素,由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维服务平台、运维服务对象六部分组成。运维管理体系各部分在实现数据中心运维管理目标的过程中相辅相成,相互配合,缺一不可。
(1)及时性:以人员素质的培养、技术的不断熟练以及流程的简约等手段满足服务承诺(SLA)指标的实现。
(2)规范性:对于例行的服务,通过建立适当的服务管理流程,交付管理流程及管理制度进行过程的有效管理;对于非例行性操作服务(响应支持、优化改善、咨询评估),制定详细的实施方案及工作配档。
(3)安全性:建立适当的安全管理机制,以规范运维服务人员的安全行为;对运维服务人员安全管理及安全要求培训,检查督促服务人员了解并遵守安全相关规定;结合安全需求、技术与标准,进行安全评估,提供安全建议;应对安全设施、网络系统进行监控、分析、报告,防止并控制风险发展事态;建立安全通报机制,及时通报安全事件相关情况和防范处理措施。
(4)可用性:冗余和备份的启用规范,建立相关的作业流程和响应机制;进行合理的人员岗位设置,重点岗位保证专人专岗并设置人员备份;应配备具有相应能力的人员和必要的工具,并定期进行培训;应选择适用的运维技术,以保证服务的可用性;足够的资源,避免由于资源缺失导致对服务的可用性带来的影响。
4、维护管理体系架构
结合数据中心基础设施运维管理的目标及内容,从资源及组织配置,流程及建设标准,管理与技术保障等方面出发,在流程、标准、人力、平台及保障等要素上,以流程为重点,建立了新一代数据中心的通用运维管理体系模型以及流程体系架构。
5、下一步工作展望
随着大数据、云计算及人工智能技术的日益成熟,数据中心基础设施的运维管理也应向新技术、新理念方面发展,未来数据中心运维管理应在自动化、流程化、标准化、信息化的基础上,在机器人智能巡检并进行工单自动派发,运用知识库进行故障的智能分析及解决,通过历史数据的发掘进行风险预判等场景上,更多的采用大数据、人工智能的技术,提高数据中心运维管理水平。
参考文献:
[1]王宏宇,陈冬梅.IT设施运维服务体系建设研究[J].电脑迷,2018
[2]陈庆.浅谈数据中心设备及机房的智能化运维管理[J].中国金融电脑,2018
作者简介:
胡杰,男,汉族,1983年7月生,籍贯山东岚山,硕士研究生,职称助理工程师,研究方向为数据中心电气系统规划、设计与建设。单位:山东省农村信用社联合社.
王广伦,男,汉族,1984年1月生,籍贯山东菏泽,硕士研究生,职称助理工程师,研究方向为数据中心制冷及自动控制,单位:山东省农村信用社联合社.
路启銮,男,汉族,1985年10月生,籍贯:山东宁阳,硕士研究生,职称助理工程师,研究方向为数据中心网络规划、设计、运营与维护,单位:山东省农村信用社联合社.