现代企业数据中心运维管理
2015-05-30王维沂
王维沂
在信息技术高速发展的今天,数据中心在现代企业运行中发挥着关键的基础性作用。本文通过论述数据中心运维管理的改进方法,为今后数据中心的发展提出了科学建议,这对于企业选择合理的IT战略蓝图及发展方向,实现业务的可持续发展,具有重要的现实意义。
一、运维管理流程
1.规划数据中心运维体系,提高各流程的集成性和可执行性,建立流程改进路线图
回顾运维管理流程的继承性和可执行性,和组织角色定义结合,完善流程的接口和衔接。定义服务交付管理流程要素,并制定服务流程建设和改进路线图,分级分步的进行,使其渐进形成可预测,可用和可度量(级别,成本等)的服务管理流程体系。支持未来服务级别、服务目录等面向服务的IT技术设施运营模式。
2.建立基于流程的运维工作管理办法,规范化流程的执行和日常工作,平滑流程的衔接
应建立运维工作管理办法,达成面向服务的数据中心运维职能和管理模型,形成数据中心运营,支持,行政,管理的职能;达成基于流程的数据中心运维管理过程,包括事件,问题,变更,发布,配置等管理流程和日常工作的融合。
运维工作管理办法应建立较完善的数据中心运维管理过程,包括运维中的主要工作和管理过程;过程间的接口;运维管理服务过程的关键保障环节。
上述职能,模型,过程要以数据中心运维管理制度和规范的形式落地,这些制度和规范包括操作规程,设备管理,机房管理,安全管理,服务支持,外包管理,行政管理,灾备管理等等。
3.建立统一的系统的应急管理办法
应急管理已经是现代企业,特别是金融企业不可或缺的管理工作。IT运维同样需要应急管理流程来提高应急处理的有效性和及时性。IT技术设施的应急管理,需要把业务的应急管理要求协同到IT基础设施上。从组织,职责,流程,技术等方面,建立数据中心应急管理办法。应急管理办法总体需求包括:
(1)数据中心应急管理办法——规定总体事件分级,报告,处理,职责等;
(2)应急预案——定义具体业务系统、设施、事件应急处理过程;
(3)和灾备管理的衔接。
应急管理办法的主要内容应包括:事件分级、处理流程、组织体系和职责、处理资源、应急演练等。最后应急管理办法中还应包括实施贯彻建议,包括培训,宣贯,演练等。
二、运维管理技术工具
全面规划集中的统一的运维监控平台,尽可能覆盖企业现有IT基础设施,包括主机设备、网络设备、存储设备、备份设备、数据库、中间件、应用软件、桌面系统等;尽可能考虑对现有监控系统(包括业务监控系统)的集成;集中化管理提供故障处理、配置数据处理、性能监控等标准的系统监控功能,同时进行数据分析和整合,并以适当的形式进行呈现,支持维护人员进行的故障定位、诊断和解决,同时为运维管理提供基本信息;统一的平台提供统一的配置管理数据库,统一的管控流程;统一展现;统一分析处理;统一采集;
监控指标体系规划,分为平台和业务两部分,平台包括生产系统的网络设备、主机、中间件、数据库、存储和备份设备,业务为各类业务系统;监控指标需要包含定性的和定量的;反映监控对象工作是否正常的功能指标;反映监控对象工作性能的指标;反映监控对象资源使用情况的指标;反映监控对象安全状态的指标等。监控指标体系是对整个监控对象技术状态的静态和动态的量化描述,通过监控指标体系的阈值定义,也是刻画整个监控对象正常运行的范围;监控指标体系的规划要综合考虑业务要求,技术特性,设备配置和业界最佳实践;同时,监控指标体系也应该能随同事件/问题处理的积累进行调整,逐步加强指标体系对预测的支持;
监控系统布署规划;对监控体系框架中不同的层次(数据层、采集层、功能层和展现层)的部署规划,包括部署的部件、位置、配置、接口、网络配置(需求)等。部署当中要考虑到多地区部署、跨地区部署、部署变更、配置管理等因素;
自动化运维监控管理技术建议。根据一体化信息监管平台建设的需要,将运维管理系统按功能划分进行现有主流产品及集成分析,推出产品选型原则。这些功能要覆盖业务服务管理平台、网管平台、安全管理平台、桌面管理平台;服务流程管理平台及自动化运维管理平台;统一的资产配置数据库,资产生命周期管理;服务交付管理平台等主要部分;从集成框架和要求出发,从技术接口、协议标准、服务咨询、技术开发等方面,对主流产品的集成能力进行分析建议,并适时进行一体化监控平台的建设路线。
三、运维管理组织
1.在IT服务管理体系中规划服务组织,定义角色,角色职责,接口。整个服务组织规划中要考虑:
(1)层次化管理功能:在集团,分支机构营业部,子公司等不同层次上,不同组织特性上,分层组织功能;
(2)集中和分散的平衡:统一指挥,分级管理;
(3)面向服务的IT运维管理功能结构:从面向服务的IT运维架构出发,建立运行、支持、行政、管理等围绕服务提供的组织功能;
(4)流程导向是基于流程管理的运维组织架构:建立组织架构和事件管理,问题管理,变更管理,配置管理等服务管理流程的协同;
(5)各组织功能描述,各组织间接口定义;沟通与配合渠道;
(6)岗位定义,岗位职责和工作内容,考评,岗位培训计划。
2.规划数据中心运维体系,提高各流程的集成性和可执行性,建立流程改进路线图。回顾运维管理流程的继承性和可执行性,和组织角色定义结合,完善流程的接口和衔接。定义服务交付管理流程要素,并制定服务流程建设和改进路线图,分级分步的进行,使其渐进形成可预测,可用和可度量(级别,成本等)的服务管理流程体系。支持未来服务级别、服务目录等面向服务的IT技术设施运营模式。
3.建立基于流程的运维工作管理办法,规范化流程的执行和日常工作,平滑流程的衔接。应建立运维工作管理办法,达成面向服务的数据中心运维职能和管理模型,形成数据中心运营,支持,行政,管理的职能;达成基于流程的数据中心运维管理过程,包括事件,问题,變更,发布,配置等管理流程和日常工作的融合。运维工作管理办法应建立较完善的数据中心运维管理过程,包括运维中的主要工作和管理过程;过程间的接口;运维管理服务过程的关键保障环节。上述职能,模型,过程要以数据中心运维管理制度和规范的形式落地,这些制度和规范包括操作规程,设备管理,机房管理,安全管理,服务支持,运维管理,行政管理,灾备管理等等。
4.建立统一的系统的应急管理办法。应急管理已经是现代企业,特别是金融企业不可或缺的管理工作。IT运维同样需要应急管理流程来提高应急处理的有效性和及时性。IT技术设施的应急管理,需要把业务的应急管理要求协同到IT基础设施上。从组织,职责,流程,技术等方面,建立数据中心应急管理办法。应急管理办法总体需求包括:
(1)數据中心应急管理办法——规定总体事件分级,报告,处理,职责等;
(2)应急预案——定义具体业务系统、设施、事件应急处理过程;
(3)和灾备管理的衔接。
应急管理办法的主要内容应包括:事件分级、处理流程、组织体系和职责、处理资源、应急演练等。最后应急管理办法中还应包括实施贯彻建议,包括培训,宣贯,演练等。
四、运维管理体系中的PDCA
为实现现代企业数据运行中心的云计算及大数据技术的蓝图规划,我们可以从流程、工具、技术及数据的标准化入手,不断完善IT运维管理体系,最终使其满足企业业务发展需求,并且完成IT技术引领业务发展的目标。而本文作者想强调的是,我们完全可以借助PDCA管理方法,缩短优化这一改进过程。
企业数据中心的建设管理体系,可分为战略管理、实施管理、运维管理,这三种管理均可通过PDCA的方法进行管理优化。
1.数据中心战略管理(P)
数据中心建设管理规划是企业信息化建设的关键,其必须符合信息化建设的总体方针和战略。因此企业数据中心的建设管理规划可涵盖以下几点:
(1)评估企业未来的业务发展战略目标;
(2)评估企业业务流程再造的可能性及具体需求;
(3)分析调研数据中心对于改进业务流程的关键支撑点;
(4)确定该企业数据中心的战略目标;
(5)本企业数据中心技术发展现状以及同业数据中心情况调研;
(6)确定数据中心未来发展的体系架构(包括硬件环境及应用系统)和运维管理模式;
(7)对数据中心现状和目标的管理模式和技术架构进行差异化分析;
(8)分析如何实现数据中心建设管理目标,并制定实施计划。
2.数据中心实施管理(D)
企业数据中心的实施管理应包括硬件环境部署、网络环境部署、业务系统实施、应用系统升级等方面的工作。所有的实施内容都应遵循数据中心的建设管理战略规划(P),并严格按照制度流程,规范化、标准化的进行实施作业。我们可参照项目管理中通常使用的管理方法,对数据中心的实施管理进行相关的操作。
3.数据中心运维管理(C & A)
数据中心运维管理的重点是确保各业务系统的安全稳定运行,保障应用系统的业务连续性,并提供给客户高效准确的信息化服务。生产系统必须具备高可用功能,如双机热备、集群管理等,并且当业务系统出现故障时,应该能够尽快恢复正常的生产运行。对应于PDCA管理方法,数据中心的运维管理可分为监控管理和变更管理。
PDCA管理方法中的Check,可以看作是运维管理中的监控管理。数据中心应具备完备的监控管理方法及监控手段,当监控到系统故障或问题时,应启动相关的管理机制或应急流程,以最及时有效的方法处理相关故障问题。数据中心的监控管理可以参考ITIL管理标准中的事件管理和问题管理。
PDCA管理方法中的Action,可以看作是运维管理中的变更管理。为解决数据中心监控管理中遇到的故障与问题,数据中心可通过变更管理对故障或问题进行修复或优化,即是PDCA环中针对Check出的结果进行Action的响应,从而杜绝已知风险,规避潜在隐患。此外,结合内外部IT审计管理,定期对数据中心的管理流程进行安全合规审核,借鉴外部审计人员的管理技术经验,防范安全隐患。(作者单位:国家开发银行)