IT服务管理体系之服务可用性和容量管理
2011-10-20孟坛魁王斌斌
唐 雨,孟坛魁,王斌斌
(中国人民大学 网络与教育技术中心,北京 100872)
IT服务管理体系之服务可用性和容量管理
唐 雨,孟坛魁,王斌斌
(中国人民大学 网络与教育技术中心,北京 100872)
服务可用性管理和容量管理是ISO 20000标准化体系中服务交付流程组中的两个重要组成部分,这两个流程控制对服务交付的宏观指标的监测、记录、控制和改进。本文在总结以ISO 20000标准化体系为指导的IT服务管理体系在中国人民大学具体实践的基础上,着重介绍对服务可用性管理和容量管理两个流程的设计和执行。
IT服务管理;服务可用性;容量管理
一、可用性和容量管理流程介绍
1.可用性管理
服务可用性管理,主要关心可用率,是负责定义、分析、规划、测量和改进 IT服务可用性的管理流程。可用性管理负责确保所有的IT资源达到SLA(服务等级协议)要求的可用性,以满足对用户的承诺。比如网络主干的可用率要求是99.9%。可利用事件记录信息,对网络主干系统进行考察,每年做一次分析报告和改进措施,在此基础上加以改进。
体系文件中,服务可用性管理的流程如图1所示。
(1)在可用性管理流程中,一般需要包含3种人员角色,即:
可用性管理流程负责人,负责整个流程的执行和改进。
可用性经理,按照不同业务科室的划分每个科室设置一人,负责本科室的可用性管理工作。由于业务划分的图1 可用性管理流程关系,可用性管理是按科室独立进行,年度分析报告、管理报告可在此基础上加以合并。
可用性支持人员,一般是二线工程师,参与可用性管理的工作。
(2)可用性管理流程有三项基本工作:
可用性规划,对如何进行可用性管理进行规划,制订可用性计划等。
可用性度量和监控,平时,对可用性指标进行监测和记录、汇总;年度,对数据进行分析。
可用性回顾与改进,对上年度可用性状况形成定性结论,形成改进方案。同时,调整规定如何进行可用性管理的可用性计划。之后,在新可用性计划基础上,开始下年度的监控工作,周而复始。
(3)可用性管理流程一半要求提交下列文档:
可用性计划,规定如何进行可用性管理,我们把可用性需求、目标、监控范围和指标体系包含在可用性计划中。
可用性日志记录,记录每次的监测情况。在此基础上,笔者们还建立了可用性汇总表。
可用性分析报告,每年度对监测数据进行分析。
可用性管理报告,对上年度可用性状况形成定性结论,给出改进方案。执行中,可与分析报告合并。
2.容量管理
容量管理流程关心系统的容量是否够用。确保IT资源的容量能够以平衡成本效益的方式达到约定的服务级别目标。容量管理需依照用户短期、中期和长期需求以及业务规划综合考虑提供IT服务所需的IT资源和资源的容量。
如各关键系统的CPU利用率,内存使用率,存储空间,授权用户数;主要网络节点的上联链路带宽及高峰使用率,数据交换能力等。
体系中的容量管理流程如图2所示。
容量管理的角色、流程和文档,整个管理模式,基本上与可用性管理流程的要求一致。
在实践中,以上两个流程要求的工作,一般要在日常监测的基础上,每年形成年度分析报告和管理报告。
二、从实践到流程设计
在流程设计方面,笔者主要考虑的是制度执行成本和可行性。
比如,开始可用性和容量管理的分析报告是每季度一次。经过试用,考虑到一般系统的状况和使用环境不会发生急剧变化;而做系统改进的资金等条件,也不是按季度可以得到;同时体系执行成本会较大;我们将这两个分析报告的时间要求改为年度。
同时,我们控制了要求可用性和容量管理的系统的范围,只对重要系统进行管理,如:网络主干,邮件系统,数字人大,校园卡和主要机房的空调、电源。
对可用性管理,从事件管理、问题管理报告和可用性监测日志可以得到原始数据,笔者设计了可用性汇总表,栏目如表1所示。
表1 可用性管理汇总
其中,故障次数和故障时间在月度、季度、年度内累加。
根据我校情况,要控制超过5年设备的比例。对故障率高的设备型号、批次进行记录。把使用年限接近、超过5年的设备,和故障率高的设备类群,作为重点,列入更换计划。在体系建立以前,我们已经多年统计接入交换机的使用年限,作为项目申报依据,这成为保障网络可用性的一个重点。未来,将把设备使用年限统计表,作为可用性控制重要数据,纳入年度分析报告。
对于网络的可用性,除没有中断外,用户对网络访问速度也很敏感。我们坚持数年在每周三下午测试从每座楼到教育科研网和联通主干的网速,周三学生没有课,形成一个网络使用高峰。这也是重要可用性数据,未来要把纳入可用性汇总表。
可用性和持续性有紧密关系,我们在可持续性管理中,控制系统的数据备份和设备冗余,使系统恢复服务的事件缩短,提高可用率。
在容量管理方面的主要问题是服务器处理、存储容量需求的不断增长和网络通信容量需求的不断增长。
在容量管理汇总表中,对网络设备记录上联带宽,对服务器系统记录磁盘空间。
表2 容量管理汇总(网络设备、系统)
三、与其他流程的关联
1.可用性管理
可用性管理与服务级别管理、变更管理、事件管理、问题管理有以下关联:
(1)和服务级别管理的关联。在确定SLA(如服务内容、服务级别目标)时,可用性报告将提供建议,确保与向用户承诺的SLA中的可用性指标合理可行。SLA的可用性指标,应分解到可用性管理流程中。可用性管理报告应输入到服务级别管理流程中。
(2)和变更管理的关联。在日常可用性计划执行与监控过程中,如果涉及变更时,应提交变更请求到变更管理流程,依照变更管理流程执行。当有变更发生,特别是重大变更或业务环境发生变更发生时,需评估,必要时修改可用性计划。
(3)和事件管理、问题管理的关联。在日常可用性计划执行与监控过程中,如果发现事件或问题发生,需启动事件管理流程或问题管理流程。影响可用性的事件、问题,其报告信息应输入到可用性管理流程中,作为分析可用性需求的重要依据。
2.容量管理与其他流程的关联
容量管理与服务级别管理、变更管理、事件管理、问题管理有着以下关联:
(1)和服务级别管理的关联。在确定SLA时,容量管理报告提供信息,以确保与用户签订的SLA中的容量相关指标合理可行,而SLA的容量指标应分解到容量管理流程中。另外,容量管理报告应输入到服务级别管理流程中,作为服务管理流程的信息来源。
(2)和变更管理的关联。在日常容量监控过程中,如果涉及变更时,应提交变更请求到变更管理流程,依照变更管理流程执行。当有变更发生,特别是重大变更或业务环境发生变更发生时,需评估变更对容量指标的影响,需要时进行调整。
(3)和事件管理、问题管理的关联。在日常容量监控过程中,如果发现问题,需提交问题申请单,依照问题管理流程执行。与容量相关的事件信息、问题信息应输入到容量管理流程中,作为分析IT容量需求的重要依据。
四、目标和预期效果
管理体系的目标,是对可用性、容量状况有清晰的了解,并加以记录。每年度对其进行分析,当出现临近需求指标阈值的统计结果时,找出可行的改进方案并加以实施,使得可用性和容量状况不断改进。从而更好地支撑学校的教学、科研、管理、国际交流、社会服务等核心业务,提高用户满意度。
如果流程很好地得到执行,将增加规划和项目申请的针对性,向学校提供更有力、合理的决策依据,更好地得到国家和学校的资金支持。
[1]左天祖.ITIL白皮书[M].
[2]刘青译.ISO 20000-2实施指南(中文版)[S].
[3]Gad J Selig,中治研国际信息技术研究院译.实施IT治理:方法论、模型、全球最佳实践[M].北京:中国经济出版社.
G647
B
1673-8454(2011)17-0051-03
(编辑:杨馥红)