APP下载

IT服务管理体系实践之问题管理

2011-10-20王斌斌孟坛魁

中国教育信息化 2011年17期
关键词:可用性知识库解决问题

王斌斌,唐 雨,孟坛魁

(中国人民大学 网络与教育技术中心,北京 100872)

IT服务管理体系实践之问题管理

王斌斌,唐 雨,孟坛魁

(中国人民大学 网络与教育技术中心,北京 100872)

问题管理作为ISO 20000体系中五大主要管理流程之一,对增强我网络中心对问题的预防和解决能力,提高中心的管理和服务水平,具有重要的现实意义。本文主要对问题管理流程、流程设计思路和通过其达成的目标加以论述。

发现问题;解决问题;问题预防;问题管理流程

一、引 言

问题管理是以解决问题为导向,以挖掘未知问题,表达、归结和处理已知问题为线索和切入点的一套管理理论和管理方法。问题是客观存在的,出现问题在所难免。关键是如何及时发现这些问题,并找出问题的原因及解决方法,对可能产生的新问题做到预测和防范,对已暴露的问题确立可行的解决方案。

问题管理作为ISO20000体系五大主管理流程之一,其研究和应用的途径是沿着IT服务中“事件管理”路线推广发展而来,与事件管理和变更管理等流程联系紧密。问题管理是为了对发生在用户使用IT中发生的问题进行管理,找出产生这些事件或故障的根本原因并解决或预防。从而为用户提供一个稳定的IT服务使用和运行环境,保障并提高服务的可用性。

二、问题管理流程

1.问题管理流程

问题管理的特点为:一是防患于未然,防止可能产生的问题演化为事故;二是发现和解决关键问题,过滤假问题,解决真问题;三是跨专业、跨科室地分析和解决问题,打通各专业或科室之间的鸿沟。根据ISO20000标准和网络中心的实际情况,总结和制定出问题管理流程如下:

(1)问题管理流程的发起,是由网络中心的一线、二线工程师在IT服务管理平台上提出问题申请单。问题申请单可以是工程师在日常工作中主动发现的问题,也可以是由事件上升到问题等的被动发现问题。

(2)问题管理负责人作为问题处理的主导者,对提出的问题进行受理和分析。确认需要受理后,对问题进行初步分类和优先级判断。

(3)问题管理负责人对该问题进行审批和分派。根据问题的类型和复杂程度等,如需要则上升提交到问题经理;再有必要时,上升到专业技术委员会进行审批和分派。

(4)问题在经过审批和分派被确认后,问题管理负责人进行任务分配。根据审批和分派给出的反馈信息,安排并递交给一位工程师独立或牵头来解决此问题,可有多人参与。

在具体解决问题的过程中,对于已经找到根本原因的问题,需要确定解决方案,以便永久解决问题。要注意的是,在问题管理流程的处理阶段,要注意是否需要通过其他流程(如变更流程等),如需要则提交到相应的流程,并和该流程人员保持沟通,了解问题的解决状况,如不需要变更,计划并组织实施解决方案。

(5)问题由工程师进行处理在将问题处理实施结果反馈给问题管理负责人后,由问题管理负责人对解决的问题进行评价、点评。

(6)把需要积累的新知识存入知识库。

(7)问题管理负责人或问题处理工程师关闭问题。

问题管理流程如图1所示。

2.问题管理流程主要角色及职能

问题管理流程中,包含的角色为:问题流程负责人、问题管理负责人、问题管理经理、专业技术委员会和一线、二线工程师。其主要职能分别如下:

(1)问题流程负责人:从总体上对问题管理流程的设计、实施、执行及优化负责,确保问题管理流程被正确执行。当流程不能够适应实际的运维情况时,流程负责人必须及时对此进行分析,找出缺陷,进行改进,从而实现可持续提高。

(2)问题管理负责人:接受问题单,对问题进行审核确认,确保所有相关问题信息都被正确记录。对问题进行分级和分类,进行最初的审批与分派。根据问题解决详细记录,审核问题,合理分派IT资源,落实执行解决方案,必要时发起变更流程并监控变更的实施。根据常见或者典型的问题整理知识库记录。

(3)问题管理经理:对问题进行审批与分派,必要时申请召开专业技术委员会(扩大)会议,确定问题的根本原因,提供问题的临时解决方法(未根本解决问题)或最终的解决方案。监控问题解决全过程,确保问题分派正确,查看问题处理结果。

(4)专业技术委员会:定期分析委员会所管理范围内的事件记录数据及信息,发现和识别问题,进行主动预防。接受问题管理经理分派的问题,将技术委员会不能受理的问题单及时退还给问题管理经理,并说明原因。分析和诊断问题的根本原因,提出解决方案,必要时协调配合第三方供应商诊断和解决问题。

(5)一线、二线工程师:发现和识别问题,并进行主动预防,必要时配合问题管理负责人诊断和解决问题。根据问题管理负责人的任务分配执行问题解决方案。

三、问题管理流程设计实践

1.问题管理流程的确定和应用

我们根据ISO20000体系标准和在实践中的不断摸索和尝试,经过多次的修改和完善,最终制定出了适用于网络中心实情的问题管理流程。

网络中心的问题管理流程是依托于已经建立起来的IT服务管理平台实现的,所有在工作中主动发现或被动发现的未知问题,都要通过IT服务管理平台上的问题管理流程来解决。根据网络中心的实际工作情况,我们将所有对网络中心IT基础架构有影响的问题都定义为问题管理的问题来源,处理过程将通过流程中定义的标准、政策和指导进行管理。

事件产生原因的确认是解决问题的前提,也是最关键的一步。因此要明确问题信息的来源,问题可能来源于某些事件的进一步调查,即通过事件管理关联到问题管理,也可能来源于主动巡检和事件报表分析。为了确定问题产生的根本原因,网络中心建立了3层审批体制。第一层为问题管理负责人,这里是接收到问题单的科室主任;若这一层解决不了问题,则向第二层递交,递交给问题管理经理,这里是网络中心的中心领导;如需要问题管理经理将问题递交给最高一层,即网络中心专业技术委员会,由委员会召开会议研究和探讨问题产生原因和解决方法。只有问题产生的原因得到了确认,才能制定出相应的解决办法,产生的问题才会得到根本的解决。

问题管理在实际处理问题的过程中,由于技术水平、资源等因素所限,可能短期内不能根本解决问题。而整个问题处理的流程是个过程控制,能否按照流程一步步的进行,对问题处理有记录、有控制,是问题处理的规范化管理。在网络中心的IT服务管理平台上,根据各个角色所应担负的责任进行了相应的权限规定,用来确保每个问题在任何时段都有适当的人员负责,从而全面落实责任制需要实行问题的有效管理方案,从而保证问题处理的及时性及有效性。

2.知识库

知识库在问题管理流程中扮演着重要的角色。在问题管理流程的最后阶段,若是一个新的问题最后得到了根本解决,可将这个问题的解决方法提交至知识库,这样以后若遇到相同或相似的问题,可以参考知识库中的信息,快速有效地解决问题,大大地提高了工作效率,也节约了人力资源。

根据我中心科室划分和业务内容等实际情况,我们定义了以下知识库结构:

(1)安全:病毒、防火墙、其他;

(2)办公:财务、工会、公文、其他;

(3)基础环境:UPS电源、机房空调;

(4)教学设施:电子屏、教师用机、投影系统、其他;

(5)卡系统:卡专网、门禁、系统、自服务终端、其他;

(6)媒体:编辑、磁带管理、摄像、其他;

(7)网络:主干设备、接入设备、网络基础服务、链路、设备配置手册、无线网络、用户主机;

(8)系统:IT 服务平台、VPN、Web、存储、刀片服务器、数字人大、虚拟服务器、其他;

(9)应用:数字人大应用系统、邮件、其他。

IT服务管理平台的知识项可以链接文件,为管理配置手册这样的知识提供了方便。因此可看出,知识库是提供相关技术的资源、信息、知识的集中体现,是知识积累的重要场所。我们通过对知识库的运用,可以充分利用知识成果,提高工作效率,减少重复劳动。

四、问题管理流程与其他管理流程的关联关系

问题管理作为ISO20000体系五大主流程之一,与其他主流程和管理流程都有着密不可分的关联。

(1)与事件管理关联

问题管理中,待处理问题的主要来源之一是通过事件管理。事件和问题,就像本质和现象,原因和结果。一个或一系列事件产生后,若是通过临时解决方法解决的,则在恢复用户IT服务后,都应该创建问题单,即新建一个问题。此问题解决后,需将解决方案等信息反馈给事件管理,以提升类似事件的解决效率。事件管理作为问题管理的主动性活动的输入,可用于进行事件趋势分析发现潜在问题。

(2)与变更管理关联

问题处理过程中,如果涉及到需要对基础架构、应用系统及操作系统等进行变更的,则触发变更管理流程。必须按照变更管理定义,提交变更请求,变更管理负责控制执行变更。变更完成后,向问题管理反馈变更执行结果。

(3)与配置管理关联

配置管理中,配置信息可用于判断问题产生的原因。在问题处理过程中,可以通过配置管理查询相关的配置项信息。如果可以将问题产生的根本原因定位到某个配置项,则必须将问题与该配置项关联,触发配置管理流程。

(4)与容量及可用性管理关联

容量及可用性管理为问题管理提供用于定义问题的重要信息。在日常容量及可用性计划执行与监控过程中,如果发现问题发生,需提交问题申请单,依照问题管理流程执行。与容量及可用性相关的问题报告信息应输入到容量及可用性管理流程中,作为分析容量及可用性需求的重要依据。容量及可用性报告作为问题管理主动性活动的输入,用于进行容量及可用性趋势分析发现潜在问题。问题管理找出与容量及可用性有关的问题,查明原因并进行纠正,以此来支持容量及可用性管理流程的工作。

(5)与服务级别管理关联

服务级别管理为问题管理提供用于定义问题的信息,问题管理流程应当遵守和支持规定的服务级别。在确定通过服务级别管理程序制定SLA的过程中,问题经理可针对SLA的指标提出相应的专业意见,服务级别经理应综合考虑各流程经理的意见,以确保制定的SLA合理和可行。SLA应得到问题管理流程的支撑,分解有关的SLA指标作为问题管理流程的指标。问题管理中,所有新定义的已知错误和解决方案均应添加进知识库中,供其他管理流程或相关人参考。

五、问题管理预期目标

问题管理主要目的是为了规范对发生在用户使用IT中发现的未知问题、找到问题所在和管理解决问题的过程,找出产生这一系列事件的根本原因,然后根据需要通过提交变更请求,或采取临时解决方法(未根本解决问题)和预防性措施来消除引起这些问题的深层次根源,以防止此类问题的再次发生,从而为用户提供一个稳定的生产和运行环境,保障并提高服务的可用性。

通过问题管理过程规范化,使之有记录,有控制,以提高解决率。通过规范问题管理流程,可拓展网络中心全体人员的思维深度和广度,不是只看到并满足于眼前的现状,而是将对未知问题的发现变成一种经常性的活动。按照ISO20000标准,结合持续性、可用性、容量管理的监测活动,可以实现主动问题管理,在中断服务的事件发生之前,发现并解决可能导致事件产生的问题。通过解决这些问题,不断的提高和升华,使我中心人员有更强的发现问题和解决问题的意识,对体系和流程的认识更深入,提供更高效稳定的IT服务。

六、小结

中国人民大学网络与教育技术中心根据ISO20000标准,已建立起比较成熟的问题管理流程。不仅有较完善的理论框架体系,而且在IT服务管理平台上得到充分实践,应用效果已经显现出来。在日后对问题管理的不断应用和探索中,会不断改善和提高问题管理流程,使之更好地实现其价值。

[1]孙继伟.问题管理的理论与实践[J].管理学报,2010(11).

[2]左天祖主编.ITIL白皮书[M].

[3]百科名片http://baike.baidu.com/view/1137807.htm[OL].

[4]慕明宜.浅谈问题管理[J].印刷质量与标准化,2006(6):46-49.

[5]Gad J Selig著,中治研国际信息技术研究院译.实施IT治理:方法论、模型、全球最佳实践[M].北京:中国经济出版社.

G647

B

1673-8454(2011)17-0037-03

(编辑:隗爽)

猜你喜欢

可用性知识库解决问题
联系实际 解决问题
助农解决问题增收致富
在解决问题中理解整式
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
解决问题的设计
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
从可用性角度分析精密空调的配电形式
医疗器械的可用性工程浅析
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究