APP下载

信息系统运维服务管理探讨

2016-03-22南车资阳机车有限公司综合技术部

电子世界 2016年2期
关键词:信息系统

南车资阳机车有限公司综合技术部 林 武



信息系统运维服务管理探讨

南车资阳机车有限公司综合技术部林武

【摘要】本文通过对南车资阳机车有限公司(以下简称公司)现有IT信息系统运维管理现状的研究,结合ISO2000①《IT信息技术服务管理体系标准》以及ITIL②基础框架结构,从事件管理、问题管理、变更管理、服务台等方面探讨公司信息系统运维服务管理的解决方法和思路,并提出公司信息系统运维管理解决方案。

【关键词】ITIL;信息系统;运维服务

1 引言

近年来随着IT信息技术的发展,信息系统在软硬件上的投入越来越大,信息系统相互间的集中统一需求也越来越明显,同时信息系统集中统一给传统模式的运维工作带来了巨大的挑战。在信息系统生命周期中,时间和成本中相对小的一部分是属于系统建设,而占整个时间和成本的主要部分反而是系统运行维护阶段,因此三分建设、七分运维是IT信息系统的一大特点,同时目前大多数企业的信息化工作已从以前的IT系统建设为主逐步进入当下建设和运维并重的新阶段,所以IT信息技术服务管理的重要性逐步凸显。

2 公司信息系统运维现状分析

随着公司信息化建设的推进,支撑信息系统的各种IT基础设备和软件系统增多,由于缺乏IT服务规范管理而暴露了较多问题,其中主要表现在以下几方面:

➢公司目前针对所有IT服务请求,采用电话、业联方式单点联系,人工评估服务内容然后分配传达到IT技术人员,无法做到IT服务请求的记录、识别、分类及任务分配,服务完成记录、服务工作评价,也不能对IT服务请求进行汇总分析,形成解决方案。

➢公司信息系统运维管理目前局限于就某一单独事件进行处理解决,缺乏对运营支撑系统的IT基础架构资源中的各类故障、事件进行收集,同时对事件根源性进行分析,包括事件内部因素与外部因素间的关联分析;缺乏各种事件的故障定位及排除,从而导致事件中的故障不能及时发现、定位。

➢缺乏对信息系统所涉及的问题所处的区域和类别来对其进行分类,以及对问题的严重程度及其对服务器的影响程度进行归类和预防,没有对问题进行系统性的汇总管理和分析,所以难以消除引起事件的问题深层次根源,无法防止事件的再次发生。

➢公司目前对信息系统变更缺乏对业务影响的综合评估分析、对变更流程的系统管理、对变更行为的系统追踪,因此在变更过程中存在影响IT环境的稳定性风险。

3 技术解决方案

针对公司信息系统运维现状的分析,结合IT信息技术服务管理体系标准以及基于ITIL框架,可以通过构建信息系统运维管理平台,进行包括服务台、事件管理、变更管理、问题管理等基于流程的运维管理方式(如图1运维管理框架)来解决目前公司信息系统运维现状中遇到的问题。

图1 运维管理框架

3.1服务台

根据公司的实际情况,综合技术部负责提供各类信息系统IT技术服务支持,所有公司服务台应该是在采用集中式服务台为用户的单一联系点的方式上进行。

3.1.1服务请求响应

服务请求是指各系统用户与服务台进行的联系。服务台对服务请求进行记录,并对进度进行监控以及为流程控制提供量化指标。有两种服务请求主要包括事件和请求两类:

➢事件:ITIL将错误报告和服务申请都称为“事件”。

➢变更:需要遵循标准变更流程的变更,需要提出正式的变更请求。

3.1.2发布信息

服务台通在用户受到影响之前,发布信息通知用户当前或预期发生的事件。比如系统升级、病毒库更新等。

3.1.3监控基础设施

各种工具系统都允许服务台进入,并通过其来评估影响关键设备故障发生的可能性,如路由器、网关、服务器、应用系统及数据库等。服务台能通过这些工具在某个故障正对基础设施产生威胁或故障出现时自动的进行故障警告并通知事件管理。

3.1.4服务台报告管理

服务台定期对其运作是否达到了预定的标准进行核实。包括:

➢公司内部独立解决事件的百分比。

➢单位(部门)以及具体用户被处理的请求数,以及整个服务台该处理的总数。

➢事件解决的平均时间,服务请求处理完成前造成的影响和经历的时间。

➢事件答复的平均时间、被用户停止的请求数、请求持续的平均时间。

3.1.5服务台效果

用户的满意度是反应服务台运作效果的主要指标,主要包括:

➢服务请求的响应速度

➢服务请求处理的时间段是否在可接受范围

➢针对当下或即将进行的变更,用户是否得到了及时的建议

3.2事件管理

事件管理其目的在于记录、解决并跟踪IT服务运作过程中发生的各类事件,并让用户尽快恢复自己的正常业务工作,避免或减少业务中断,将事件对业务的影响降至最低。服务台作为连接最终用户与IT部门处理事故进展情况的连接平台,记录下事件以及事件解决方案的有效信息,以备其他流程(例如问题管理)参考。

3.2.1事件管理活动

图2 事件管理活动与其他流程之间的关系

事件管理中的服务请求输入主要来自监控自动发现的警告和用户通过服务台提出的申请这两个方面;事件管理的输出主要包括服务请求的应急措施或最终解决方案。

事件服务请求按照不同的来源进入服务台的请求池中,同时处于“未受理”状态。请求池中“未受理”的服务请求会按照设置的分发策略以三种方式进行分派。三种分派方式分别为:

➢自动分发:按照已定义好的资源类型对应关系自动分派给相应的系统支持人员,分派后请求状态为“已受理”;

➢手动分派:由服务台相关负责人手动分派给对应的支持人员,分派后请求状态为“已受理”;

➢主动获取:支持人员主动获取能够处理的服务请求,已经被支持人员获取的请求状态为“已受理”。

3.2.2事件管理指标

可以通过事件管理指标来获得相关数据并依据此数据判断事件发展趋势,同时为IT运维管理部门提供相关绩效量化的数据。事件管理中的关键指标包括:事件的总数,各部门(单位)/人员事件的总数,事件平均解决的时间,由支持人员独立解决的事件所占百分比,由系统供应商解决的事件所占百分比,不需要现场就能解决的事件数,能进行正确分类的事件数(或所占百分比),正确转交的事件数量(或所占百分比)。

3.3问题管理

问题管理是负责解决信息系统运维服务管理中遇到的所有潜在的或已经发生的问题,目的是找到这些问题的根源,并提供临时措施与解决方案,防止问题的再次发生或减少问题发生的数量。图3为问题管理与事件管理、变更管理之间的关系。

图3 问题管理与事件管理、变更管理之间的关系

3.3.1问题管理活动

问题管理的输入主要包括服务请求与事件管理转入、主动发现并新起草这两方面的问题。问题管理的输出包括:已知错误、变更请求、最新问题记录、问题的应急措施或最终解决方案。

问题管理活动分为问题控制、错误控制、主动问题三大块。

3.3.1.1问题控制

问题控制是问题管理的第一项活动,主要负责找出问题并调查其根源,并通过问题根源采取相关应急措施来把问题转化成已知错误。包括以下内容:

➢确认和记录问题

➢问题的归类和分配

按照问题所处的区域和类别对其进行分类,然后对问题的影响度进行分析,确认问题的严重程度以及其对服务的影响程度,进而对问题设定相关的优先级;同时根据问题的分类情况来将其分配给对应技术人员和提供相关资源,并安排处理问题的时间。

➢调查和诊断

调查和诊断是一个反复的过程,其最终目的在于通过每一次的重复调查和诊断能更加接近问题想要的解决方案。

➢临时修复

3.3.1.2错误控制

错误控制是指对已知错误的监控和管理,直到其尽可能地得到适当的处理。错误控制对已知错误从被确认到被解决的整个生命周期进行监控。其内容包括:

➢错误确认和记录

➢错误评估和解决方案评估

问题管理的人员对解决问题或已知错误时所需的资源进行评估。

➢确认解决方案和记录解决方案

问题管理将最终确认针对相关问题的最适合的解决方案,包括确定是否需要临时性修复措施还是需要确定永久性的解决方案,抑或是两者都需要。需要详细记录解决问题或已知错误的所有活动内容,以便对其进行监控和确认其处于不同时期的状态。

➢实施后评审

用于对已经实施后的已知错误变更或问题,在终止相关记录工作之前对变更进行实施后的评审。只有当变更过程成功实施后,对已知错误和所有问题及相关事件的记录工作才能终止。

➢跟踪和监控

负责对已知错误和问题的整个生命周期内的发展情况进行监控和跟踪,通过跟踪和监控确定变更的紧急度和影响度,并在必要的时候调整优先级。

3.3.1.3主动问题

主动问题管理主要关注的是运维服务以及相关基础设施的质量,注重对基础设施运行趋势的分析并根据分析结果找出潜在事件以防止其发生。

3.4变更管理

“不是每一次变更都能带来进步,但是每一次进步均由变更引起”变更管理在于对变更过程的管理,以及相应的减少因变更带来的事件或问题数量。图4为变更管理与其他管理的关系。

图4 变更管理与其他管理的关系

3.4.1变更管理与其它主要管理的关系

3.4.1.1事件管理

与事件管理存在两方面的关系,一方面变更管理在通过处理事件请求的变更来抵消事件造成的影响,而另一方面变更管理的实现过程可能可能会导致新事件。3.4.1.2配置管理

变更管理与配置管理紧密相关:通过配置管理,变更及变更影响都会被同时记录下来;变更正在处理的配置项和其他配置项之间的关系都能通过配置管理进行确定,从而显示变更将会影响到什么。

3.4.1.3问题管理

与问题管理存在两方面的关系:一方面变更管理通常会被要求去纠正错误、解决问题;而另一方面变更管理的实现过程如果没有得到很好的控制,变更会导致新的错误,引发新的问题。

3.4.2变更管理活动

变更管理主要包括变更请求记录、变更请求审查、变更请求分类、变更规划和批准、变更请求协调以及变更管理评价六大块。

3.4.2.1变更管理记录

变更管理将记录下所有的变更请求,同时当变更请求已经提交或对变更已经进行处理时,需要记录下已知错误的数量。

3.4.2.2变更管理审查

变更管理将会对已经记录的变更请求做出一个初步评估,以检查是否有不清楚、不合理、不可行或不必要的变更请求。当拒绝某项变更请求时,需要将相关原因反馈给提交变更请求的用户。

3.4.2.3变更管理分类

变更请求一旦被接受,就需要被指定该变更的优先级和类别。优先级体现的是该项变更相对于其他变更请求的重要程度,优先级主要取决于该项变更的时间紧急度和变更业务的需求度。

3.4.2.4变更管理规划和批准

变更管理通过变更进度计划表或者变更日历来对整个变更管理进行规划,包括所有批准的变更和变更的计划实施中的数据细节等内容。批准由三方面组成,分别为财务批准(成本/优势分析和预算)、技术批准(影响、必要性、可行性)、业务批准(由受变更影响的业务系统批准)。

3.4.2.5变更管理协调

变更经过批准后,将分配给相关的专业技术人员,专业技术人员他们可以根据情况创建和整合变更请求。批准的变更过程中涉及到的创建、测试、实施在发布管理中进行,同时需要关注批准的变更计划执行情况。

3.4.2.6变更管理评价

变更过程可能会出现各种列外事件,所以需要对已实施的变更管理进行评价。评价内容包括:变更活动是否达到了预定目的?系统用户对变更的结果是否满意?变更过程是否引了发其他额外事件的发生?整个变更活动是否超过预估的成本和预算?

4 结束语

本文通过对IT信息技术服务管理系统应用研究,参照ISO20000《IT信息技术服务管理体系标准》,围绕ITIL基础框架结构开展以服务台、事件管理、问题管理、变更管理等方面的探讨,结合公司目前运维管理中面临的问题提出信息系统运维管理解决方案,让公司IT运维规范管理以及符合IT服务标准,同时为今后ITIL认证做好准备。

注释:

①ISO20000《IT信息技术服务管理体系标准》着重于通过“IT服务标准化”来管理IT问题,即将IT问题归类,识别问题的内在联系,然后依据服务水准协议进行计划、推行和监控,并强调与客户的沟通.

②ITIL即IT基础架构库(Information Technology Infrastructure Library),主要适用于IT服务管理(ITSM),以及为企业的IT服务管理实践提供一个客观、严谨、可量化的标准和规范.

参考文献

[1]中国IT服务管理指南.

[2]基于ITIL®的IT服务管理.

林武 (1980—),男,四川内江人,中共党员,大学本科,工程师,南车资阳机车有限公司综合技术部应用开发室主管,研究方向:信息技术。

作者简介:

猜你喜欢

信息系统
企业信息系统安全防护
浅析建材监管信息系统的应用
基于并行构件技术的医疗信息系统的设计与实现
基于区块链的通航维护信息系统研究
装备保障信息系统集成研究现状
信息系统审计中计算机审计的应用
企业综合节能信息系统SciMES
基于环境的军事信息系统需求参考模型
高速公路信息系统维护知识库的建立和应用
基于SG-I6000的信息系统运检自动化诊断实践