IT运维管理关键问题探讨
2015-05-30任耘
任耘
【摘要】 本文主要分析了目前IT运维管理存在问题及加强IT运维管理措施。
【关键词】 IT运维管理 问题 措施
一、目前IT运维管理存在问题
1.1 IT运维机制不完善,流程操作层面缺乏统一
没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后,事件预判和优先级的设定缺少统一、规范的指导文档,仅以人员的主观经验或约定俗成的方式指导事件的处理过程。有识别但无规范,有处理但无管理,有人员但忙于救火,有工具但支持力度不足。因此,“轻规范、重维护”的IT运维现状容易造成因个体技能差异带来IT运维的不稳定,直接影响维护体系的效果。
1.2经验不少,知识不多,过度依赖核心人员
在实际工作中积累的、有价值的经验仅存在于头脑之中,未能作为书面的知识记录规范地保存下来。经验始终仅能在小范围内得到传播和继承,无法在更大的范围内体现其价值。这样导致了无论是事件性质的识别、优先级的界定,还是疑难问题的分析诊断,均汇总至少数核心人员进行处理。这样不仅增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维团队整体的事件及问题处理效率。
1.3 IT运维的绩效考核机制尚不完善
主观的绩效考核难执行,客观的绩效考核难制定,模糊的绩效考核难见效。目前在绩效考核方面虽然采用填写工作表的方式对不同岗位的工作时间进行收集、评测和考核,在一定程度上体现了IT运维人员的工作量情况,但还是很难全面准确的反映IT运维人员真实的工作绩效表现。因此,IT运维人员绩效考核机制需要进一步完善,帮助组织构建奖惩分明的文化和环境,推动IT运维团队的良性持续的发展。
1.4 IT基础架构管理工具欠缺
基于门户、财务管理、采购管理、人事管理、文件服务等构成了公司的核心业务系统。这些复杂的核心系统保证了整体业务的顺畅运行。但作为支撑核心系统运行的IT基础架构,目前仅有H3C的网络监控和基于Landesk的桌面管理系统。现有的IT管理工具偏重于技术层面的故障发现及预警,对于发现的事件虽有相应的管理流程汇报,但仍未找到合适的工具为其提供全面、安全、稳定的运行支持。
1.5缺乏有效、完善的CMDB(配置项管理数据库)
目前运行维护室仅有对关键应用系统相关IT设备设施的初步梳理,虽然在一定程度上收集了部分配置项信息,但是当前仅限于关键业务的、缺乏工具支持的、简单的CMDB建设很难满足今后全面实施信息化的需求。CMDB的建设是一个长期而艰巨的任务,不仅需要更详细的配置项属性数据、更准确的相互关系信息,而且也需要一个科学有效的配置管理模式及工具予以支持。
1.6缺少面向用户的IT服务报告
运行维护室对核心系统运行提供固定周期的IT 管理报告,如:系统运行报告、机房环境报告、备份报告、年度报告等等。但由于IT管理报告的内容多以技术语言提交且仅限部门内部和少数领导使用。作为外部用户的业务部门不仅无法接触,而且受专业所限难以理解,无法充分利用IT管理报告提供的信息。
在期望从成本中心向利润中心转型的过程中,运行维护室面向外部用户时不能再以技术语言提交IT管理报告,而应该提交符合一般用户阅读需要的IT服务报告,实现IT运维的“服务于用户,为用户所用”的目的。
二、加强IT运维管理措施
2.1建立统一的IT运维管理体系,完善并规范IT运维流程
参照ITIL最佳实践并结合公司的实际情况,将IT运维管理规范化为一系列标准流程,包括服务台、事件管理、问题管理、变更管理、发布管理、配置管理和服务级别管理等。然后通过IT服务管理工具将各个IT运维流程集中在同一个平台上进行管理。基于标准的流程体系和统一的管理平台,与IT运维相关的资源(包括部门、人员)得以有效整合,并采用相互识别的“相同语言”进行深入、充分的沟通,提高生产效率和信息传递的及时性。
2.2建立基于IT运维管理流程的IT人员绩效管理和激励机制
根据公司全面实施信息化的要求,建议运行维护室组建具备完善的专业知识和管理能力的IT运维管理团队。因此,建立与IT运维管理流程体系相符的人员绩效管理及激励机制显得尤为重要。建立量化KPI,对包括服务效率及服务质量等多方面进行业绩考核。通过IT运维管理系统平台,对IT运维人员的工作进行数量和质量上的记录、统计和分析。在基于ITIL流程明确IT人员岗位职责的基础上,定义关键考核指标并通过IT运维管理系统收集数据,进行整理、分析产生绩效报告,最终实现IT绩效管理的信息化。
2.3提供面向客户的IT服务报告,为业务部门和IT运维管理提供决策依据
参考ITIL及ISO20000的最佳实践,可建立专门的工作流程对IT服务报告及IT运维服务管理信息作进一步的完善。实现向客户或业务部门以“客户化的语言”提供约定的服务信息,同时也能为内部IT运维提供有价值的管理信息。如:某个时间段内那些方面的故障出现的数量最多;那些方面的故障解决的效率最高或最低;IT维护人员的工作负荷统计;问题分布在哪些系统或设备等。这些服务信息统计,能帮助IT运维管理和决策部门进行决策和趋势分析,从而做到对IT系统中的各类问题和相应的服务状况进行全面掌握和了解。
2.4支持经验和知识的共享化
提供丰富知识库和完善管理。用户通过知识库,如FAQ、关键词检索等,可以初步搜寻解决方法,这样问题就会以最小的资源开销和最快的处理效率得以解决;IT维护人员通过知识库及时、准确地选择解决最优方案,可解决大部分常规问题;资深运维人员、专家,可以根据故障发生的频度,把经过实践证明正确的解决方案形成知识库,供其他运维人员使用;另外,相关应用系统的业务处理人员可以通过共享的知识库或实践指导库,提交或者获取相关业务处理的知识。
2.5建立并完善CMDB
实现用户、资产、以往问题的历史记录等可查询、可追溯IT运维管理系统通过组建CMDB对用户信息、资产信息进行记录和维护,并把每个事件/问题与用户以及发生故障的资产对应起来,形成历史记录以便查询和借鉴。如:某个用户报告某路由器通讯故障,维护人员就可以根据资产编号查询到该路由器以往的故障状况。如该路由器出现过多次故障,并且都是线路质量较差,维护人员则可以根据这一依据向有关部门提出线路维护申请。
2.6推行服务级别管理,提高客户对IT运维的服务满意度
在“内部市场化”的要求下,最终用户的服务满意与否将成为IT运维质量的考评尺度。为此,推行服务级别管理有利于明确用户/客户的业务需求并使之规范化、标准化。因为只有在服务双方都认可的服务范围内提供合乎需求的IT服务才能最终获得用户/客户满意的评价。比如:故障的响应时间约定、备品备件的替换原则、约定的设备巡检日期等。通过服务级别管理不仅可以提供清晰、规范的IT运维服务,根据服务级别管理的流程可以对服务的结果进行持续改进。
三、结束语
加强IT运维管理,及时发现问题及解决问题,从根本上提高IT运维效率和效果,实现IT运维知识规范化、模板化,提高客户满意度,并提升运维服务的核心竞争力。