从巴克莱银行的IT服务管理体系浅谈IT运维流程的建立
2015-10-21魏季
魏季
ITIL作为IT服务管理流程的最佳实践方式,在很多领域都取得了巨大的成功。作为全球规模最大的银行及金融机构之一的巴克莱银行在ITIL落地及实施方面也处于全球领先位置。通过巴克莱银行的IT服务管理体系我们可以看到以下三个特点:
一、组织结构合理,各部门职责明确
巴克莱银行的IT组织分为生产(Production)及应用(Application)两大部分。其中生产部分可视为一个整体,为所有用户提供统一的基础支持服务;而应用部分并不是一个整体的部门,由分散在各个业务部门下的小团队组成,每个小团队仅为所属业务部门提供特定的IT管理及开发服务。
(一)业务部门与IT部门联系紧密,沟通顺畅
以巴克莱IT组织的应用部分为例,这种“业务部门内含IT团隊的模式”可使IT人员与业务人员为着同一目标协同工作,IT人员不但能在业务氛围的影响下深入理解业务需求,而且由于专注于单一方向,更能做到引领业务发展。
同时,在业务部门需要IT生产部门支持时,本部门IT人员能够清楚的了解所需资源的类型与数量,并能与IT生产部门在技术层面上进行良好的沟通与协商。
这种结构模式大大缩短了业务部门与IT部门沟通所需时间,提高了沟通效率。
(二)一、二、三线支持团队界限清晰,专注于各自领域
以巴克莱IT组织中的生产部分为例,为用户提供的所有基础支持服务均可分为一、二、三线。如,网络、数据库、服务器等均拥有自己的一、二、三线支持团队。
其中,一线为帮助台团队,通过服务热线能解决大部分常规问题。若不能解决,则转至二线支持团队。二线支持团队,负责日常运维及监控分析。若有不能解决的问题,可要求供应商至现场协助解决。三线支持团队,在巴克莱被称为工程设计团队,主要负责所属服务的结构规划、发展策略、使用标准、产品选型、版本更新等等。若二线团队在运维过程中有任何建议及需求,可向三线团队提出,由三线团队负责调研实施。
这种分工方式使一、二、三线团队只需关注本职工作,提高了专业程度和工作效率,是IT运维服务分工精细化的一种体现。
(三)设立独立团队进行容量管理及项目实施
在巴克莱IT的生产部分中,除网络服务、数据库服务、服务器服务等基础支持服务团队外,还有容量管理、项目实施等其他团队。
容量管理团队负责基础设施的采购及优化管理。采购方面,该团队每月与各部门协商进行,收集采购需求。优化方面,该团队负责深度诊断、快速识别应用性能与容量问题,确保在需要的时间和地点精确应用合适的容量。
项目实施团队负责大型基础设施项目的实施,如新办公楼的建立、数据中心的启用等等。
将容量管理团队及项目实施团队独立出来进一步体现了巴克莱IT分工的细化。
二、工具种类多样,自动化程度高
巴克莱IT运维的工具化程度很高,有如下三个特性:
(一)多样性
使用多种工具配合进行监控,针对不同的系统使用不同的工具。由于各团队使用的监控工具各不相同,巴克莱使用网络系统管理软件合并来自多供应商多技术系统的告警故障数据,提供一个综合的集中化故障管理中心。
(二)专业性
巴克莱使用了大量的专业化工具进行精细化管理。
以容量优化管理为例,使用容量管理软件根据“实际需求”预测资源需求,不仅从包括CPU利用率在内的服务器指标趋势上预测未来的需求,而且为所支持的业务流程订制了相应的技术指标,对容量管理进行了深化和提升。
例如,用户可使用某项业务关键绩效指标(KPI)的预测增长来推动IT基础架构容量所需的投资。以业务为导向的容量管理简化了流程并降低了IT成本和相关支出。
(三)工具接口标准化
巴克莱使用的工具虽然种类繁多,但接口的标准化使得各种流程在多种不同工具间仍能平滑运行,各工具间无缝接口使得流程简化,节省运营成本。
但由于流程自动化程度相当高,也导致了只要一处发生问题,影响范围将会迅速扩散。因此巴克莱银行在灾备方面花费了大量的精力来保证业务连续性,单系统发生故障后即可切换至备用系统上,相对于全系统切换方式来说更加灵活。
三、服务管理高效,紧密结合ITIL理念
在巴克莱运用的ITIL理念中,强调流程高度整合、强调IT与业务融合,可以实现IT对业务支持的精确性和前瞻性。
在巴克莱IT生产部门中,有专门的IPC(Incident,Problem,Change)团队来对整个运维流程进行管理,并根据关键指标形成报告每月向CIO汇报。IPC团队管理所有的重要事件处理流程、问题管理流程及重要变更流程,保证在整个流转过程中严格按照程序进行并有完备的解决方案。
结合ITIL在巴克莱银行的实际应用,可以深刻理解到IT服务管理的核心思想:不管企业内部的还是外部的IT组织,都是IT服务提供者,其主要工作就是提供低成本、高质量的IT服务。ITIL在巴克莱能够成功落地实施的原因是:他们首先结合自身的业务特点、IT状况建立了一套完备的服务交付流程;其次是设定相应指标来监控这些流程的有效执行;第三真正进行持续改进,即定期生成报告来进行分析,发现系统和应用中存在的问题,并不断改善,使得日常管理工作更加有效、更加规范。
根据巴克莱银行实施ITIL的具体经验我们可以看到,建立IT运维流程分以下三步:
1、首先建立一套符合实际的管理流程及工具
ITIL作为国外引入的最佳实践,可以在实际中进行吸纳和利用,但真正落地实施需要紧密联系实际情况进行本地化。
关于ITIL中角色的划分及审批流程也需根据实际情况进行定义。流程建立起来的同时必须强制执行,保证流程严肃性。如果流程没有得到严格执行,严肃性一旦被破坏,时间长了,流程就会名存实亡。因此,要把定义好的规则、流程固化在流程工具里面,用这个流程工具强制员工进行规范化操作。为保证建立的流程有效实行,应从以下三方面入手:
从领导开始自上而下需有保护流程严肃性的意识
从领导层面,不经该流程工具提交的需求均为非法需求,不应批准;从员工层面,所有需求必须通过该流程工具提交,不能因紧急原因例外,否则视为违规。
发表制度办法必须使用该流程工具
有相应的组织进行监管,发现不符合流程的行为给予处罚
做到了以上三点,才能算真正建立应用了ITIL管理流程工具。
2、流程工具建立起来后,需提供标准的开放接口,制定相应的KPI衡量指标体系进行监控分析
流程管理工具对整个流程进行管理,根据KPI目标值(例如响应时间、变更成功率、变更引发的问题数等)来进行比照,如果未达到KPI目标值,则表示运维工作未正常运行,需分析原因进行调整;利用系统管理工具监控系统的性能指标,提供设备的实际运行情况,对比相应的KPI目标值(例如CPU利用率、内存利用率等等)来激发ITIL流程工具。
3、成立流程管理团队来对ITIL实施进行控制和改进
流程的定制并不是一成不变的,KPI的制定亦如此。实施ITIL实质上是一个计划、执行、测量和改进(PDCI)持续完善的过程。不仅要对服务质量进行监督和测量,确保服务符合质量要求;还要对KPI值进行调整,切合运维水平进展情况。
在这个流程和KPI均不断调整的周期中,需有独立团队对整个过程进行管控。同时该团队还应定期生成报告向整个IT部门进行发布,以便于各IT团队根据发布指标调整自身的服务水平。
做到了这三步后,ITIL流程将会初见雏形,以后再根据IT发展水平慢慢调整以切合实际运行情况,最终达到在故障发生之前就能及时预警并提前解决的水平。(作者单位:国家开发银行)