APP下载

基于ITSS 的信息系统运维服务持续改进应用探究

2020-06-08杨亚菲贺媛婧

宁波开放大学学报 2020年2期
关键词:运维要素测量

杨亚菲,贺媛婧

(国家开放大学,北京100039)

引言

随着互联网技术信息化的推进,各行各业的业务工作已离不开信息系统的支撑。由于运行与维护是软件全生命周期中持续时间最长的阶段,也是最重要的阶段,因此用户对信息系统使用满意度一定程度上取决于信息系统上线运行后的运维服务,提供高质量、高效率的IT 运维服务是保障数据存储持久性、保证业务连续性、保障设备可用性以及确保网络安全性的关键。随着信息系统数量增多以及规模扩大,IT 服务的不健全现象以及运维难题逐渐暴露出来。如何提供高质量、高效率的IT运维服务是目前企业在IT 运维管理相关领域一直探索的问题。

此外,国家发布的《关于积极推进“互联网+”行动的指导意见》《关于促进大数据发展行动纲要的通知》《国家信息化发展战略纲要》《“十三五”国家信息化规划》等良好的政策环境为IT 运维管理提供了更好的发展机会,将信息化建设提升到了战略高度。与此同时,这些政策也对IT 运维管理提出了更高的要求,使运维管理工作在相关政策的引导下与大数据、区块链以及5G 等新技术结合,实现IT 运维管理新形势。

一、ITSS 概念

ITSS (Information Technology Service Standards,信息技术服务标准) 是我国主导下研制的一套IT服务领域的标准库和一套提供IT 服务的方法论。其主要是围绕人员、过程、技术、资源四个服务要素开展IT 服务的规划设计、部署实施、运营、持续改进和监督管理等生命周期活动。此外,规划设计、部署实施以及运营阶段是按照顺序推进的,而持续改进和监督管理都是贯穿于整个IT 服务生命周期。具体如图1 所示。

IT 服务具体指满足用户IT 需求的服务产品与服务过程,其中服务过程指IT 需求得以满足的全过程,而信息系统运维服务属于IT 服务的重要组成部分。对于服务要素,其中人员要素是IT 服务过程中所有满足要求的人员;资源要素是IT 服务过程中需要的服务工具、服务台、备件库及知识库等资源;技术要素是IT 服务过程中使用到的各种具体技术;过程要素是IT 服务过程中发生的有规律的活动。ITSS 整体生命周期包括规划设计、部署实施、运营、持续改进和监督管理各个阶段。①

规划设计阶段主要了解客户需求并对其进行全面需求分析,以实现对服务要素、服务模式和服务方案的具体设计。整个阶段围绕新服务、服务连续性保障、服务水平的满足、对标准和规则的遵从以及在服务生命周期过程中为保持和增加服务价值所做的必要变更等方面开展服务需求识别、服务目录设计、服务方案设计(包括服务模式设计、服务级别设计、服务要素设计)、服务成本评估和服务级别协议设计等活动,最终生成服务级别协议、运营级别协议或支持合同等服务方案。

部署实施阶段使用标准化的方法管理人员、资源、技术和过程等服务要素,将规划设计阶段的所有服务要素完整地导入生产环境,为运营打下稳定的基础。具体对于人员要素的实施包括岗位外部招聘和内部调岗、建立培训知识库以及知识转移方法;具体对于资源要素的实施包括初始化知识库内容、建立工具部署和使用手册与相关制度、建立备件库与测试可用性以及初始化服务台管理制度;具体对于技术要素的实施包括转移知识、制定与演练应急响应预案、编写SOP 标准操作规范、发布技术手册以及搭建测试环境;具体对于过程要素实施包括发布过程与制度、电子化过程和初始化数据以及体系试运行。

运营阶段主要是通过对人员要素、资源要素、技术要素以及过程要素进行有效管控以提供低成本、高质量的IT 服务。在此阶段可以适当控制客户预期并引导客户在服务过程中的配合程度以有效地达成客户满意度。具体对于人员要素的管理包括人员储备和连续性管理、人员能力评价与管理、人员绩效管理以及人员培训计划执行;具体对于资源要素的管理包括服务工具基本运营以及淘汰管理、服务台管理与评价、备品备件管理以及知识管理;具体对于技术要素的管理包括技术研发规划、技术研发预算以及技术成果的运用与改进;具体对于过程要素的管理是对整个服务过程中的服务报告、服务级别、问题、事件、发布、安全、变更、配置、容量以及可用性和连续性进行管理。

在持续改进阶段,为了适应不断变化的业务需求,通过持续的识别改进机会并实施改进活动以满足不断变化的业务需求,并依次开展服务测量、服务回顾以及服务改进各个阶段的活动。此阶段贯穿于IT 运维服务的整个生命周期中各个环节,与IT 服务的规划设计、部署实施、运营以及监督管理各个阶段没有先后顺序关系。具体细节本文后续予以介绍。

监督管理阶段围绕质量管理、风险管理以及信息安全管理三个方面对服务供方提供的服务过程、交付成果及服务成果开展绩效评估,对IT 服务全生命周期各个阶段的过程和质量进行度量和评价,对服务提供方服务交付结果实施监理以及绩效评估以确定预期的服务质量。其中质量管理是根据安全性、可靠性、响应性、有形性以及友好型等质量属性通过确定需求、指标选型、实施评价以及评价结果对服务质量评价,进而开展运维服务质量策划、运维服务质量检查以及运维服务质量改进。IT 服务风险管理针对IT 服务进行风险管理计划、风险识别、风险定性分析、风险定量分析、风险处置计划、风险监控以及风险跟踪。信息安全管理是对整个IT 服务过程根据信息安全策略进行安全风险评估并确定管理目标和实施管理措施。

二、IT 服务持续改进方法

在IT 服务生命周期中,各个阶段都是必不可少的,其中持续改进至关重要。通过对IT 服务进行持续改进可有效定位管控层和执行层的关键绩效指标,不断适应业务需求的变化,提升服务团队的客户响应速度和业务熟练程度,规范化和制度化服务管理的流程,提高客户对运维服务的满意度,稳步提升IT 服务管理水平。

持续改进过程贯穿整个IT 服务生命周期,该过程以满足不断变化的业务需求为目标,通过不断识别改进机会并实施改进活动来提高IT 服务质量。IT 服务改进方法围绕PDCA 循环在服务测量、服务回顾以及服务改进三个过程规定了识别改进战略、识别测量内容、收集数据、处理数据、分析信息和数据、展示并回顾有关内容、实施改进方案7 个过程步骤,[1]具体如图2 所示。

“识别改进战略”是在业务角度识别业务目标以及业务级别,进而明确IT 服务改进活动的目标和方向;“识别测量内容”是在技术角度分析可以测量的数据以及指标,寻找差距以确定服务改进的可能性;“收集数据”根据规定的目标收集数据并适当地监控服务、过程和工具的应用效果以保证服务质量;“处理数据”对收集到的各种数据进行对比和处理;“分析信息和数据”对数据的上下文关系和联系进行分析,并获取潜在的关联和隐含信息;“展示并使用信息”按照业务需要的方式对获取的数据与信息进行展示;“实施改进”利用获取的信息对服务进行改进、提高和优化。

按照上面步骤展开IT 运维服务持续改进,在务管理流程和制度,使得在用户提出运维服务请求开始到运维请求得到响应,再到系统相关问题或解决故障的整个过程无章可循,效率低下,如机房巡检流程有待完善,终端回收流程有待改进。系统更新版本管理不当以致于版本混乱,过程KPI服务测量工作中需要定义好对项目有针对性的服务测量框架,分析干系人聚焦的服务绩效指标。此外,进行任何一项活动都需要获取管理层支持,还需注意利用相关机制管理技术部门与业务部门进行有效沟通与协调。在服务回顾工作中服务回顾报告以满足业务与客户需求为出发点进行调整和改进,服务回顾的更新需满足业务和客户对IT 能力的需求同时,还要确保相关干系人的认同感。在服务改进工作中必须明确服务改进的动机,改进结果应具备可测量和可追溯的特性,此外还需保证相关干系人的参与度较高。

三、信息系统运维存在问题

从IT 运维管理角度讲,在提供信息系统IT 运维服务的过程中人员、过程、技术以及资源四个服务要素方面经常出现诸多问题,这些问题直接关系着信息系统的响应请求的速度、系统业务连续性、不同角色用户使用体验以及运维服务需方满意度。

在人员要素方面,存在的问题有运维团队人员数量不足和缺乏技术经验,现场响应慢,解决过程冗长;现场人员响应方式不及时,远程响应解决不了故障,运维人员职责边界不明确,以致于收到运维服务请求没有清晰的人员指向;甚至由于运维事件的不断增加及人员流动造成人均工作负荷较重,造成团队成员离职以致于出现内部管理和服务效率低下。

在过程要素方面,缺乏规范且健全的运维服指标未明确或KPI 信息来源不准确导致过程评估评价不科学,缺少与运行维护服务要求一致的信息安全策略、方针措施等。

在技术要素方面,运维监控平台技术相对落后,监控指标过于简单,设备监控不准确难以支撑实际需求;给IT 服务供方与需方提供的技术标准不一致,应急响应预案内容不够完善;技术研发计划不够全面;对各类IT 服务所需技术缺乏统一管理,对成熟技术推广不及时不到位,对于新技术的研发不够重视,运维服务过程中产生的技术成果有待优化。

在资源要素方面,缺乏有效的知识积累与共享,没有健全的知识库。在日常解决信息系统故障问题的时候运维人员没有记录、总结的意识,会造成解决类似事件效率低下,以及当运维关键技术人员请假或离职等情况出现时,由于缺少原有人员经验和运维事件处理方法未落实到书面,会造成大量IT 运维知识资产和IT 运维经验流失,必然产生一定的时间成本和学习成本,新入职人员对原有运维流程和常见问题的处理操作生疏,造成客户满意度下降。

四、信息系统运维服务持续改进应用探究

应用基于ITSS标准的IT服务持续改进方法解决以上运维服务中识别的问题,需从服务测量、服务回顾以及服务改进三个维度开展工作。

(一)服务测量

服务测量是为了获得与运维服务相关的各类数据和运维服务改进活动中所需的原始资料,通过监测、测量和评审运维工作以及运维管理目标的完成情况等一系列活动分析与运维服务计划的差距,为运维服务改进提供依据。服务测量主要工作是围绕人员、资源、技术、过程四个服务要素对其技术指标、过程指标和服务指标展开测量。

服务人员测量需要对提供IT 服务的人员围绕岗位职责管理、储备管理、绩效管理以及培训管理等方面进行测量。具体测量的内容包括人员招聘情况是否与岗位需求相匹配,现有运维工程师的备份满足度和可用性,运维人员的技能资质,运维工作量与饱和度测评,岗位职责具体更新情况,运维团队工作状态,人员绩效考核是否符合SMART原则,培训的应用效果等。

服务资源测量需要对提供运维服务用到的服务工具、服务台、备件库和知识库进行测量。具体测量的内容包括服务工具的匹配度、可用性、可操作性和稳定性,服务台的接听率、派单准确率、录单率以及解决问题的通话时间,备件库中备件资产、备件损坏率、备件命中率以及备件复用率,知识库的知识积累数量、知识利用率、知识更新率以及各类知识比例等。

服务技术测量需要对应用到的运维技术进行测量。具体测量内容包括运维服务技术规划的完整性和落实情况,各种技术对运维业务的实际应用效果和实用性,运维团队是否利用有效的自动化运维工具,新技术在运维服务提供过程中使用情况,针对特殊事项实施应急响应预案的执行效果等。

服务过程测量需要在技术视角和用户视角分别对运维服务过程细节和运维服务成果进行考量。如在运维服务过程方面对服务等级协议(SLA)、重大事项、人员绩效、用户满意度等相关指标进行分析,在运维服务成果方面对事件、问题、变更、发布等进行统计分析。

(二)服务回顾

服务回顾类似于满意度调查或客户回访,只依靠对现在运维服务情况的测量是有局限的,还需要通过客户回顾、项目内部会议、视频会议、运维服务报告、第三方机构意见收集等方式对历史运维服务情况进行回顾。

基于以上服务回顾形式可以借鉴业内最佳实践的四级回顾机制,第一级回顾是与服务主体针对重大事件、特殊事件如服务内容变更和客户投诉等进行不定期沟通;第二级回顾是召开项目月度例会,向服务主体汇报当月服务情况如SLA 达成率,服务量等;第三级回顾是项目季度会,向服务主体汇报当季项目运营情况如数据分析,客户满意度等;第四级回顾是项目年度回顾,向服务主体汇报项目整体实施交付情况。

服务回顾主要针对客户回顾和运维团队内部回顾两个方面明确具体回顾内容。对于客户回顾方面主要侧重服务合同执行情况、服务目标达成情况、服务绩效以及成果、客户满意度调查、客户业务需求的变化、服务中存在的问题、上次会议制定计划的进展以及下一步行动计划等内容。对于运维团队内部回顾方面主要侧重上一周期工计划回顾、本周期特殊或疑难工单、本周期未解决工单、各小组当前周期工作简报、本周期运维工程师KPI 总结、下一周期工作计划等内容。

(三)服务改进

根据以上服务测量得出的相关数据和关键绩效指标以及服务回顾收集的客户和团队内部相关情况,进行最重要的一步即服务改进。服务改进围绕人员、资源、过程及技术服务要素先后按照服务改进设计、服务改进实施、服务改进验证三个阶段开展。

服务改进设计根据服务改进目标如提高用户响应速度、提升业务连续性,结合服务测量、服务回顾、客户需求以及IT 业界标准等依据,制定服务改进计划。服务改进计划内容需要根据具体运维情况明确改进活动基本信息,如服务改进范围描述,围绕4 个服务要素的改进方案,相关干系人的职责与角色等内容。服务改进计划是服务改进阶段的工作依据和工作指南,所以此文件需要具有科学性、针对性和客观性。

服务改进实施需要运维服务团队根据已经制定好的服务改进计划以及具体方案围绕人员、资源、技术、过程四要素进行服务改进实施。人员要素在提高人员素质、调整人员储备比例、调整人员岗位结构、改善绩效考核方案等几方面改进。资源要素在保障资源对业务的完整覆盖和支撑、完善IT 工具、优化服务台管理制度、改进知识库和备件库等几个方面改进。技术要素在技术研发计划重新规划与改进、技术成果优化改进、完善技术文档、改进应急预案、更新监控与阈值等几方面改进。过程要素在完善现有运维过程和建立新服务管理过程等方面改进。

服务改进验证需要在服务改进实施后,对照改进目标和改进计划发起回顾会议,核对指标完成情况,并在服务改进控制表中记录结果。对未达标项目组织分析原因并制定改进措施。最后将服务改进验证结果形成书面统计分析和改进报告,上报质量管理部门以及主管领导。

五、总结

随着互联网的发展,信息系统已经成为人们业务工作和日常生活不可或缺的信息载体。而随着各类业务的信息系统大量涌现,我们逐渐意识到科学规范的运维服务管理对信息系统整个过程的应用起着至关重要的作用。为改变当前被动管理的局面,有效地提升人员、资源、技术、过程管控能力,以形成主动管理的态势,我们需要在IT 服务过程中践行ITSS 系列标准和方法,持续不断的循环评估和改进信息系统,以做到建立健全的IT 运维服务管理制度,提升IT 的服务管理水平,满足用户相关服务请求有条不紊地得到响应,做到问题高效率高质量得到解决,提高客户的满意度。

【注释】

①GB/T28827.1-2012 《信息技术服务 运行维护 第1 部分:通用要求》。

猜你喜欢

运维要素测量
高速公路智能运维平台
基于GPS的电力运维轨迹定位系统
二十四节气简易测量
日出日落的观察与测量
配电线路的运维管理探讨
你所不知道的测量秘密
测量
也谈做人的要素
2015年8月债券发行要素一览表
电子政务甲方运维管理的全生命周期