大型传统企业IT运维服务体系的探索与实践
2017-09-03郭东旭
郭东旭
〔中国石油化工集团公司信息化管理部 北京 100728〕
大型传统企业IT运维服务体系的探索与实践
郭东旭
〔中国石油化工集团公司信息化管理部 北京 100728〕
借鉴国内外大型企业IT运维体系规范与标准及实践,结合某大型传统企业IT运维的现状,探索设计了该大型集团企业IT运维服务体系,主要包括组织、管理、工具和技术四个方面的内容,在实际工作中运用执行,取得较好效果,有效提升了该集团企业IT运维服务水平。
大型企业 IT 运行 维护 体系 建设 探索
随着企业信息化建设的发展和应用的深化,大型企业的重要业务对信息系统的依赖程度越来越高,并对其可用性和安全性提出了更高的要求;而系统的集成度也越来越高,新技术的发展和快速应用,也增加了运维服务的难度。如何结合国内外先进的IT服务管理框架、标准、方法,探索和打造出一个适合企业自身的服务体系,成为信息系统运维管理的一项重要课题。通过近年来国内传统企业,尤其是大型传统企业对运维管理制度、流程、考核、运维平台等方面的不断重视、研究和实践,都已初步建成了自己的IT运维服务体系。
1 发展及现状概述
“十二五”期间,某大型传统企业信息化工作紧紧围绕总体发展战略和目标,按照“六统一”原则,坚持“集中集成、共享服务、创新驱动、协同智能”的工作方针,结合新理念、新技术,大力推进两化融合和完善提升“三大平台”,全面推进经营管理平台的集中集成、智能化试点、IT共享服务中心和移动应用“四项示范工程”建设,积极推动了信息化与工业化的深度融合。
随后通过持续有效的信息化建设和应用,信息化已深入渗透到各个管理领域和业务环节,全面提升了人财物等重要资源的集约化管理水平,大幅提高了上下游各业务线条的生产质量和效率,有效提升了公司经济效益、竞争能力和可持续发展能力,成为公司改革发展和转型升级不可或缺的重要支撑。
随着信息系统越来越多,支撑业务越来越全面和深入,信息系统也越来越复杂,公司经营管理和生产营运管理业务对IT的依赖程度也越来越高。如果信息系统服务中断,就可能影响公司业务的正常开展,造成经济损失,运维支持的重要性日益凸显。如何保障信息系统的稳定、可靠、安全运行,是目前面临的重要工作。
在信息系统运行维护管理方面,其总部信息系统管理部门和企业信息部门对运维支持进行两级管理。总部信息系统管理部是信息系统运维的归口管理部门,负责监督、检查、考核企业信息系统的运行维护情况,并负责总部信息系统的运行维护管理。企业信息管理部门负责本企业信息系统的运行维护管理和技术支持,包括落实信息系统运行维护计划,部署和安排具体的运行维护工作,考核运行维护工作质量等。总部发布了《信息系统应用与运维管理办法》、《信息基础设施运维管理办法》、《系统安全管理办法》等运维管理制度,涉及经营管理类应用系统、生产营运类应用系统、基础设施类系统和信息系统安全管理等四大部分,保障了各类系统运维工作有序开展。各下属企业根据总部发布的管理办法,结合实际工作,制定了企业的信息系统运维管理办法、规范及细则。同时,经过逐步建设,该企业已经在运维支持方面建设了一些支撑系统。在总部,呼叫中心系统实时响应了用户有关门户、OA、基础应用、安全、视频、MES等系统的服务请求;SAP SLM实现了ERP系统服务请求受理、事件管理、应用监控及变更管理;网管监控系统实现了因特网、主干网、局域网、服务器、安全设备、企业防火墙、基础应用等基础设施的故障和性能监控,但存在未对信息系统配置数据进行管控,未面向应用系统进行监控,流程需要优化和在线化等问题。
本文就某大型传统企业的实际情况且符合自身发展战略需要的IT运维服务体系进行探索和实践进行介绍。
2 体系架构
某传统企业现有的IT运维服务体系一般包含组织、流程和工具三个要素[1]。根据确保信息系统稳定、可靠、安全运行的目标,需要对系统配置数据和应用进行监控和流程优化。本文参考了ISO 20000、ITSS、ITLL等框架标准和埃克森美孚、BP、Accenture、HP、BMC、IBM、中国石油、国家电网等国内外企业的IT运维案例,结合该企业信息系统运维实际情况与“十三五”信息化规范,从组织、服务管理、支撑工具和技术工具四个部分构建了IT运维服务体系(见图1)。
图1 运维体系架构
3 运维组织
运行维护的组织架构一般与企业信息系统建设的历程、规模、现状、人事等密切相关。该企业IT运维服务组织由总部和企业二级组成,总部是信息化系统管理部、企业是信息处或信息中心,总部统建系统运维服务体系由总部运维团队支撑,企业一般都有自己的运维队伍和信息系统的关键用户。
信息系统运行维护管理和运维支持采用“两层三级”的模式。“两层”是按照总部机关和企业两个层次分级管理。“三级”是企业、总部和外部厂商的三级支持体系。信息系统运行维护,由企业运行维护团队进行一级支持,总部运行维护团队进行二级支持,外部厂商进行三级支持。规定了应用系统和基础设施运维队伍的组织职责,明确了关键岗位,并对运维服务支持人员进行能力管理。摸清了每一个人员的岗位、专业、最高学历、知识技能、工作年限、主要参与的服务项目等关键要素,并按计划进行内外部培训,提升技能和意识。
在此基础上,参照国内外共享服务的先进实践,通过创新服务模式和信息化管理变革,规划了IT共享服务中心建设蓝图。按照“统一规划、分步实施、先易后难、持续改进”的原则,先试点后推广,逐步扩展IT共享服务的范围和内容,将该企业境内外所有具备条件的IT服务纳入共享服务范围,建成规范和高效的IT共享服务中心,提供专业化、标准化的IT服务,降低IT运营成本、提高工作效率和服务质量,同时为财务、人事等共享服务提供信息技术支撑,促进公司持续提升信息化水平。
对于IT共享服务中心的管理,由总部信息化管理部负责。信息化管理部中的运维管理处室负责对IT共享服务中心进行专业管理。对于IT共享中心的业务管理主要包括重大服务资源投入决策、服务质量监督、服务标准管理、服务绩效管理等内容。IT共享服务中心则负责服务交付和内部团队及能力建设。
4 服务管理
4.1 管理制度
该企业总部共发布了16个与运维相关的管理办法,涉及经营管理类应用系统、生产营运类应用系统、基础设施类系统和信息系统安全管理等四大部分,保障各类系统运维工作的有序开展。各下属企业根据总部发布的规章制度,结合企业自身实际情况,编制并发布了企业内部执行的相关运维管理办法,满足企业自身运维管理要求。
4.2 服务流程
4.3 服务水平管理
服务水平管理指标体系是服务水平管理的关键[3],它能够定义IT服务的级别,建立服务水平监督体系,保证服务达到规定的水平等级,即使服务失败,也可以正确分析原因,帮助公司做出正确的应对决策,主要包括服务水平管理应完成的主要工作及分工方式,服务水平管理的基本过程以及服务水平管理协议的通用性模板等相关内容(图2)。
图2 服务水平指标分类
对于整体服务水平(指标见表1),应用服务参考所属系统类型(核心、重要、一般)确定服务级别(A、B、C等),其他服务参考服务内容确定服务级别,如网络服务的内容包括主干网(网络核心)、主干网(总部至区域中心)等。
整体服务水平指标见表1。
表1 整体服务水平指标
对于服务处理效率(参见表2),根据用户类型和请求类型(如电子邮件包括服务开通、邮件变更等)确定平均解决时间,终端服务处理效率包括终端请求和故障服务的处理效率。
表2 服务处理效率指标
对于故障处理效率(指标见表3),应用服务参考所属系统类型(核心、重要、一般)确定服务级别,其他服务参考服务类型确定服务级别,如网络服务的服务类型包括主干网(网络核心)、主干网(总部至区域中心)等,同时又将故障类的事件分为S1、S2、S3、S4四个级别,每个级别的响应时间和处理时间的处理要求也有具体的要求。
表3 故障处理效率指标
同时,以签订的SLA为依据,对IT运维服务进行考核,不同的系统和专业签订的SLA考核指标不尽相同,比如桌面终端强调用户响应和支持时间的考核,信息系统则强调可用性的考核,通过分系统分专业考核,再进行加权,对整个运维服务进行考核。
5 支撑工具
支撑工具是运维体系的重要组成部分[4],为支撑IT运维服务业务,保障信息系统的可用性和提升服务水平,建立了运维平台、知识库、服务台及服务器、网络等一些专业运维工具。
IT运维平台主要包括配置管理、运行监控、服务管理、服务门户、呼叫中心和大屏展示六个子系统,并通过内外部集成,建成了一体化运维平台,其总体架构如图3所示。
图3 IT运维平台总体架构
配置管理(CMDB)主要是对信息系统的软硬件组件的基本信息和组件之间的管理关系进行集中管理,并为其他系统提供配置信息和关联关系接口服务。它管理了应用系统、应用软件、中间件、数据库、操作系统、服务器设备、网路设备、安全设备等基本信息,并利用配置项(CI)之间的关系可以有效地将相关的CI连接起来,从而为故障和问题的解决、变更的计划和执行提供更好的参照,配置项之间的关系见表4。配置项属性以及配置项之间的关系进行定期审核,以确保其与实际的物理环境保持一致,通过配置审核活动对配置项信息与配置项物理环境存在性进行双向验证。
表4 配置项关系
续表4编号关系说明示例7文档关联关系Withdoc某软件有某文档8使用关系use谁使用某台PC9监控管理Admin&Monitor谁监控某主机10组成关系Consistof销售系统由主机、DB和中间件组成11运行于…上Performon应用运行于OS上12包含Include群集中包含数据库实例13热备Standby主机B是主机A的热备14冷备Ready主机B是主机A的冷备
运行监控主要实现了统一数据采集、数据处理、告警管理、性能分析和综合报表等功能,其系统架构如图4所示。该系统对应用系统和基础设施的运行状态、问题故障、性能负载等进行集中监控,以提高及时的告警信息。
运行监控系统架构见图4。
图4 运行监控系统架构
统一数据采集主要是封装程序,通过SNMP、TRAP、ODBC/JDBC、API、Socket、HTTP等多种协议或手段对各种软件和各种品牌的硬件系统进行运行数据采集。系统通过处理和分析这些数据,对系统故障和性能进行告警,通过系统关联关系图帮助分析故障发生的根源,并通过一段时间的性能数据进行分析。告警发生后可通过短信邮件及时通知相关人员,并关联到工单。
服务管理主要包括事件管理、问题管理、变更管理、知识管理、服务水平管理等主要功能,其系统架构如图5所示。对运维服务流程进行规范和优化,并固化到系统中,记录用户所有的服务请求和故障,运维服务人员可按照预先定义的流程进行处理,实现对运维服务工作的透明化管理;通过问题管理、变更管理、配置管理等标准流程的执行,进行主动运维管理。管理人员通过统计分析报表,为服务管理提供决策支持。
运维流程可将服务受理、系统监控、运行调度、故障处理、服务反馈、投诉处理、服务监督、服务水平管理等工作有机结合起来。既实现了专业分工,又实现了协同支持。
服务门户是运维服务信息的展示窗口和运维平台的统一入口,对于不同角色,有不同的展现角度。登录到运维门户后不但可以看到新闻与通告、基础设施动态、生产营运动态、经营管理动态等众多信息内容,还可以及时获知自助服务中的代办事宜和能得到即时的消息通知提醒,也可以看到集成来自其他子系统的基础信息、运维人员通过运维论坛可以进行业务和技术上的交流,其系统架构如图6所示。
图5 服务管理系统架构
图6 服务门户系统架构
呼叫中心系统主要提供底层平台,实现了热线电话、邮件、传真、微信、统一通讯等多种方式的接入、智能路由、自动呼叫分配、IVR操作、文本语音转换、电话录音、多媒体交互记录、营运管理等功能。
呼叫中心系统架构见图7所示。
图7 呼叫中心系统架构
呼叫中心系统可以更好地为用户提供IT服务热线,统一受理用户的服务请求和故障申告。呼叫中心系统的主要功能包括语音话务基本功能、热线人员管理、热线服务质量管理及相关统计分析等功能模块。可以利用自动语音应答、自动话务平均分配、点击拨号、标准服务流程、知识库等节约企业成本,提升客户满意度;可以根据话务时段分布数据科学地规划人员排班、实时监控话务变化;可以通过通话录音质检、通话监听、座席考核报表来对座席人员进行技能培训;通过呼叫中心收集和总结分析客户问题,提升客户服务体验。
总体说来,IT运维平台相当于“IT运维的ERP”,可切实支撑信息系统运维管理及运维业务,是整个运行维护管理体系的技术支撑平台。
6 技术储备
为快速适应新技术带来的挑战,更快更好地解决问题,通过团队的学习和研究储备了IPV6、SDN、云计算及大数据等新技术。
IPv6是IETF(互联网工程任务组,Internet Engineering Task Force)设计的用于替代现行版本IP协议(IPv4)的下一代IP协议,号称可为全球的每粒沙子编上一个网址。目前通过学习研究,已掌握其原理和关键技术,并准备试点实施。
SDN即软件定义网络是一种网络设计思想和框架,本文正在基于这一思想研究如何逐渐将网络进行集中式软件管理,通过编程来控制整个网络。
云计算是网格计算、分布式计算、虚拟化等传统技术和网络技术发展融合的产物,通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统,并借助SaaS、PaaS、IaaS把计算能力分布到用户手中。在构建过程中,运维人员积极参与,具备了云平台的技术支撑能力。
7 发展方向
从大型机时代,到小型机时代、互联网时代,再到现在的云计算时代,计算性能、能耗、数据量都以惊人的速度增长。以前GB级、TB级的数据量已远远不能满足现在企业的发展需求,PB、EB甚至ZB级的数据量已成为大型集团企业的现实。那么要用最经济的维护成本来保证海量的数据,数以万计、十万计的设备和高度虚拟化计算能力的高可用性,今后的IT运维体系将向着智能化、主动化、自动化,甚至是无人AI的方向发展。以往靠“人海战术”解决的运维问题,无法适应未来大规模的企业计算能力的提升,因此都需要向软件定义的方向发展。
8 小结
本文研究探讨了IT运维服务体系如何通过组织与人员、服务流程、支撑工具和技术储备的四个维度落地,借鉴了国内外的相关标准和企业实际情况,建立了企业自身的IT运维服务体系,进行了该企业的有效实践,探索出了一套先进的、可行的框架体系,对企业打造IT运维服务体系具有指导或参考意义。
[1] 孙强,左天祖,刘伟.IT服务管理:概念、理解与实施[M].北京:机械工业出版社,2004.
[2] Jan van Bon.钱峰译.IT服务管理国际标准体系:ISO/IEC 20000 [M].北京:清华大学出版社,2009.
[3] Sharon Taylor, Majid Iqbal. ITTL V3服务运营[M].OGC,2010.
2017-05-09。
郭东旭(1984-),男,2007年毕业于黑龙江工程学院地理信息系统专业,本科,工程师,现从事信息化管理工作。