轨道交通生产系统IT运维管理创新与实践
2019-06-14王平
王 平
(北京市基础设施投资有限公司,北京 100101)
1 背景意义及目标
1.1 背景
北京市轨道交通系统规划于1953年,始建于1965年,运营于1969年。截至2017年底,路网运营线路条数为22条,运营线路总里程达到608 km,运营车站总数为370座。
目前已运营线路包括1号线、2号线、4号线、5号线、6号线、7号线、8号线、9号线、10号线(一期)、10号线(二期)、13号线、14号线、15号线(一期)、16号线、八通线、机场线、大兴线、昌平线(一期)、房山线、亦庄线、西郊线、燕房线、S1线共22条线路。目前北京市轨道交通日均运送客运量已突破1 000万人次。
北京轨道交通随着生产系统自动化信息化程度越来越高,需要通过规范化的维护服务保障IT系统稳定运行。轨道交通现有IT系统架构及在系统基础软件方面,中间件(WEB、消息等)、数据库和操作系统的选型配置已经趋于成熟,同时在内部开展运维管理的同时,大多数也引进了专业运维外包服务。生产系统在投入运行初期,维护服务主要是依赖集成商经验,集成商在系统建设期为了快速交付系统,往往投入的人员技术水平和业务水平较高,在系统交付后高水平的人员被抽调至其他建设类项目中,运维服务处于被动式响应状态,而接手运维的人员往往新入职或水平较低,这给轨道交通的IT生产系统运维带来较大的风险。另外从管理的角度来看,有时服务商在出现故障或隐患后,往往希望内部消化解决问题,有可能出现瞒报或拖延现象,这也给轨道交通运维带来较大的事故隐患。长期会存在以下问题。
1)系统软件、硬件的维护服务经过一定时间,可能对某些人员甚至某些运维服务商产生较强的依赖性。运维服务商的管理水平高低各不相同,人员的技术水平、工作经验、甚至是责任心也参差不齐,这会直接影响运维的服务质量。特别是个别运维服务商人员流动量较大,运维管理过程中积累的知识,在人员流失过程中也将部份流失,给运维带来较大风险。
2)运维服务质量评价较难落地。各运维服务商的运维质量高低水平、服务级别协议(SLA)的达成情况、运维人员素质、运维计划工作完成情况、客户的满意度情况,都难以使用明确的指标衡量,因此导致运维服务质量难以持续改进,无法对运维人员进行正向激励,给运维管理工作带来了较大难度。
因此,希望通过建立IT运维管理体系,规范化管理业务流程,建立IT运维管理系统,对运维管理工作全过程关键点进行管理,从而提高IT系统运维的可控性,提高IT管理的效率和质量。进而保证轨道交通运营安全运行。
1.2 意义和目标
轨道交通生产IT系统运维管理系统将参照IT基础架构标准库(ITILV3)的理论基础,同时结合轨道交通系统运行特点,构建一个实用、安全、可扩展的、保障IT生系统安全稳定运营的运维管理系统。
轨道交通IT运维管理系统在提高IT运维质量的同时,还可以帮助建立固化ITIL运维标准,形成一套可落地实施的运维管理体系,方便管理人员、运维人员了解系统的运行状态、运维工作的执行情况,逐步过渡到规范化、专业化的运维管理,从而实现运维的“监、管、控”。
通过IT运维管理系统,能够监控、检查和持续改进系统运行维护的质量,实时监控服务过程,掌控运维服务商的服务计划,审计服务记录。对运维管理工作到外包服务商工作从流程管理方面、体系运行方面、岗位角色职责三个角度进行统一绩效考核。
IT运维的财务预算管理,也是运维工作的重要组成部份,通过IT运维管理系统,可以统计各信息系统的运维成本、费用的基础数据(如人员、备件的实际投入),便于业主方了解运维项目的真实成本,利于把运维资金的预算编制和预算执行控制在较为合理的范围内。
1.3 目标和内容
通过梳理服务流程,形成规范化的运行维护管理框架,实现量化管理、提高运行维护管理水平,保障各应用系统安全稳定运行;通过专业的管理报表为管理者的决策提供数据化支持;引进基于工作流的管理方法提供平台,从而提高整个北京轨道交通技术支持的效率;通过IT运维管理系统的建设,建立事件服务管理、运维隐患问题管理、系统变更管理、配置管理等标准的运维服务流程,实现系统故障主动发现,在生产系统发生故障后第一时间产生事件任务,并调度技术人员进行解决。提高整个北京轨道交通技术支持效率和信息系统管理及运行维护能力,实现主动、高效、安全的管理,从而提升科技服务效率与用户满意度。
提高北京轨道交通信息系统管理及运行维护能力,实现主动、高效、安全的管理。
2 系统需求
2.1 主要业务概述
轨道交通IT运维管理系统的核心是运维服务的过程管理。通过对IT运维管控流程的规范化,形成一套适合北京市轨道交通系统运营特点的、易于落地实施的运维管理体系。在系统实现层面,要重点实现运维隐患问题管理、计划作业、值班、事件服务、知识库,通过系统中形成工作单,固化流程,保障运维基础工作的高效执行,从而提升系统运维的质量,提高最终用户满意度。
2.2 建立工作体系
通过IT管理平台的建设,配合运维管理部门工作优化与提升,逐步建立完备的工作体系。
2.2.1 事件服务管理
事件服务管理包括故障管理、服务请求管理及事件管理3个部分。
2.2.2 系统变更管理
系统变更管理是通过1套系统的方法和流程,来保证变更顺利的实现。有效控制由于变更给系统带来的风险。
2.2.3 配置管理
配置管理旨在介绍和描述配置管理流程。在系统运维过程中最大的风险是变更风险,能够有效评估变更风险的依据是配置管理数据库。需定期对配置项进行配置审计,以保证数据库内的配置项数据的真实可靠,定期形成配置基线。
2.2.4 知识库管理
知识库管理目标就是针对运维隐患问题管理的结果,或者是其他途径来源的各类知识及解决方案的统一管理,系统将知识与解决方案进行分别管理。
2.2.5 计划作业管理
在运维工作中,有许多重复执行又按计划落地执行的基础工作,如定期的系统巡检,这类工作定义为计划作业。
如果计划任务(如巡检任务)需要审核,那么由相关人员进行审核后将计划作业记录单上标明为关闭状态;计划关闭后,可进行查询与统计。
2.2.6 值班管理
值班管理是安排相关人员驻守现场,及时发现运维隐患,通知、协调相关人员解决事件,随时准备处理突发事件,减少人为操作产生的失误,按照维护规程和日常工作需要。
2.3 非功能需求
建立系统还应根据实际用户使用情况提出性能、可靠性、安全性、可扩展性的需求。
3 开展系统的总体设计
应根据运维的具体情况,同时要适应轨道交通未来运维业务的发展及现实的需求。对系统进行总体设计。系统设计应遵循以下原则:完整性原则、相关性原则、可靠性原则、可扩展性原则。
IT运维管理系统的总体结构由数据层、组件层、业务逻辑层和应用展现层四层组成。各层次彼此独立的同时又相互配合,系统体系架构如图1所示。
其中,组件层采用商业化、成熟的中间件来实现,应用展示层通过B/S方式给用户提供操作界面。
4 系统测试
测试工作应明确测试需求、测试工具、测试进行测试环境准备、编写测试用例,软件测试分为功能测试、用户界面测试、性能测试、配置测试、安装卸载测试、安全性和访问控制测试、文档测试和压力测试(168 h不间断压力测试)。
对测试结果进行结果汇总分析,如性能测试均达到了预期指标,系统性能与健壮性良好,测试结果汇总显示所有BUG已修改,未出现影响流程的BUG。与预期结果相同,测试合格通过。
5 系统实施
采用在生产系统测试服务器上系统实施测试,测试合格后在正式服务器上直接上线安装部署的形式。因此在系统实施前要做好充分的准备工作。准备工作必须充分有效,包括服务器安装、用户培训、系统测试等。系统功能覆盖需求的全部内容,功能测试通过,性能测试完成,确认系统在正式服务器上的运行能够满足用户需求。完成系统安装部署报告。
图1 系统体系架构图Fig.1 System architecture diagram
6 实施效果及应用评估
通过IT运维管理系统的实施,建立起一套稳定、可靠、高速和安全的轨道交通路网运维管理平台,提高运维工作的效率,实现第一时间主动发现系统故障并调度技术人员进行解决,保证轨道交通生产系统更加安全稳定的运行。系统用户包括技术人员、运维人员、相关负责领导可登录系统进行事件、运维隐患等运运行维护及管理工作。