铁路信息系统运维管理体系的研究
2021-07-05黄思炜刘宇赵天何欣玲
黄思炜 刘宇 赵天 何欣玲
(中国铁路信息科技集团有限公司 北京市 100844)
随着传统企业互联网+和数字化转型的深入,现代社会一刻都离不开信息系统,现有信息系统运维体系难以满足敏捷化的数字业务对IT 交付效率、解决速度和运作效能的迫切要求[1‐2]。如何最大限度的保障铁路行业各信息系统安全、稳定的运行,已成为铁路企业信息技术部门迫切需要关注和面对的重要问题。本文提出了一种构建铁路信息系统运维管理体系的思路,并探讨了体系建设构架和内容,以供大家参考。
1 信息系统运维管理概述
信息系统运维管理泛指通过建立运维管理工具和运维管理系统,信息系统的运维管理主体按照不同的管理标准、管理制度及其规范,进行事件管理、问题管理、变更管理、配置管理、发布管理、知识管理等信息系统运维管理流程,为了实现信息系统的运维标准化和规范化,对于信息系统软硬件、信息系统的运维管理人员及其他信息技术基础设施进行运维和管理,达到信息系统的运维要求[3]。
1.1 信息系统运维管理的目标
按照制定的管理规章制度、管理标准和管理规范,建设有效的运维管理系统[4],保证用户在使用信息系统服务过程中安全、可靠、可用和可控。
1.2 信息系统运维管理的标准
信息系统运维管理是对于信息系统整个生命周期进行管理,企业需要结合在信息系统日常运行中的实际情况,制定相关的信息系统管理制度,才能提升运维服务的质量与效率。典型的信息系统运维管理标准主要有ITIL、ISO20000、ITSS 等。
ITIL(Information Technology Infrastructure Library 信息技术基础构架库)[5‐6],这是由英国政府中央计算机与电信管理中心于20世纪 90年代初期自主编写并制定的一套信息系统运维服务管理的标准和方法,迄今共发布4 个版本,已经发展成为国际制定IT 服务运维管理的标准。具体的说,ITIL 通过标准化和规范化的设计,规划和制定其IT 基础架构及服务管理,提升IT 运维管理水平。
ISO20000 信息技术服务管理体系标准[7],于2005年 12月15日发布,这也是第一部专门针对信息技术服务管理领域的国际标准,将IT 服务进行标准化管理,解决IT 信息化服务过程中所遇到的IT问题,更好的满足用户和业务的需求。
ITSS(Information Technology Service Standards,信息技术服务标准,简称ITSS)[8‐9]是在工业和信息化部、国家标准化管理委员会的领导和支持下,由ITSS 工作组自主研制的一套IT 服务领域的标准库和一套提供IT 服务的方法论,用于指导实施信息技术标准化的服务。
2 铁路运维现状
铁路信息系统运维经过多年发展取得了显著成绩,为铁路信息系统安全稳定运行提供了重要技术支撑和保障。国铁集团、路局、站段三级运维体系建设取得积极成效,网络安全管理保障体系文件有效指导运维保障工作,监控系统和自动化运维工具在及时掌握信息系统运行状态、提高预防和快速反映能力、提升信息系统安全可靠运行能力等方面发挥至关重要作用,运维人才队伍建设不断加强,运维能力不断提升。
信息中心、铁科院、各铁路局信息技术所均设置有7×24 值班岗位,负责信息系统日常运维监控工作。运维保障队伍由一线值班,二线专家,三线产商组成,一线值班实行7×24 小时值班制度。在总结多年运维经验的基础上,形成了日常值班值守、节假日备班备勤、重要时期联合值班的保障方案。同时配合年度运维计划,按月总结落实月度运维计划情况,采取日常巡视、定期维护、重点时期开展健康检查等手段,确保铁路信息系统基础设施安全稳定运行。运维工作主要包括机房环境、网络、服务器、存储、安全在内的基础设施,以及一些包含操作系统、数据库、中间件等业务系统的支撑层[10],已形成较为完善的运维标准规范,对运维工作实现了作业流程化,重要运维工作借助自动化工具实现高效运维。
对比业内先进经验,铁路信息系统运维也存在着一定差距,主要表现在:运维流程未完全覆盖运维业务,部分工作未形成规范有效的固化机制;运维人员存在缺口,难以满足数据中心大规模运维需求;技术支撑手段各自分散独立,自动化水平不高,端到端的可视化程度不高;故障分析、故障自愈、态势感知等智能化运维手段尚未投入使用,部分运维工作呈现被动式、救火式状态。随着铁路信息化建设进一步深入,系统覆盖范围进一步扩大,业务敏捷部署要求进一步提升,运维工作面临巨大挑战。运维组织、流程和工具需满足高效卓越、快速响应、集中统一、服务多样的需求,为铁路信息系统运维工作提供全面、有效支撑。
3 铁路信息系统运维管理体系建设思路
3.1 运维管理体系架构设计
信息系统运维管理体系[11]是指整个信息系统运行和维护过程中所建立的各种组织生产和管理要素体系的合集。对于企业管理来说,信息系统运维管理是不可或缺的部分。根据铁路信息系统运维过程中实际工作要求,结合ITIL、ISO20000 和ITSS 运维管理标准和规范,设计一套技术和管理健全完善的铁路运维管理体系,来保障铁路信息系统安全、稳定和高效运行。
信息系统运维管理体系主要包括能力管理活动、能力要素和关键指标三个部分共同组成,如图1所示。能力管理活动包括策划、实施、检查和改进,它们都是企业实现IT 运维服务能力不断提升的主要手段;能力要素包括机构及人员、管理流程、运维技术和运维资源,每个要素通过关键指标反映IT 运维服务的具体条件和能力;关键指标为IT 运维服务所涉及的核心能力参数,体现在能力要素的各个方面,应用于IT 运维服务能力评价。铁路信息系统运维管理体系设计如图1所示。
运维能力管理是面向运维全生命周期的总体能力管控机制,分为策划、实施、检查和改进四个阶段,各阶段交替循环,按PDCA的方式实施能力管理,实现运维能力持续性的螺旋式上升的管理目标。运维能力管理从运维目标的管控层面来持续管理并提升IT 运维能力,是IT 运维能力要素建设的体制和制度保障,也是落实运维能力体系建设的基础内容。
运维能力要素包括机构及人员、管理流程、运维技术和运维资源。
运维关键指标的主要作用是推动各部运维目标在各部门的有效实施,确保各层级运维人员向一致方向努力,为组织绩效管理提供透明、客观和可衡量的基础,驱动组织各类人员凝聚对运维战略目标的支撑。同时也是IT 运维能力建设回顾与改进的基础,有助于IT 运维管理层诊断存在的问题,并及时采取行动予以改进。
网络安全是信息系统运行的重要指标,涉及运维工作的各个阶段,因此需要持续的资源、人力的投入和科学的管理和运营,结合成熟的运维管理机制,将网络安全运维能力与经验进行积累和沉淀,并在此基础上不断提升网络安全运维能力,形成递增式的安全运维管理模式,保障信息系统安全稳定运行。
3.2 运维机构及人员
通过建立规范的运维管理体系,来确定各个运维部门机构配置及工作岗位职责。运维机构及人员包括组织结构、人员管理、岗位设置、知识、技能和经验。铁路信息化运维管理工作实行国铁集团、所属单位两级管理,国铁集团、所属单位及其下属单位三级运行维护,由国铁集团党组统一领导,网信领导小组协调推进,国铁集团科信部落实国铁集团信息化工作决策部署。
为担负信息系统基础设施运维管理的职责,满足主数据中心投产运行需求,设立百余人的运维团队,涵盖管理层、执行层、咨询团队,确保主数据中心信息系统运维工作有效开展,并通过专业化培训不断提升团队运维能力。国铁集团科技和信息化部是总公司主数据中心运行维护工作的归口管理部门,决策、规划、监督、考核总公司主数据中心运行维护管理工作。总公司信息中心是主数据中心运行维护的管理单位。铁科院集团公司是主数据中心应用信息系统的维护单位。各铁路集团公司信息所根据业务需要,配合开展总公司主数据中心运行维护工作。横向全覆盖,为机房、网络、系统、应用等提供全面运维保障服务;纵向成梯队,分为一线运维团队、二线专家团队、三线支援团队,一线现场处理故障,二线通过远程复视等技术完成远程监控、运维操作等工作,三线由厂商提供技术支持,处理复杂及疑难问题。铁路信息系统运维机构及人员设计如图2所示。
3.3 运维技术
运维技术是提高运维效率、降低运行风险的基本因素,包括运维方案设计、发现问题的技术和解决问题的技术,涉及IT 技术方案、技术规范、监控、巡检、智能数据分析等各个方面,确保故障问题的早发现、早解决,降低数据中心运行风险,实现高效运维。铁路信息系统运维技术设计如图3所示。
3.3.1 运维方案设计
如图4所示,铁路信息系统运维方案设计主要有以下几个方面:
3.3.2 发现问题的技术
IT 运维服务中各类事件是形成问题的基本来源,为了及时发现和准确定位运维过程中出现的各类问题和潜在风险,采取的技术包括自动监控、人工巡检以及态势感知等技术诊断和分析问题。
3.3.3 解决问题的技术
解决运维过程中发现的问题,使运行维护服务对象恢复到指定要求的技术手段,在解决问题的过程中建立相应的手册或解决方案、测试标准和测试方法以及测试环境。
3.4 运维管理流程
运维管理流程把人员、技术和资源要素以流程为主线串接在一起,指导IT 运维人员有效实施运维工作。围绕我国铁路信息系统建设和运维需求,基于ISO27000 和ISO20000,从项目投产交接管理、服务级别管理、日常运维管理、变更管理、应急管理、事件管理、配置管理、问题管理、安全管理等各方面强化管理、规范作业,促进运维管理水平迈上新台阶。铁路信息系统运维管理流程架构图如图5所示。
(1)投产交接管理。投产交接是拟投产信息系统由施工方交付运维方的第一步,按照施工方申请,施工组织方组织各相关单位审核,由运维部门确认接收执行,同时将新交接系统纳入服务级别管理。
(2)服务级别管理。服务级别管理主要是为了提高对运维服务需求的识别、服务等级协议制定与监督管理水平,提高运维服务的质量,规范运行维护范围内基础设施和应用软件服务级别的管理工作。
(3)日常运维管理。运维部门综合各专业运维需求,科学、合理编制年度运维计划,根据年度运维计划制定月度运维计划,不断优化运维作业组织,提升运维作业质量,提高运维工作效率。
(4)事件管理。事件管理是对引起或有可能引起服务中断或服务质量下降的非标准操作的管理。事件管理的主要目标是尽快恢复信息系统正常服务,尽可能保证最好的质量和可用性,通过确定岗位职责的工作要求、规范事件等级、处理流程等,提升事件处置的效率。铁路信息系统事件管理流程设计如图6所示。
(5)问题管理。问题管理是为了减少或消除事件的发生,通过主动辨别对IT服务造成影响的一些因素或潜在原因并进行处置,降低对IT 服务运营的影响。通过分析已经发生的事件,判断哪些经常发生或会产生最大影响的事件,找出其本质原因,为防止事件再次发生,通过相应的变更请求、临时解决方案或预防性措施。
(6)变更管理。信息系统变更管理的主要目的在于保证信息系统的变更以一种可监督、受控的方式进行评估、批准、实施,最大限度地降低减少变更带来的风险,并保证所用变更可追踪可追溯。铁路信息系统变更管理设计如图7所示。
(7)配置管理。通过建立、维护配置管理数据信息,为IT 服务提供基础性保障。运维部门建立配置库和技术文档库,准确记录和描述组成生产系统的各个组件及其相互关系,为系统监控、事件管理、变更管理、应急处置等运维活动提供基础信息。
(8)应急管理。应急管理是为了增强基础设施及信息系统所需要的防范、处置各种突发事件的能力。整个过程主要包括了应急预案的编制、审批、发布、备案、培训、演练、评估、修订、保障、监督、考核等工作。信息中心安委办负责组织运维部门编制主数据中心应急预案演练计划,定期组织演练。演练结束后对演练评估,分析存在的问题,修订和完善预案并备案。同时各主责部门做好预案培训,培训纳入信息中心培训工作统一管理。相关部门按预案规定落实应急队伍、物资、装备等保障需求。安委办负责考核,明确检查的重点内容和标准,纳入信息中心安全生产考核内容。铁路信息系统应急管理设计如图8所示。
(9)安全管理。安全管理是为了防范国铁集团主数据中心、国铁集团所属企业机房等基础设施所在地的园区、人身、资产和信息安全风险,保障网络安全,保证信息系统稳定、安全运行。结合视频监控、门禁、安检、消防等手段,完善园区消防及安保措施,组织应急演练,强化园区安全。通过建立完善的运维安全生产责任制、明确其职责、加强对运维人员的业务培训及安全生产教育和定期考核。按照有关规定要求配备安全防护和各类劳动保障用品,保持操作工具具有良好的状态,凡是进行危险性较大,必须事前拟定安全技术防护措施,特殊工种必须持有许可证上岗。
(10)服务报告。针对IT 服务应定期形成服务报告,对全路运维计划执行、事件处置、信息系统变更等方面的详细情况进行总结分析,用于对全路运维情况进行检查、评估、考核,并针对性地对运维计划、应急预案、运维各相关工作流程等进行优化。
3.5 运维资源
运维资源包括有体系资产、IT资源、运维管理工具、保障资源等,是为了确保IT 信息系统运维服务的正常交付而依存和产生的资产[12],为人员、技术要素和流程提供强有力的保障。
(1)运维管理规章制度体系。围绕国铁集团信息化工作目标,参考国际先进理论,遵循国家相关标准,结合我国铁路IT 运营现状,通过业务、制度、体系和技术创新,设计了铁路信息系统运维管理规章制度体系框架。管理的整个过程包括了信息系统运行和维护全生命周期,涉及事前、事中和事后的规范、控制和监督全业务流程,技术范围涵盖有数据中心、应用系统、系统平台、信息网络等方面。主要包括了四个层级:策略和方针、管理办法、管理规定和程序、作业指南/操作规程/模板表单。
(2)运维管理工具。铁路运维工具涉及基础设施运维、IT 设施运维以及安全运维三方面,包括基础设施管理系统、运维管理平台以及安全态势感知平台,构建了符合国铁集团运维需求的工具体系。铁路信息系统运维管理工具体系如图9所示。
1.基础设施管理系统。铁路基础设施管理系统设计包含有数据中心基础设施管理系统(DCIM)、机房电源及环境监控系统、建筑设备监控系统(BAS)、安全防范系统、火灾自动报警系统(FAS)、能源管理系统等。
2.运维管理平台。铁路信息系统运维管理平台提供对IT 基础设施的全面监控管理、资源配置统一管理、运维工作流程管理、运维操作自动化管理以及运维数据的智能分析等能力。
3.安全态势感知平台。铁路安全态势感知平台利用大数据分析技术将多种漏洞信息进行入库和分析,快速的融合多源安全要素数据,形成整个信息网络的安全态势评估结果,为安全运维工作提供重要的数据支撑,也为安全运维工作向自动化运维和智能化运维发展提供了重要的基础。
4 结语
如何来构建我国铁路信息系统运维管理制度和体系,本文对信息系统运维管理的相关概念做了简要阐述,然后研究分析我国铁路信息系统运维管理所处的现状和所面临的问题,最后提出了构建我国铁路信息系统运维管理体系的基本思路。通过紧密的结合实际情况,在铁路信息系统运维管理体系的建立过程中,围绕ITIL、ISO20000、ITSS 基础构架相关标准,构建了一个具有我国铁路信息系统运维管理制度体系,从而有效地推动我国铁路信息化健康、稳定地发展。