铁路信息系统运行维护的研究与分析
2020-10-21梁秀勋
梁秀勋
摘 要 信息技术应用在我国铁路运营中发挥着重要作用,信息化建设体系愈发完善。为提升信息系统运行维护的管理水平,保障各应用系统稳定运行,研究和分析当前铁路信息系统的运维管理现状,提出改进和提高的建议。
关键词 运维;信息系统;管理
随着铁路信息化建设发展规划的逐步落地,信息系统应用领域越来越广泛,为了更好地服务于铁路运输生产、经营管理等各个领域,近年来,铁路总公司和各铁路集团公司开发和投产了各种应用系统,解决了生产、经营管理过程中的问题,提高了工作效率和工作质量,规范了内部管理,实现了信息共享,并不断向智能化和自动化逐步推进。目前,这些应用系统正在发挥越来越重要的作用的同时,也面临运行维护规范、有效的管理的难题,铁路局集团公司層面的运维压力越来越大,责任越来越重,传统的运维模式和各类监控手段多种多样,效果不一,如何构建规范、高效、有序的运维管理模式尤为重要。
1铁路信息系统运维管理现状
1.1 运维管理水平不一,不能适应发展需要
铁路信息系统运维管理经过长时间的摸索和探讨,已经初具规模,但各铁路集团公司在运维管理的实际运作方式多种多样,参差不齐,实际效果也大相径庭,缺乏统一、规范的管理和要求。铁路总公司虽然对发生较大运维事件,构成信息故障或事故已经明确了事后追责管理流程,但对日常运维管理和事前要求基本处于在重大节假日和敏感特殊时期提出专项要求,还没有完整的运维管理解决方案和规范统一的管理模式。以北京局集团公司为例,铁路信息系统经过几十年的摸索和近十年的重点建设推进,运维管理理念先进、落实有效,基本实现“全天候”运维技术保障。在2016年铁路总公司组织现场会上介绍运维管理经验,主要体现在以运维管理平台和综合监控系统为抓手,落实了应用系统和设备管理的巡检巡视及应急响应,贯彻了全员“大运维”理念和“状态修”维护标准,基本做到了人防、技防、物防三个方面落地实施,但是,也存在对应用系统变更管理缺乏主动和有效的管理,对局外应用系统提供者和管理团队不能有效管控等问题。
当前,面临信息系统大量投入使用的趋势,我们还缺乏高效的运维工具和规范的管理手段,信息故障还经常发生,特别是软件故障发生后对运输生产影响较大,软件故障的定位和及时恢复应用仍然是运维管理的薄弱环节,每一次的故障发生都会暴露出运维管理的人为因素和设备巡检、软件优化不到位等管理和技术问题。
1.2 应用系统维护的人为因素和重复性工作量巨大
目前,信息系统的软件版本升级、操作系统和数据库的漏洞补丁等工作都需要人为下载、安装、测试;对应用系统运行过程检测的阈值需要人工设定和不断修正,信息设备、机房环境的巡检大多由人工操作、巡视和判断确认。同时,由于铁路各专业信息系统应用发展不同步,专业间推广了大量的业务相近、功能相似的应用系统,各个相近和相似的应用系统间数据需求和数据交换量巨大,出现故障时人工排查问题点很困难,耗时耗力,造成故障延时扩大;有的信息系统在铁总、集团公司和站段三级部署,升级和打补丁时要逐级进行,经常出现补丁无效或引发其他问题。这样的运维运行模式效率低、重复工作量大、易发漏操作等都给当前的信息系统运行埋下了隐患。
1.3 运行环境繁多也是信息系统运维压力巨大的原因之一
随着信息技术的快速发展,移动互联网和大数据、云平台、虚拟化等技术的实际应用,各个信息系统的运行环境和平台越来越多,传统的运维巡检、监测的手段面临越来越大的挑战。随着国家对网络安全越来越重视,各个应用系统和专业网络的安全隔离和防控措施的实施也对运维管理构成了动态巡检和检测的屏障,使得安全有效的运行维护更加复杂和受限,对出现故障的判断和查找问题点变得越来越困难,耗费时间越来越长[1]。
2如何优化铁路信息系统运维管理流程
2.1 强化应用系统整合,扩大集中部署
随着铁路总公司主数据中心的开通运行,将既有运行系统按照分类逐步进行迁移,全路性的应用系统按照铁路总公司的部署进行整合后迁移到主数据中心。各铁路局集团公司做好不同时期开发的业务相关的信息系统强力整合,最大限度减少和规范系统间的数据接口,构建统一的数据交换平台,尽可能集中部署在集团公司中心机房或区域机房,减少站段各自部署的应用,实现标准机房资源和运维资源的共享,最大限度地为铁路信息系统规范化和自动化运维打好基础。
同时在信息化建设方面,要坚持铁路总公司信息化建设“三统一”原则,在总体规划的框架下,各业务领域信息化建设项目,经铁路局集团公司审核通过后进行项目立项。要基于铁路总公司信息化标准体系框架及统一的数据及编码标准、应用系统建设整合标准、一体化信息集成平台运用标准,促进系统互联互通和信息共享。要基于铁路局集团公司一体化信息集成平台,开展业务应用建设和既有业务应用整合、信息交换和共享,各业务应用系统要逐步整合到一体化信息集成平台上。
2.2 构建铁路信息系统运维管理统一平台
铁路信息系统运维管理队伍人员分散、知识水平差距大、队伍不稳定,很难形成统一管理、统一平台、上下一致的快速响应和有效调度的格局,因此,构建集中式的、统一平台管理的运维管理模式可以实现信息系统的运维管理专业化、规范化,特别是铁路局集团公司对主要生产站段实行下管一级的运维管理,统一管理平台,统一监控手段,规范监督考核,进而实现铁路信息系统运维管理自动化解决方案。目前,在铁路内部推广使用的ITSM监控平台没有后续的系统升级和随着机房建设及设备增加进行逐步优化升级,而且,ITSM系统的监控覆盖面不全,有必要对其进行优化扩展和补充完善,逐步建设一套集环境监控、设备监控、应用监控于一体,集自动巡检、自动备份、自动调度于一体,包含设备配置、系统优化、运维管理等功能完善的综合运维管理平台,基于标准化流程工具规范化处理,通过自动化运维工具操作工具处理修复等功能,实现运维监管自动化。该平台对各类IT资源(包含服务器、操作系统、数据库、中间件、存储备份、网络、安全、环境、应用、虚拟化等)进行实时监控,及时归集报警并处理。及时有效发现设备及应用的异常状态,在故障发生之前进行预警,减少人为巡检遗漏。同时,还要加强网络安全支撑体系的建设,做好终端安全防护系统建设,提高信息系统终端安全综合管理能力,极大的提高对信息系统隐患的超前感知,提升运维管理的质量和效率。
2.3 构建铁路信息系统运维管理知识库
按照信息系统维护、使用的不同层级,建设总公司级、铁路局级、站段级的运维管理知识库,根据运维管理权限进行资源共享和交流,在一个平台内进行知识库的不断完善补充,进行交流和探讨,由此提升各级运维队伍和技术人员工作水平和工作经验,在平台上定期组织技术研讨和发布新的知识点。
运维管理知识库与运维管理平台共同构建运维支撑平台,与铁路总公司形成两级架构,包括数据展现平台、流程管理平台、集中监控平台、配置管理数据库(CMDB)等,并与云管理平台进行集成。传统环境与云环境并存,通过IT服务管理系统管理传统环境运维,云管理平台管理云资源及服务。将非云化物理设备、云化虚拟设备分别通过集中监控平台、云管理平台进行管理,二者通过流程管理平台进行整合,实现系统运维监控自动化、服务流程化、展示互动化。
参考文献
[1] 高明星,罗晴,黄京华.铁路信息系统运行维护知识管理研究%Researching for operation and maintenance knowledge of railway information system[J].世界轨道交通,2011,(2):26-29.