调度集中系统监控一体化平台的设计与应用
2015-01-01曹龄兮陈建译
曹龄兮 陈建译
近两年,随着客运专线行车指挥集中控制的需要,调度集中系统 (以下简称CTC)的各种新设备也随之建设投入使用,其不断增长的规模和复杂度向维护人员提出了更高的要求。然而,由于不同厂家不同设备及多种网络协议等形成的异构网络,使得对CTC设备的维护管理难度加大,仅靠人工的重复劳动已远不能满足行车设备的高安全性及高可靠性。为此,从网络监控的角度出发,构建一个调度集中系统监控一体化平台,可实时监测事件及设备性能并集中处理,帮助运维人员及时了解设备状况,根据故障指标统计、分析对相关业务的影响,快速给出决策判断,保障CTC设备的稳定运行。
1 平台目的
调度集中系统监控一体化平台,可对调度集中系统实施综合智能监控。由于各客专的调度集中设备建设时间、生产厂家不一致,设备及网络连接方式也不尽相同,监控一体化平台需要通过各种接口协议,对被管理对象的设备性能及各类事件进行管理集成。
监控对象:①硬件设备,如交换机、路由器、通道质量监督设备等网络设备,防火墙、网闸、安全边界等安全设备,各线别应用服务器、通信服务器,数据库等;②操作系统、应用软件、中间件等系统软件运行情况;③运维人员的自控管理。
类似人工对设备的巡视检查,监控平台实时监测各种基础数据,对超过阈值的数据所属设备进行告警提示 (故障处理),同时分析处理历史数据,形成一定的决策判断。另一方面,该平台整合了所有设备的具体档案信息,记录设备中的所有板件维修、更新情况,做到对设备健康状况一目了然。
2 组织结构
调度集中系统监控一体化平台包括:设备层、采集层、分析层、展现层和统一信息库,结构如图1所示。
1.设备层,为调度集中系统监控一体化平台的监控管理对象,包括各类型的网络设备、安全设备、服务器、操作系统、数据库、中间件、应用软件以及能产生相关事件的信息系统。
2.采集层,通过各种协议适配器实现对网络设备、安全设备、服务器、数据库、中间件、应用软件、机房环境等的运行状态、实时事件日志、告警信息、配置数据、性能参数进行监控,以及对各类事件数据进行标准化、归并压制、过滤、汇聚等预处理工作,并发送至统一信息库集中存储。
图1 调度集中系统监控一体化平台
3.分析层,通过人工设定的阈值,判断性能数据、日志数据、状态数据、业务数据等是否在正常范围内,并通过实时性能、网络拓扑、历史趋势和告警关联等分析,给出能够自动触发人工干预的管理流程,实现闭环操作。
4.展现层,提供一个图形化的显示界面,提供资产管理、告警管理、性能管理、IP管理、网络管理、系统管理等功能,并将趋势分析结果展现在各功能中,提供决策服务。
5.统一信息库,存储各种性能数据、配置数据、故障数据、告警数据、资产信息和人工运维工单信息等,包括历史数据和实时数据,是集中展现平台的重要数据支撑,同时也可通过数据总线供外部接口系统调用。
3 功能设计
3.1 运行监控功能
运行监控功能是该系统最主要、最基础的功能,主要完成机房环境3D监控、设备性能监控、网络监控、系统软件监控等。
机房环境3D监控,利用3D物理视图,直观展现机房设备及位置,对机房环境进行实时监控,对异常设备进行声光报警,便于维护人员发现故障点,及时响应。
设备性能监控,包括对服务器、数据库、网络设备、安全设备等调度集中系统内设备的实时监控。监控项目有服务器的 CPU、内存、交换空间、磁盘空间、关键进程等;数据库的 CPU、内存、磁盘阵列、等待次数列表、Session数表空间、缓冲区、共享池命中率等;网络及安全设备的CPU、内存、端口列表、存储、电源、风扇情况等。
网络监控,用来实现对局域网通道质量的检测,以及网段的发现、拓扑展示与刷新。网络监控功能便于维护人员及时发现断开或者网络设备异常的情况。
系统软件监控,用于对操作系统软件以及应用软件版本 (含配置)的监测,能记录当前软件版本以及该版本软件的更新时间。
3.2 运维资产管理
运维资产管理实现对硬件配置信息的统一管理,能掌握设备的类型、上线时间、更新维修等相关信息,具体细化到服务器中某块板件。通过运维资产管理,对硬件设备逐个建档维护,能有效地做到设备的全生命周期管理,对设备的维修保养周期给予一定的决策支持。
IP地址管理也是该平台的一项重要功能。调度集中系统属于国家认定的4级网络安全系统,高安全等级要求系统中每项设备的IP地址不可冲突,调度集中系统监控一体化平台很好的管理了各设备厂家的IP地址设置,智能化地检测IP地址的唯一性。
3.3 告警管理 (故障处理)
告警管理是统一触发、通知、展示、处理、查询告警信息的集中平台,为运维人员及时发现并处理故障提供了有力保障。告警按紧急程度分为提示、一般、重大、紧急 (故障)四个级别。运维人员可根据不同级别的告警,做相应处理。
告警级别的阈值由管理人员设定,告警的形式包括在调度集中系统监控一体化平台上的3D展示,短信通知以及邮件通知等。
3.4 决策服务
在运行一段时间后,平台中的统一数据库收集了一定的运行维护数据,从这些维护指标可以得出被监控设备运行的健康状态,并对告警信息进行合并、类比,挖掘出同类的故障隐患。如果某台服务器近2个月出现多次电源告警,分析层的历史趋势分析组件将会将分析结果通过告警形式提醒运维人员,检查电池及相关设备。
4 现场应用
目前,调度集中系统监控一体化平台已在广铁集团公司调度指挥系统备用机房部署,采用IBM 3850服务器,搭载4个6核CPU,64GB内存,运行环境为windows server 2008,数据库采用oracle 10,可同时监测200台设备。
经过半年多的使用,该平台的优势显而易见:①大量减轻了人工巡视、排查故障等工作量,利用平台提供的告警管理,每次巡视时间由2 h减少到10 min;②通过历史趋势分析,对故障或隐患的处理提出智能化建议,不断完善辅助决策,形成良性循环;③在故障发生的紧要时刻,能第一时间通知到相关人员,并且在日常维护管理中,将告警信息以工作单处理的形式转到人工,简化作业流程;④对调度集中系统的资产形成了由点及面的细化管理,能按需求统计有关设备维护的各种报表。
综上所述,该平台实现了运行监控自动化、辅助决策智能化、告警展现多样化、运维资产精细化,将调度集中系统的维护提高到了一个新的台阶。
[1] 刘朝英.中国铁路分散自律调度集中〔M〕.北京:中国铁道出版社,2009.
[2] 谭鑫.IT业务系统监控及其关键技术研究〔D〕.长沙:中南大学,2012.