APP下载

集中调度网管平台在煤炭企业信息系统运维中的应用

2019-05-14丁瑞元

科技资讯 2019年5期
关键词:网管运维监测

丁瑞元

摘 要:随着煤炭企业信息化、自动化、智能化建设的不断发展,煤炭企业所使用的各类信息系统及配套设备大量增加,现有信息系统运维人员的工作任务随之增加。该文通过建设一个具有集中网管、告警监视、统一运维、可视化展现的集中调度网管平台,将煤炭企业各类信息系统设备统一监管,实现“集中监控、集中管理、集中维护”,减少运维管理人员工作负担,提高信息化运维管理水平和员工工作效率,达到降本增效的目的。

关键词:信息化 网管 运维 监测

中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2019)02(b)-0049-02

随着煤炭企业信息化、自动化、智能化建设的不断发展,煤炭企业所使用的各类信息系统、硬件设备也不断增加,运维工作量逐年加大。各系统都有自己的网管系统或告警平台,如H3C网管系统、T2000传输告警平台、视频质量诊断平台等,因设备厂家不同、告警编码协议不同,导致各系统不能互联互通、资源共享,存在一个个“信息孤岛”,为运维人员的统一集中管理、运维带来了难题。为了解决以上问题,该公司搭建一个“集中网管、告警监视、统一运维、可视化展现”的集中调度网管平台,实现信息系统日常的管理和调度功能,随时准确地监测各信息系统的运行情况,确保各系统稳定运行。

1 平台特点

1.1 高度模块化

平台采用了分层、模块化的设计技术,模块与模块、层与层之间松散耦合。它具有3方面优势:一是模块之间的松散耦合使其具备反应灵活快捷、适应能力强的特点;二是模块内部实现了优化整合,能够高效率地完成该模块各项功能;三是可以按需定制业务模块,实现适合自身情况的特需功能。

1.2 开放性

平台通过开放的接口可以采集第三方系统、设备的资源信息、告警信息等,通过分析处理模块进行统一处理,可视化模块进行逐一展现。

1.3 支持二次开发

利用平台提供的API接口,扩展开发所需的功能。一般情况下利用系统提供的图形化工具编写脚本或规则即可,如事件关联分析、工单流转规则等。对于复杂的业务,可以利用系统提供的SDK包进行二次开发。

1.4 支持大规模网络

针对大规模企业的区域性特征,系统提供了贴合实际应用的多级管理方案,在管理上可以做到分级管理和集中管理的有机统一。

2 平台结构

集中调度网管平台主要功能模块包括专项工具、调度门户、监管中心、资源台账管理系统、度量中心和流程中心。

专项工具主要实现对网络设备、操作系统、数据库、存储设备和视频设备的监控。利用这些专项工具,能够实现对IT系统的全面管理,并对各类调度操作提供基础支持。

监管中心主要实现对IT基础设施的集中監控管理,提供一个标准的数据集成接口,对各类监控工具产生的告警消息和外部工具集成的告警消息进行集中统一处理,对采集的数据进行统一存储、处理,对系统内部的信息进行可视化展示。

资源台账管理系统实现资产管理功能,通过业务建模、自动采集、调和、变更控制等手段,保证IT资源的完整性和精准性,为其他系统提供数据支撑。

度量中心提供了面向调度系统的性能、事件告警、资源台账、运维工单等统计分析报表,并提供可以实现报表定制化的设计工具。

流程中心是通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,围绕服务建立事件管理、问题管理、变更管理、服务请求管理、服务目录等,进行IT运维服务的流程化、规范化管理。通过完善知识库建设,实现知识库共享,从而提高信息服务效率,提高用户的满意度。系统还提供了常规的巡检管理和值班管理功能。

调度门户包括了统一门户、报表展现和权限管理等主要模块,是信息的集中呈现窗口和日常工作的平台。

3 接口设计

整个集中调度网管平台具有很好的开放性,在监控功能、数据处理等不同架构层面都提供了扩展接口。

在监控功能方面,系统提供一体化监控平台的同时通过插件机制,允许定制个性化监控能力。监控框架提供强大的基于脚本扩展的通用监控器和丰富的二次开发监控协议库,可通过脚本配置或二次开发,满足特定环境的监控管理需求。系统提供了基于SNMP协议和脚本的监测扩展能力,对于支持SNMP协议管理的设备和系统,用户可以直接通过界面配置实现监控;对于一些提供标准远程访问协议或管理命令行的设备和系统,可以通过基于脚本的监测器扩展实现监控;另外监控框架本身以插件体系构建,同时提供丰富的协议API接口,可以基于监控插件框架扩展开发满足特定的业务监控需求。

在数据处理方面,通过数据汇聚接口能够和其他业务应用系统等进行对接,接收第三方系统的资源数据、性能数据和告警事件信息进行综合处理和统一调度展现。数据汇聚和管理层对外提供了数据汇聚和管理接口,第三方系统可以通过配置集成接口提交和查询资源数据,通过性能集成接口提交和查询运行状态、性能指标数据,通过事件集成接口提交故障事件和查询告警信息、触发运维服务流程。

在系统提供平台扩展接口的同时,还提供了丰富的Java二次开发包和二次开发说明文档,便于系统扩展开发。

4 平台功能

集中调度网管平台主要是实现信息系统日常的管理和调度功能;随时准确地监测各信息系统的运行情况,具体功能如下所述。

(1)通过信息化、数字化和扁平化的改造,实现一张图管理模式,能够为管理层和运维人员提供多角度、多层次的展示界面。

(2)通过对交换机、存储、服务器等IT基础设施数据的采集和性能状态的监测,帮助运维人员进行故障分析和预诊断。

(3)资产统一管理和维护功能,提供各类资产报表。

(4)事件告警管理,利用现有设备和管理系统提供的集成接口,采集现有网管系统的告警信息,进行告警、故障查询和处理。

(5)运维管理,对日常运维工作中的事件、问题和故障处理记录进行记录和管理,实现运维工作可记录、可度量、可追溯。

5 监测数据采集方式

5.1 基础硬件设备监测实现方式

集中调度网管平台对网络、存储、数据库等基础设备数据、性能状态监测和告警进行采集。

(1)网络设备监测,采用SNMP协议,实现设备的真实面板管理。

(2)服务器监测,通过CLI、WMI、代理Agent方式监控服务器,Linux/Unix系统的CLI监控方式同时支持SSH及Telnet两种方式,监测包括CPU利用率,系统、用户、空闲时间的百分比,磁盘空间使用率,磁盘IO读写性能,磁盘的目录,文件大小和进程运行情况等。

(3)存储设备监测,通过SMI-S协议或SNMP方式进行监控,通过这两种方式,可以为存储设备和集中调度网管平台之间提供标准化的通信协议,使得存储管理系统能够实现鉴别、分类、监控和控制物理及逻辑资源的能力。

(4)网络拓扑的管理,系统通过SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多种手段自动发现、识别各种设备,并能够自动生成准确的物理拓扑、网络拓扑和子网拓扑,同时提供可视化管理工具,可以根据实际环境和需要自定义拓扑图。

(5)数据库的管理,采用通用JDBC数据库监测器,通过JDBC执行用户SQL词句,监测执行结果,支持各种平台上的Oracle、MS SQL Server、MySQL、Sybase、DB2等数据库系统,连续地监控数据库引擎的关键参数,包括数据库缓冲区的使用率和命中率、进程的状态、表空间的分配空间、已用空间的情况,以及Oracle等数据库死锁情况。

(6)视频图像监测,视频质量诊断服务系统与集中网管调度平台之间通过服务接口(如WebService)交互,视频质量诊断服务系统分析出视频质量出问题后,将视频的告警信息,通过接口推送到集中网管调度平台。

5.2 现有网管系统告警监测功能实现方式

(1)T2000网管系统。

华为T2000网管系统将处理好的告警信息以Corba接口方式向集中网管调度管理平台推送,接收到来自T2000网管系统的告警后,对告警信息进行解析和标准化处理。

(2)LTE 4G网管系统。

通过4G网管服务系统的背向接口,接收SNMP Trap,即管理站及时获取设备的告警信息,并在集中调度网管平台中进行处理和展现。

(3)动力环境监控系统。

机房环境监控系统将自身采集到的各类UPS电源、水浸、发电机、机房温湿度、配电柜电量仪、门禁等告警信息,以SNMP Trap等方式发送给集中网管调度管理系统,集中网管调度管理系统对告警信息进行解析和标准化处理,建立配置项间的关联关系,进行告警通知和工单派发,同时在可视化界面上进行告警提醒。机房动力环境系统相对网络、安全等管理系统有较大区别,因此在集成接口上提供了基于TCP/IP层面的数据接口,这样集中调度网管平台就可以通过应用程序层快速的进入机房监控系统的功能和业务界面。

6 结语

煤炭企业从信息化系统管理和运维的实际应用情况入手,建立集中调度网管平台,将系统的告警信息、状态信息、资产信息等集成到网管平台,给运维人员提供一个功能完善、界面统一的系统,实现统一管理、统一调度和统一服务,完成报表数据的定制展示,实现監、管、控一体化的运维管理调度格局。实现“集中监控、集中管理、集中维护”,减少运维管理人员工作负担,提高信息化运维管理水平和员工工作效率,达到降本增效的目的。

参考文献

[1] 吴结根,杨俊.集中网管系统在现代通信网中的应用与展望[J].江西通信科技,2008(2):11-13.

[2] 徐川.基于信息技术基础架构库的IT运维服务体系构建[J].医学信息学杂志,2018,39(1):37-40.

[3] 栗丽英,张成亮,韩旭东.基于综合网管平台的大客户网络四位一体集中管理体系建设[J].电信技术,2017(5):56-59.

猜你喜欢

网管运维监测
气囊测压表在腹内压监测中的应用
基于 WSN 的隧道健康监测研究
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
学习监测手环
北京市中小学网管教师培训需求研究
计算机网络管理维护探析
电子政务甲方运维管理的全生命周期