IT运维监管平台的应用探讨
2018-03-19乔晓攀
乔晓攀
(山西省商务信息中心, 山西 太原 030002)
引言
随着信息化建设的不断深入,各行各业对信息化建设与管理的依赖性越来越大。用于支撑各类信息系统的网络、主机、存储、数据库、中间件等IT基础设施的数量变得越来越庞大,并且越来越集中,信息系统环境变得庞大而复杂。大数据时代下的信息化对网络系统、主机、存储、数据库、中间件等基础设施的安全性、可靠性、稳定性和设备性能发挥都提出了更高的要求,必须提升信息系统安全及应急管理的快速反应能力和集中控制能力与之适应。原有机房运维监控管理的方式、规模、力度、技术都已远远落后,无法满足信息化建设与应用的新需要。
1 目前机房维护的需求分析
目前,数据中心机房的各种运维手段还远远满足不了信息化工作的新要求,运维体系建设明显滞后,对故障的发现、跟踪以及解决缺乏一个完整的系统,以靠人工巡检发现故障为主,缺乏处置异常信息科学的依据和高效的监控工具;不能便捷、实时了解设备资源的使用状况等,这些问题不同程度地影响了各信息系统效能的发挥。当机房设备发生故障,而技术人员却不在现场,不能及时发现故障,更不能及时处置故障时,进而导致整个信息系统的无法正常运行,严重时还可能造成系统瘫痪,数据丢失等严重事故。因此,通过使用基于基础资源和基于软件系统两个层面的监控,涵盖机房动态环境监控系统、网络设备、服务器、各信息系统等软硬件的IT运维监管平台,对所覆盖的基础资源和业务应用软件进行24 h不间断地自动监控和分析,从而达到及时发现任何资源的异常状态并发出警报和实时展示。IT运维监管平台自动报警使相关技术人员第一时间获悉故障情况,及时处理故障,保障机房各系统设备稳定高效运行。
IT运维监控管理平台的建设,实现了对机房所有资源的可视化、统一化管理。通过监控模块和故障处理模块的整合联动,高效支撑信息技术服务管理工作,全面展示机房信息化资源的运行状况和设备性能;最终实现对各类信息系统的动态实时管理,有针对性地解决运维难题。同时,可强化运维支持管理能力,不断提高运维工作的质量和效率,不断完善运维管理体系。
2 IT运维监管平台总体架构
IT运维监管平台涵盖了机房运行数据的生命全周期:数据采集、处理、加工、展示和管理等过程,按照模块化、松耦合、分层的设计原理使平台系统架构更加清晰,系统的总体架构如下页图1所示。整个系统架构分为五个层次,其中整个系统的核心层是数据收集层、数据处理层、数据展示层,下面对每个层次的功能及其所包含的模块进行说明。
1)资源监控层。通过对各类内外部的接口、各种应用软件、中间件和各类数据库资源状态的实时监控,实现监控包括机房动态环境监控系统、网络设备、主机系统、数据库、中间件和应用系统等。由数据采集层采集监控指标,并传递到数据处理层进行加工处理。
2)数据收集层。数据收集支持“主动”和“被动”接收两种采集方式。其中主动采集又分为Agent和Agentless两大采集模式。而Agentless主动采集方式具体包括:TCP、POP3、JDBC、Shell、HTTP、HTTPS、ICMP、DNS;SNMP、TELNET/SSH、JDBC、HTTP、JMX WMI、SNMP TRAP和NETFLOW等多种协议类型。该模块支持对数据汇集接入、数据推送和数据共享等功能。
图1 总体架构图
3)数据处理层。通过合理的数据过滤、压缩、合并、采集或对接收到的各种原始数据并进行相关性分析等处理,发现异常数据,产生告警信息,以实现对各类性能数据的统计分析工作。通过平台的告警阈值自定义功能,使系统管理人员可以结合自身的实际运维情况和各类资源整体情况自主定义预警阀值,从而达到资源利用的最大化。
4)数据展示层。主要是提供各种管理功能界面,并将所采集的数据以图表、拓扑视图等方式直观地展示给用户。同时通过声光、短信、电子邮件等报警方式将突发的异常告警信息通知用户。
5)用户管理层。主要是对系统用户进行设置和管理,系统的用户可以为值班人员、运维人员、系统管理员和管理者等,通过预设每个人的权限保证他们登录后,系统根据不同的角色和权限提供不同的服务。
3 IT运维监管系统接口设计
IT运维监管系统在实现信息的采集、处理、存储、传输、加工、应用、统计分析、系统管理的同时,需要与相关外部系统保持着密切互联,包括:短信平台、机房动力环境监控等系统有着紧密的联系。
3.1 系统内部集成接口
1)接口功能设计。本接口实现分级情况下机房基础系统之间的设备性能、异常信息告警等数据交互。
2)接口设计。通过 Web Service、文件、SOAP、码流等技术,利用应用支撑层的数据交换接口服务来实现接口功能。
3.2 集成机房动环监控系统的接口
1)接口功能设计。机房环境参数告警信息监测:该接口对机房动力环境参数(如:电流、电压、湿度、温度、水侵、烟感、空开等)的告警信息进行监测。
2)SNMP监控、数据告警、展现。该接口对机房专用空调、不间断电源等系统的监控是通过SNMP实现。将监控到数据通过门户集成方式整合到IT运维监管系统中,从而达到对监控信息进行异常信息告警、数据集中展现的目的。
3.3 集成短信平台的接口
1)接口功能设计。在异常信息的处理过程中,该接口可以自动将告警信息以短信的方式发送到相关人员(如:单位主管、系统管理员和应急保障人员等)的手机上,并能及时传送与机房监控管理相关的异常通知、故障处理等情况信息。
2)接口实现设计。通过Web Service、文件、SOAP、码流等技术,利用应用支撑层的数据交换接口服务来实现接口功能。
3.4 集成相关外部系统的单点登录和统一身份认证接口
本系统通过对IT运维监管系统和机房动力环境监控系统、ITSM系统、基础运维管理工具等相关外部系统的门户集成,从而在IT运维管理平台上实现相关系统的单点登录和统一身份认证,有效地集成和利用了各类运维管理资源,进而形成便捷的机房运维管理运行机制。
1)统一身份认证:对IT运维监管系统与机房动力环境监控系统、ITSM系统、基础运维管理工具等相关外部系统的用户进行管理集成,并进行分层、分级归纳,统一纳入到IT运维监管系统门户访问控制体系中,实现对IT运维监管系统所有用户的统一身份认证和管理。
2)单点登录:通过IT运维监管系统门户中的单点登录控制实现对IT运维监管系统各模块,以及该系统与机房动力环境监控系统、ITSM系统、基础运维管理工具等相关外部系统在IT运维监管系统门户中的单点登录控制,达到用户登录一个系统便可访问全部授权应用系统,获得和控制所需资源的目的。
3.5 接口数据报表管理
1)接口数据分析与统计。把各个模块接口收集到的信息进行汇总,并分类归纳,便于相关人员分析和监控机房动力环境监控设备、服务器、网络设备、信息系统等软硬件设备的运行状态。
2)自定义接口数据报表。可以按照相关人员和具体业务的实际需要和实时变化,对各类数据归总报表的内容、格式以及生成时间进行自定义。
3.6 接口数据备份
按照相关人员和具体业务的实际需要和实时变化,设定备份时间周期,也可以将过往的日志信息按计划地进行备份和恢复。同时平台支持异地远程监控和备份。
4 IT运维监管平台实施效果
1)通过故障实时预警,实现及时处置系统故障。对机房基础设施及相关信息系统和数据库的运行状态进行动态监控,以合理的事件管理机制分析各资源实际使用情况,设置告警分析处理和故障预警的阈值;使平台能够高效地发现、分析异常信息,能够快速定位故障,尽可能地做到第一时间防范。
2)实时掌握机房物理资源,提高设备利用效率。实时了解并掌握机房信息系统运行的整体情况,提高信息系统的运行效率和保障硬件支撑系统资源不被浪费,并根据实际需要进行资源的配置、调配和使用,发挥信息系统和硬件资源据的最大利用率。
3)提高工作效率,故障处理范化。机房运维工作中存在大量巡检、值班等重复性的工作。这些工作会占用大量的时间,通过平台自动化的操作将这些重复性工作省掉,可以将运维人员的精力投入到数据分析、故障处理等更重要的工作中,从而提高了运维工作效率。通过平台的故障申请受理、处置时间超时自动提醒功能,进一步规范了故障处置流程。
5 结语
传统的机房运维管理模式,将被不断进步的信息技术和要求越来越高的信息安全要求所淘汰。可以将机房软硬件系统、动环系统、通信等系统集合起来的智能IT运维监控平台是目前机房运维工作的发展方向。目前这一机房运维平台已经在单位得到应用,系统全时段运行正常稳定,极大地减轻了运维人员的日常工作量,并且缩短了机房故障处理时间,取得了很好的效果。