浅谈IT运维管理之系统集中监控
2013-09-03刘平均邓阳名朱文柳
刘平均 邓阳名 朱文柳
【摘 要】随着网络应用技术不断发展,IT系统越来越复杂,业务对IT系统的依赖程度也越来越高。本文从项目背景、需求目标、功能设计、效果分析几方面探讨集中监控系统的建立。
【关键词】IT运维管理; 监控系统 ;数据采集
【中图分类号】C93【文献标识码】A【文章编号】1672-5158(2013)07-0070-01
前言
随着企业信息系统项目的不断建设和应用领域的不断拓展,企业管理运营对信息系统的依赖性越来越大,对IT基础平台的运行可靠性要求也越来越高,企业的信息化工作逐步从项目建设阶段转向以深入应用、提升应用水平的运行维护阶段。提高运维管理水平已成为现阶段企业信息化系统应用的重要保证手段。
一、背景
信息管理部是信息化专业主管部门,负责网络、主机等IT基础设施和应用系统的建设、维护,致力于提供安全、高效、快捷的IT服务。近年来,随着信息化建设的深入,企业应用不断增多,主机服务器、网络实施、操作系统、数据库、应用服务器等软硬件平台日益复杂,服务用户的面不断扩大,如何维护好日益增多的主机网络设备,保证各个应用系统安全顺畅运行,为用户提供良好的服务并及时解决各类问题和故障,是IT运维管理的关键所在。目前IT运维管理还处于初级阶段,还没有构建一个综合的IT运维管理体系。对网络、主机、系统等的管理和服务是分散的、不关联的,没有实现数据、信息和知识库的共享,没有实现规范化和流程化。因此需要建立一套融合组织、制度、流程、技术的IT运维管理体系,从粗放、分散、低效的管理逐步过渡到科学、规范的管理,实现从手工运维到自动化运维。按照IT运维管理理论、方法和标准,结合实际和建设需要,遵循立足需求、统一规划、分步实施原则。根据实际人员和管理情况,当务之急是需要建立集中监控系统,实现对网络及信息系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中出现的各种问题和故障,确保网络及信息系统正常、稳定、高效运行。
二、系统架构
2.1 系统架构图
集中监控系统实现对不同服务对象和IT资源的实时监控,包括主机、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等,并通过集中监控管理平台对不同被管对象进行综合处理和集中管理,其系统架构如图1所示。
2.2 数据采集层
数据采集层负责基础监控数据的采集、归并、筛选、过滤、关联等处理,同时对数据进行本地存储。数据采集的方式根据被监控对象的不同可分为:
(1)路由交换机及网络安全设备的数据采集方式采用SNMP协议轮询,接收SNMPTRAP以及Sys-log,采集相关的状态、事件信息。
(2)主机服务器针对不同的操作系统类型和监控的要求,采用SNMP协议、WMI、TELNET的方式轮询。对于特殊应用需求,可以采用AGENT的方式采集数据,满足个性化的需求。
2.3 数据分析处理层
数据分析处理层根据系统设定的各项功能模块的具体要求,对数据采集层提供的数据进行进一步组织、分析和存储,并将结果提供给上层的数据呈现层2.4 数据呈现层数据呈现层根据数据分析处理层提供的数据,通过Web界面以视图、报表等方式向用户展现。
三、系统主要功能
3.1 数据采集
数据采集是整个集中监控系统的基础功能。采用SNMP、WMI、TELNET等协议轮询、接收SNMPTrap、Syslog,或者通过安装在主机/服务器上的A-gent上报信息,来获取被监控对象的状态信息、日志信息和告警信息,并作相应处理。
3.2 故障判断集中报警
故障判断根据采集的基础数据和设定的判断基准,对事件进行判定,确定故障是否存在,并生成故障级别信息。集中报警功能根据故障判断提供的故障级别信息,采取不同的报警策略自动触发,驱动不同的报警程序,比如邮件、短信、声光等。
3.3 性能管理
性能管理对设备性能进行实时监控,比如:网络设备的CPU、内存、端口流量,主机系统的CPU、内存、磁盘读写、交换文件等。监控参数管理可以定义监控周期和性能阈值,当性能超过阈值时,系统发出报警信息。
3.4 网络拓扑管理
网络拓扑管理利用直观的图形展示,帮助管理员更好地了解网络系统的联接情况,在网络中出现故障时能够快速定位故障发生的位置,从而更快速恢复故障。网络拓扑管理根据网络连接情况,自动生成和实际情况相符的网络拓扑图,为管理员提供真正的网络视图。通过网络拓扑图管理员可以方便地掌握设备分布情况和每个设备的运行状态。
3.5 报表管理
报表管理用户可以订制资源使用报表、故障统计报表、资源趋势报表、TOPN统计报表、可用性统计报表、综合报告等不同类别的报表,并生成柱状图、曲线图、饼图等直观图表,实现各种信息的统计和分析,全面、宏观地展示网络的运行情况,有助于更细致地分析网络数据,察看网络、系统中可能存在的热点故障、故障多发设备、故障多发时间,性能变化趋势等,从中发现规律和趋势,为决策者和管理人员提供详细的统计分析报表。
3.6 配置管理
配置管理主要反应网络系统中被监控系统配置更新的情况。
3.7 系统管理
系统管理主要包括系统配置、用户管理、监控行状况等的管理。用户管理是实现系统用户的基本信息维护和权限管理。监控策略管理是根据不同的监控对象和应用环境,设置不同的监控策略,比如数据采集周期、报警方式。
四、结束语
通过实施集中监控系统,可以获得以下效果:各个分布在不同物理区域的系统都纳入到集中监控系统,管理员可方便查看各个系统的运行情况,提高工作效率,节约人力成本。实现自动监控,在无需人员查看的情况下及时发现系统隐患和故障,提高发现系统错误的及时性、准确性,提高工作质量。按区域,设备,时间对监控项目的结果进行统计,并提供周报,月报,年报。使管理层能更方便有效地了解网络、系统的运行情况,进行运行趋势分析以及统筹规划。