广电监管中IT运行监控系统的设计方案
2016-08-10孟莲蓉
孟莲蓉
国家新闻出版广电总局无线电台管理局 北京市 100045
广电监管中IT运行监控系统的设计方案
孟莲蓉
国家新闻出版广电总局无线电台管理局北京市100045
为解决IT运行维护中出现的弊端,需对IT运行监控系统进行分析、设计及设定系统应用。本文从IT运行监控系统进行分析、设计及设定系统应用三方面入手,论述在广电监管中如何设计IT运行监控系统。
BCC NCC 探针IT运维监测
1 背景概述
随着业务的增加,设备和应用系统数量也随之不断扩张,尤其是随着云计算的逐步发展,以及相关基础环境、管理技术和理念的不断发展成熟,IT基础设施的高度集中使得传统的IT运维管理变得越来越复杂,IT人员的工作量与日俱增,疲于查找问题,IT运维管理需不断调整以适应新环境、新技术、新理念带来的管理要求,因此,某广电单位提出了IT运行监控系统的项目建设。
系统需监测管理的对象包括网络设备、网络链路、服务器、操作系统、存储设备、数据库、中间件、基础服务、虚拟化(云)平台等,同时需与机房环境的监控集成。其中,200台网络设备,40台物理服务器(虚拟服务器70台)和存储设备。70台虚拟服务器上部署的所有软件,包括中间件、微软操作系统、LINIX操作系统、ORACLE数据库、SQL数据库、TOMCAT及业务应用系统等。
2 系统架构设计
系统由COSS(集中运行管理模块)、NCC(网络监控)和BCC(业务监控)组成,COSS用于IT日常运维管理,BCC主要用于深度监测业务应用及其支持平台的运行状况;NCC主要用于自动发现各类异构复杂网络的拓扑结构和持续地监视、报告网络的运行情况。如图1所示。
NCC采用多层架构、信息总线等技术,提供C/S和B/S的两种展现模式,如网络管理人员使用C/S对网络进行专业管理,运维人员使用B/S对网络进行值班监控,如图2所示。
BCC系统架构分为四层,分别是数据采集层、数据处理层、业务模块层和功能展现层,如图3所示。数据采集层包含监测采集器、采集探针和监测数据接收几部分,监测采集器利用标准协议和各种业务系统专有协议实现远程监控和数据采集,同时也支持代理方式监测采集被管资源的监测数据;监测采集器运行在采集探针内,采集探针可以分布式部署,满足多个隔离子网和多级大规模IT环境监测的要求。监测数据接收模块接收各个采集探针上报的数据,并交由数据处理层统一处理。在数据处理层,性能数据经过整理、归并与挖掘处理,为上层提供可靠参考;同时故障数据经过过滤、压缩、归并与关联分析,产生告警信息与事件记录。业务模块层提供全面业务功能支撑,展现监测分析结果。功能展现层实现用户接入方式与WEB客户端功能展现。
3 资源监控技术
3.1整体采用的监控技术
系统支持无代理监控和基于代理的监控方式,支持通过 HTTP、ICMP、SNMP、SNMP trap、WMI、Telnet、SSH、CLI、JMS、JDBC、CORBA等多种技术手段,实现对不同资源运行数据的采集。系统可对单个采集任务独立配置采集策略和对单个监控指标进行故障分析阈值配置。对于部分监测器来说,监测对象包含性能属性,系统默认只提供最后一次采集到的性能数据的视图,不对数据进行序列化(即不将数据持久化到性能数据库中),管理员可选择哪些信息进行历史保存,便于进行分析。
CLI(命令行界面)监测方式适用于目标主机登录操作系统需要身份验证的Unix或者Linux平台,通过执行远程命令,对目标主机通过选定的访问方式进行监测访问。BCC为其提供了九种实例:AIX、 FreeBSD、HP-UX、IRIX64、Linux、SCOUNIX、Solaris、TRU64 OSF1、Windows;三种访问方式:Telnet、Agent、SSH(Secure Shell,安全外壳协议)。
JDBC(java数据库连接)监测方式适用于Oracle、DB2、MySQL等数据库应用服务,通过配置与目标主机Oracle数据库的连接信息(有权限控制)进行监测访问。
SNMP监测方式适用于支持SNMP协议并开启SNMP服务的目标主机,对于版本v1、v2、v2c的SNMP协议,Community(SNMP协议中的共同体)需要提供只读共同体密码。对于版本v3的SNMP协议,需要设置安全等级、安全名、用户协议、用户密码、私有协议、私有密码等参数。
JMX(Java管理扩展) 是一个为应用程序、设备、系统等植入管理功能的框架,对每个需要管理的对象,创建一个名为MBean(托管的Bean)对象进行注册,通过公开的访问方法进行访问。Web Logic等应用系统基于JMX开发,故可将其变成JMX的MBean,通过Agent在程序内部或者通过Web管理页面对MBean模块进行管理。JMS是消息中间件,它使应用程序可通过统一的接口访问不同的消息队列产品,它提供了像Connection、Topic和Message这样的抽象。系统提供了JMS以及Open JMS两种JMS消息队列的JMS监测方式支持。
脚本监测方式通用于各种操作系统的主机,它通过执行Groovy脚本进行监测。当监测其它主机时,目标主机必须安装Agent,采用客户端代理并配置好相关端口。
3.2 BCC采用的技术手段
BCC支持分布式监测采集与集中配置管理模式,通过在服务端集中配置采集策略下发到采集探针(Probe)执行周期任务,以满足在大规模网络环境下的对IT基础设施的监测要求。如图4所示。客户端无需任何安装,通过浏览器查看各类IT资源的即时性能指标。
BCC系统采集探针有以下特性:
(1)探针自带监测数据存储功能:在网络临时中断或服务端临时关闭的情况下,Probe端会临时存储监测数据(Probe关闭后也不会丢),待网络和服务端恢复后再向服务端传输数据,保证监测数据的完整性。
(2)探针支持自我管理和故障自恢复:当采集探针由于某些原因无法正确运行时,探针会自动重启并迅速执行监测任务,保证监测数据的连续性。
(3)探针支持自动升级功能:当探针有新版本发布时,只需把探针升级程序发布到服务端固定目录,探针会自动升级到新版本,减少手工升级带来的成本和出错几率。
(4)探针提供自动注册功能:采集探针在启动时会自动根据配置信息连接到服务端进行自动注册,增加了管理的便利性。
(5)探针支持多种常见平台部署:采集探针可在Windows和常见类Unix操作系统下部署,并能以服务模式运行。
3.3 NCC采用的技术手段
NCC拥有网络采集引擎,通过对象识别、采集及针对不同厂商的可扩展脚本,提供网络设备交互服务;利用上述多种协议或方法进行网络探测和信息采集,对网元对象自动发现和识别、分析、保存,形成统一的网管资源库,并在此基础上进行拓扑计算,生成不同层次的拓扑结构。
通过主动 (ICMP、SNMP、CLI) 与被动(Trap、RMON、Net Flow、S Flow、镜像) 两种方式,从设备上获得各类性能指标和流量数据,并进行长时间的数据跟踪记录,最终挖掘分析生成各种报表,展现网络流量与负荷信息,以便对网络状态合理评估与决策。
4 系统功能设计
4.1 NCC功能设计
NCC支持国内外主流厂商的网络设备,包括CISCO、Juniper、Huawei华为、ZXR中兴、H3C、Enterasys凯创、Extreme、Foundry、Harbour港湾、CDRS神州数码、AVAYA、Nortel北电、3COM、ARRAY、D-Link、Maipu迈普、Red-Giant锐捷、Net Screen、Topsec天融信、Riverstone等。
系统对网络类型具有良好的兼容性,可以主动发现VPN、VLAN网络拓扑,并提供拓扑的动态跟踪和更新功能,支持完整拓扑计算、仅终端拓扑计算、停止拓扑计算和主动刷新拓扑功能。系统借鉴和发展了国外网络拓扑动态发现和跟踪技术,可以通过单设备拓扑、多设备拓扑、网段拓扑、种子节点拓扑等多种方式准确地展现当前网络拓扑情况。如图5所示。
监测网络设备状态的CPU、内存、链路流量等当前运行参数,直观展现设备的名称、类型、IP地址、MAC地址。用户还可查询相应子网段内IP地址的分配、使用情况以及占用该IP地址设备的上联设备及端口详情等。如图6所示。
NCC可统计网络设备及终端设备的详细信息,包括设备名称、别名、厂商、型号等基本信息;设备端口的类型、端口号、IP地址、MAC地址、端口速率、端口状态、端口绑定的VLAN以及对端端口的详细信息;SNMP设备端口各类出入栈二层桢传输统计情况,如丢包率、错包率等;系统提供动态的网管信息展现,如端口列表、ARP表、TCP/UDP表、转发表、CDP表、STP表、设备部件表等。
NCC管理平台对网络设备的CPU、内存、流量等运行性能指标轮询采集,各类采集器启停、阈值、告警等可修改;系统提供对典型Web服务的可用性监控,如 HTTP/HTTPS、FTP、DNS、DHCP、LDAP等,支持对主机和Web服务监控的阈值告警功能;NCC实现多角度的监测,为网管员提供主动面向设备的负荷监测、面向链路的流量监测、面向终端的活跃度监测等多层面的性能监测。如图7所示。
5 BCC功能设计
管理和监测 Windows、Linux、IBM AIX、AS/400、HP-UX、SUN Solaris、SCO Unix 、SGI、 Tru64等不同操作系统的服务器或集群的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视。
BCC根据预定义项目监测Oracle、SQL Server、Sybase、DB2、Informix 、MySQL等多种数据库,包括数据库工作状态、表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等属性。
BCC监测Websphere、Web Logic、MQ Series、Tomcat、Tuxedo、Tibco、Resin、Tong Web等各类不同中间件,分析与监测中间件的各项运行状态参数。
通过SNMP、数据库接口等其它接口方式可以实现IT环境监控,包括基础运行环境的温度、湿度、漏水、烟感和电源、UPS、智能空调等。
BCC稳定的插件管理体系,提供了标准的插件实现接口,无需二次开发即可完成特定的业务监测和管理功能。同时,开放的扩展接口允许监测功能的添加或者与其它系统的集成。用户可编写shell或者groovy脚本自定义监测指标。
对虚拟化平台的监测主要以VMware为主。主要监测虚拟机常见的性能指标如CPU、内存、磁盘。
BCC通过业务和服务模型来管理IT资源,业务应用监控视图由整体到局部逐层钻取,分析当前被监控资源的运行状态,定位问题发生的故障根源并评估影响度。BCC提供业务应用总控视图、资源运行展现视图及部件指标分析视图等三级视图呈现,可便捷的获取业务SLA和服务响应指标。
6 综合告警
系统提供综合告警管理平台,实现告警的统一展现。告警平台提供统一事件管理来解决分割管理的数据融合问题,通过以告警事件为导向,提供了清晰的、集中的事件管理。系统的监控和故障报警支持分级管理,默认分为紧急、重要、次要、提醒、通知等5个级别(可自定义),可以从功能位置、设备、应用系统关联关系角度进行监看。在对网络的不间断实时监测中,收集针对网络、设备、终端及链路的各种事件,结合过去在网管过程中学习得到的处理规则,对各类事件进行智能分析,并关联所有符合故障特征的相关事件,从而在故障发生前或发现时发出正确告警。
7 可视化展现
可视化展现管理平台,实现各类设备、网络、应用、机房等视图设计;系统的Web前端采用了FLEX技术,能良好支持3D/2D和矢量图形,提供强大的信息交互与管理能力,能根据用户客户端
上的设定生成漂亮的动态图表。如图8所示。析,提供基础架构性能与告警和资源比较、指标排名、指标趋势等各类层次化统计分析报表;可按业务方式对业务应用可用性、MTTR(平均修复时间)和MTBF(平均无故障运行时间)进行统计;可按节点方式对监测数据汇总分析,提供基础架构性能指标趋势等报表为服务器运行负载排名。如图9所示。
结束语
目前,IT运行监控系统在该广电单位已正式上线,并运行了半年,为IT管理人员提供了强大的维护支持,在IT维护方面起着重要的作用。
审稿人:魏朝晖内蒙古新闻出版广电局监管中心正高级工程师
8 报表统计
责任编辑:王学敏
系统依据对监测数据的自动汇聚、抽取、分
TP311.1
A
2096-0751(2016)04-0019-06
孟莲蓉国家新闻出版广电总局无线电台管理局高级工程师