APP下载

基于Zabbix二次开发的集中监控平台实践

2021-06-08黎其宇陈俊士

探索科学(学术版) 2021年5期
关键词:网络设备使用率端口

黎其宇 陈俊士

民航中南空管局通信网络中心 广东 广州 510000

系统集中监控平台底层采用Zabbix技术,WEB端为自定义UI,运维人员可自由集成VMWare虚拟化、硬件服务器、存储、操作系统、软件应用、数据库、数据流以及网络设备端口的状态,并形成统一监控标准,可全方位覆盖系统的实时监控,减少监控“盲区”,提升故障定位和处理效率。

集中监控平台UI集成了各项监控功能,提供统一的监控界面、告警列表、Top指标及拓扑大图,亦提供不同风格监控首页和自定义模块。大幅提高了技术保障人员对系统监控维护的便利性。

一、网络监控

网络监控模块主要是对终端、服务器、虚拟化平台、网络设备、防火墙等所有网络进行监控。对网络状态监控具有秒级响应速度,只需为设备配置ip即可监控系统内服务器、终端的网络状况。针对交换机、防火墙类网络设备,本模块还提供了端口级别的监控,可即时监控到每一个端口上业务的实时性,实时显示当前设备健康、流量TOP5指标,并根据阀值进行告警提示。

具体监控指标包括端口流量,端口状态,连通性等:

a、提供网络设备监控功能,针对运行状态、CPU使用率、内存使用率、端口发送和接收总流量、端口发送和接收速率、端口发送和接收丢包率。

b、提供端口发送和接收速率、端口发送和接收丢包率、流量TOP5指标。

c、支持网络设备包括交换机、防火墙、负载均衡等,支持思科、华为等品牌,

通过脚本方式支持对端口的手动启用和关闭功能。

e、可以对接Cisco IPSLA或者H3C的NQA等同类型协议,获取监控线路的延时、抖动等数据,也可以使用RPING(Remote Ping)的方式,实现关键线路和运营商线路的监控。

二、主机监控

主机监控模块可根据标准制定的监控模板和告警阈值,对物理服务器、存储、虚拟机、终端或通用硬件设备的健康状况、内存、CPU、硬盘、网卡等主要硬件设备进行实时监控,同时提供系统关键进程、存储空间、网络流量、关键日志等指标监控及告警功能。避免设备硬件或系统问题影响业务运行。

具体监控指标如下:

a、提供主机监控功能,针对运行状态、CPU使用率、内存使用率、磁盘使用率、磁盘总量和使用量、网卡发送和接收速率进行监控。

b、提供主机所运行的服务自动发现和状态监控功能。

c、支 持 windows、Red-hat Linux、Cent OS、FreeBSD 等 主 机 操 作系统。

d、主机监控支持 SNMP、WMI、IPMI、AGENT、SMI-S的方式进行监控。

e、监控对象主要有网络安全设备、服务器 、存储设备、虚拟化、云平台等。

三、虚拟化监控

虚拟化监控管理实现对虚拟化环境中各IT资源的运行状况检测、性能分析、报表管理、告警管理等功能内容,提供详细的资源对象配置数据、状态数据、性能数据集中显示;支持对VMware、vSphere、Hyper-V、华为FusionCloud、Nutanix、深信服等虚拟化环境的拓扑呈现以及自动拓扑更新,从而为云资源的管控人员提供日常运行维护的技术支撑。目前集中监控平台对VMware提供的监控主要有Vcenter管理平台、VMware ESXI、Vmware虚拟机、VMware Datastore几个方面。

虚拟化监控管理的主要功能内容包括以下几个方面:

a、虚拟化资源管理:实现虚拟化资源的配置属性等以各类对象作为基本的IT资源的管理;

b、运行状态与故障管理:发现性能瓶颈,准确定位故障,提供性能优化保证业务服务水平的相关分析结果。提供告警与性能的关联展示,提供告警处理参考建议的新建、查询等关联分析;

c、性能监控及数据报告:提供准实时的性能监控展示、相关排名分析及历史数据报告等;

d、资源关系可视化监控展现:梳理建立虚拟化资源对象间关系模型,从业务视角整体监控展现虚拟资源的使用情况及状态。

四、数据库监控

数据库监控主要用于监控服务器数据库运行情况。包括数据库引擎监控、数据库文件监控,监控目前环境中的Oracle、MySQL、SQL Server等常见数据库,状态、使用量、数据库实例、数据库对象、BUFFER状况、死锁信息、数据库文件等状态信息,根据设定的阈值来判断各指标是否处于正常运行状态,并提供时间段变化趋势图表供用户查看。

数据库主要的监控指标有:

a、提供数据库监控功能,针对数据库服务状态、数据库死锁数、数据BUFFER命中率、数据库作业数、数据库用户连接数、数据库文件大小、数据库文件启动事务数、查询状态和发送状态等信息监控。

b、支持监控 PostgreSQL、SQL Server、Oracle、Oracle Rac、Sybase、MySQL、DB2、HANA等数据库。

c、支持数据库自定义监控指标,如:高可用状态、特定字段指标、日志等。

五、应用监控

应用监控主要监控系统的后台软件程序、服务、接口、终端程序等运行情况。系统实时接收程序运行中发送的状态信息,根据程序状态数据来判断程序是否处于正常运行状态。本模块还可针对服务运行状态、重要虚拟机分布情况、log、文件版本等进行监控。

主要监控指标如下:

a、通过定期探寻应用的服务、Log、流量等判断应用服务的运行状态。服务出现运行故障时,维护人员可以及时知道,并快速采取措施;

b、定期检测丢包率、最大时延、最小时延、平均时延等对应指标,预防应用服务发生的故障,实现主动式的监控管;

c、模拟用户行为访问应用服务,根据用户设置的阈值产生告警,可以及时排除故障,保障应用服务的稳定运行

六、总结

通过使用集中监控平台作为监控工具,可以为机房运维人员提供一个机房的整体监控,同时也可以为我们技术支持提供不同信息系统运行状况的总览,有利于我们日常工作的展开。随着集中监控平台的不断完善,未来可以在更多业务上使用。

猜你喜欢

网络设备使用率端口
网络设备的安装与调试课程思政整体设计
一种有源二端口网络参数计算方法
一种端口故障的解决方案
如何预防磁盘使用率过高?
内蒙古自治区病床使用率预测及其影响因素分析
一种基于C# 的网络设备自动化登录工具的研制
多按键情况下,单片机端口不足的解决方法
现有网络架构及迁移方案
2018年中国网络直播用户规模为3.97亿
基于服务学习方法提高青少年安全带使用率