兴安盟气象局信息网络监控系统的设计与实现
2017-07-24张晓磊廉逸晗
◆李 敏 张晓磊 廉逸晗
(1.兴安盟气象局 内蒙古 137400;2.乌兰浩特市气象局 内蒙古 137400)
兴安盟气象局信息网络监控系统的设计与实现
◆李 敏1张晓磊1廉逸晗2
(1.兴安盟气象局 内蒙古 137400;2.乌兰浩特市气象局 内蒙古 137400)
随着气象信息网络的不断发展,网络规模相应日益扩大,其复杂程度也随着不断提高,承载业务种类也多样化,因而发生网络故障的机率也越来越频繁。由于网络故障或网络运行状态的不佳,会直接导致气象业务效率的降低,甚至有可能会造成巨大损失,因此对信息网络进行有效的管理和监控,已成为兴安盟网络管理者的迫切要求。网络监控系统的研究与设计也成为信息网络研究与建设必不可少的重要内容与热点问题。该系统通过对兴安盟全盟信息网络管理技术的研究,以我盟气象部门广域网与局域网为原型,设计了信息网络监控系统,对系统的各个部分进行了研究与设计,并对设计中用到的短信告警相关技术进行了重点研究,信息网络监控系统能对兴安盟气象网络的IP配置、故障和网络设备性能进行以故障管理为核心的综合监控,及时发现网络配置的变化与网络的故障,并进行故障的短信实时告警。
信息网络监控故障;短信实时;短信告警技术
0 引言
随着气象现代化的改革与发展,我盟气象系统网络规模不断扩大,网络复杂结构日益提高,根据实际业务需求,全盟气象系统网络结构为:广域网以星形拓扑网络结构通过光纤与局域网节点相连接,广域网采用路由器、三层核心交换机通过以太网口与局域网相连,路由器完成全网的路由功能,路由器之间采用SDH宽带接入技术,利用vrrp、osfp和静态路由相结合的方式构成一个完全网状网。局域网通过三层核心交换机与二层、三层交换机设备互联,构成整个局域网划分成多个子网,子网通过综合布线系统,为用户提供以太网接入端口,各楼层放置较低档的以太网交换机,为用户提供数据交换。面对这样复杂的网络,发生网络故障的概率也会相应增高,当网络出现故障或运行不佳时,会导致资料共享和自动站、区域网、农气等多类气象数据传输故障,如果网络内一个或多个网络设备或网络链路、服务器等发生故障,将会造成气象数据上传缺收等巨大业务损失,更为严重的是会导致预报无法准确预测,可能会给公众和社会经济造成无法估量的影响,因此,必须有与之相匹配的监控系统,只有通过兴安盟信息网络监控系统进行自动监测、控制、管理与维护,才是正确的选择。
1 信息网络监控系统的总体需求
综上所述,由于网络结构的复杂性,为保障信息网络的正常运行,研究设计了一个全盟气象信息网络监控系统,以网络进行故障管理为核心的监控,其中包括配置、性能和故障监控。当网络故障发生时,能及时准确告警,网络维护人员能及时解决网络故障,保证业务正常运行。
故障监测是对网络链路运行情况、网络设备和服务器状态进行管理,实现全盟网络的故障监测和故障定位,进行故障的排除,收集处理网络中的各种故障、告警及网络运行状态异常的信息。配置监控对网络设备的配置变化进行监控,通过拓扑发现算法发现配置的变化情况,如路由的缺少、端口的变化、子网的改变等。性能监控是指从网络链路通信设备和服务器中采集相关的性能参数,通信设备主要是采集网络流量数据,发现链路流量的变化,服务器主要是采集存储容量和停止使用的变化,根据情况进行相应的处理,配置监控和性能监控主要是通过对这两项的管理参数进行采集实现的,主要通过信息网络监控系统主动查询的方式进行采集。性能监控和配置监控为故障监控提供了重要的信息和依据。该系统通过对配置、性能等故障数据进行采集,将采集的数据自动入库,为拓扑显示、性能、告警数据的统计查询提供数据源。并对采集的配置、性能故障数据进行分析统计,及时发现网络和性能异常等故障,进行告警,有利于网络管理员及时对故障进行排除与恢复。系统应该提供WEB服务,提供系统数据的查询、分析、设置和告警服务等。
2 信息网络监控系统的研究与设计
通过对系统需求的分析,设计了兴安盟信息网络监控系统,包括系统体系结构的设计和各模块的设计。采用分布式的体系结构,其功能由各个模块实现,模块之间采用接口通信来完成,系统设计共有5个子模块,分别为:拓扑发现计算模块、性能采集模块、流量监控模块、告警模块、WEB服务器模块。信息网络监控系统体系结构如图1所示:
图1 信息网络监控系统体系结构
拓扑发现计算模块是该系统的前端采集模块,其利用ICMP、SNMP协议,通过拓扑发现算法,获取网络运行的一些数据变化,如子网、设置配置的变化,为拓扑计算提供数据,当发现异常,为告警模块提供数据,及时产生告警。性能采集模块使用SNMP协议,对监控网络的性能变化进行采集,是系统的前端采集模块,可以按照要求进行定时或一次性采集,为性能的统计与分析提供一定数据源,当发现监控的性能满足告警条件时,及时产生告警。流量监控模块的功能是数据流量的采集,是该系统前端的采集模块,该模块通过对NETFLOW技术实现对流量的接收,获取相关流量信息,通过分析这些信息,取得相应性能指标,为流量的统计与分析提供一定的数据源。告警模块的功能是通过消除冗余警告,将拓扑发现计算模块、性能采集模块、流量监控模块采集的数据中得到的一些关联告警进行消除,避免告警风暴的产生,准确定位故障,将告警信息精准的发给网络管理者。WEB服务器模块是通过浏览器提供WEB服务,为用户提供数据的查询、设置、分析与修改,可以通过WEB网页查询网络拓扑结构、链路及网络终端的性能和所有故障信息及告警信息。
3 告警事件的研究
当网络诊断为发生故障或运行状态不佳时,会产生很多的告警,随着告警事件的不断增多,会产生告警风暴,告警风暴会造成诊断网络故障的延时过长,造成故障的误判,甚至会被忽略,更为严重的是广播风暴会使信息网络监控系统瘫痪,影响系统的正常告警。所以,对一些关联的告警事件进行处理,消除冗余告警,是信息网络监控系统需要解决的一个重要问题。本系统消除冗余告警的关键是通过对告警事件关联的处理、分析后,进行合并与转化,消除掉不必要和无关联告警,将多个相关告警合并为一条拥有更多信息的告警。以减少网络流量和减轻不必要的数据存储,这样能快速对故障进行定位,及时恢复网络。本系统使用Petri网事件关联方法,通过Petri网建立模型处理告警事件,通过 Petri网模型可以完成的关联处理为:(1)将多个告警压缩为一个告警,如告警事件Event发生多次,可将其映射为一个事件,完成告警压缩的关联处理。(2)当告警事件Event已发生,则过滤掉该事件 Event,完成告警过滤关联处理。(3)当告警事件Event1、Event2同时发生,如果Event1的优先级高于Event2,则事件关联结果为高优先级Event1,抑制了优先级Event2,完成了告警抑制关联处理。(4)当告警事件Event1、Event2同时发生,如果 Event1 本文介绍了网络监控的重要性,并讲述了网络监控系统的相关原理,并针对当前复杂的兴安盟气象系统网络,设计了兴安盟信息网络监控系统,该监控系统具有较强的实用性与通用性,对网络配置、性能、运行状态进行中和监控,及时发现配置的变化、性能的异常、运行的故障,并实时告警。管理者通过WEB服务,能够查看网页查询网络拓扑结构、链路及网络终端的性能和所有故障信息及告警信息。4 结论