基于IMS的电力企业网络健康分析模型的研究
2017-11-02宋蓝云
文|宋蓝云
基于IMS的电力企业网络健康分析模型的研究
文|宋蓝云
随着国网公司信息化建设的不断推进,信息网络发展越来越呈现出“流程管控信息化、应用服务集中化、下层系统精简化和骨干网络坚强化”的发展趋势。企业内各种业务流程都承载在信息网络之上,并且由高度集中运行的数据中心来跨网省提供服务。由此,信息网络越发扮演着必不可少、不可间断的重要角色。IMS系统的上线,从很大程度上解决了传统网络运维中“故障感知迟缓”的缺陷,变被动为主动,将内网核心设备的状态纳入实时监控。虽然IMS系统汇集了网络运行各方面的综合数据,但并未完全发挥其作用。
本文基于IMS,构建了网络稳定性评估模型、网络设备运行状态评估模型和链路物理使用环境评估模型,以提升信息网络安全稳定运行和科学化规划与改造信息网络。
一、网络管理概述
网络管理是对实际运行中的信息网络中设备的状态和性能进行监视和测量,在必要时采取适当的技术手段对网络中的业务进行流量流向进行控制,使其能够有效、可靠、安全、经济的提供服务。
随着网络规模的不断扩大,网络设备种类也在不断的增加,网络格局复杂,是的网络管理系统出现凌乱的局面。目前网络管理主要存在以下问题:
信息不能共享。目前各公司都存在自己的网络管理软件,他们相互之间没有信息交换,这给整个公司的网络管理带来很大的局限性,各公司的网络管理关键只能了解本公司的网络资源和网络运行情况,信息交互只能通过手动方式进行,效率低下、工作量大。
网络资源无法统一调度和管理。目前网络缺乏全网资源的有效途径和方法,对网络中各类资源的使用情况进行统一全局的了解,尽管可以通过采用技术和行政手段实现各公司网络管理的互联和同一,但其本省的效率和运行的优化程度大打折扣。
针对上述情况,IMS系统的上线很好的解决了信息无法共享和同一调度管理和监测的问题,IMS系统通过提供标准的协议接口,对网络中所有的设备和信息进行统一监控和管理。实现网络设备集中监控、集中维护、集中管理的需要。在系统上实现全网告警集中监控、性能综合分析;在物理上和逻辑上进行集中,提高网络运维成本,提升网络维护效率和质量。在取得了网络中所有的网络设备的基础数据后,进行业务深层次的分析和挖掘,同时根据基础信息,构建各类网络模型,为后续运营分析提供有力的支撑数据。
二、网络健康分析模型
通过IMS系统获取了全网信息设备的基础信息后,依据网络设备的、端口信息、网络中断数据和链路信息等数据构建不同的应用模型,在实现不同功能的前提下提高网络运行可靠性。目前主要构建了网络稳定性评估模型、网络设备运行状态评估模型和链路物理使用环境评估模型三种模型,并举例说明其使用方法和效果。
(一)网络稳定性评估模型
网络稳定性评估模型主要研究并总结对网络稳定性产生影响的重要参数,找出影响稳定性参数的主要因素并阐述这个性能参数指标间的关系。然后对网络的性能进行分析与评价,得出最终的网络中设备运行的稳定率。网络稳定性评估模型采取百分制的评价方式,分值越大,表示网络稳定性越好。
网络稳定性评估模型公式为:
其中:
k1和k2为中断时间和中断次数在统计过程当中所占的比重,且k1+k2=100;
下面以某交换机近一年来的运行情况为例,分析网络的稳定性。
累计次数35次,累计时长7天13小时38分28秒;本年次数12次,本年时长3天15小时56分20秒;本月次数2次,本月时长1天20小时5分4秒;本周次数9次,本周时长0秒。
由此计算出该设备近一年的网络稳定性得分(其中k1=k2=50):
这也表明在所有纳入统计的网络设备中,所接入交换机的稳定性能高于66.4%的设备。
(二)网络设备运行状态评估模型
网络设备运行状态取决于设备硬件模块和软件配置。结合网络设备特性和实际工作经验梳理了网络设备关键参数及其阈值,并根据参数情况将网络设备运行状态划分成危重、一般和轻微三个等级。
危重硬件故障引发的隐患:备引擎板故障;设备电源模块故障;设备业务板卡故障;设备温度超过55℃;设备CPU使用率高于90%;设备内存使用率高于80%;上联单链路运行并且链路评分小于30分。
危重软件系统参数隐患:由表条目数与自治域内其它设备相差20%以上;路由协议邻居状态丢失;IP接口处于DOWN状态;链路对端延时异常。
一般硬件故障引发的隐患:设备风扇故障;设备温度超过45℃;设备CPU使用率高于50%;设备内存使用率高于50%;上联链路不满足N-1冗余要求。
一般软件系统参数隐患:STP根桥配置不在汇聚点上;未启用生成树协议;未对远程登录地址进行限制;未对远程回话进行加密传输;未开启ARP检测功能。
轻微硬件故障引发的隐患:设备以太网端口故障;下联端口光模块温度异常;下联端口光模块收光过低;光模块衰耗增大2dBm以上。
轻微软件系统参数隐患:生成树协议存在ALTE端口;未正确配置日志服务器地址。
根据这些参数制定巡检模板,提高运维精准度,同时考虑将隐患严重的设备纳入检修计划和技改大修。方便进行下一年的技改大修的项目储备。
(三)链路物理使用环境评估模型
一条物理状态的使用状态及其可靠性的评估主要由Metric的值标定,它的值越小,链路的可靠性越高。通过参考思科的EIRGP路由协议,综合考虑链路的固有带宽Bw,线路负载Lo ,链路延迟De 和链路的可靠性Re,通过计算评估链路的可靠性。其中,Bw表示的是链路的瓶颈带宽,即串行链路的最小带宽;Lo表示链路负载,取值范围为0~255;De 表示链路的整体延时,单位为毫秒;Re 表示链路的可靠性,其取值范围为0~255,取值为255表示非常可靠。
是链路流量的峰值,Bandwidth为链路的理论带宽。各种链路的计算公式如下:
?
说明:计算出的Re 值如果超过255,则以255计算;kn(n=1,2)为权重参数,约束条件为:k1+k2=1,一般取k1=k2=0.5
根据上述的主要参数值,可得出链路的整体Metric值,其计算公式为:
其中,k1=k5=1000,k2=256000,k3=10,k4=60。
以某线路上四条串联链路为例,计算该线路的Metric值。线路1,链路长度:7.1km;衰耗:-1.2dBm。线路2,链路长度:5.27km;衰耗:-0.7dBm。线路3,链路长度:0.22km;衰耗:-0.2dBm。线路4,链路长度:0.158km;衰耗:-0.4dBm。由此得出:
链路的带宽为Bw=109bit/s ;
链路的负载为
链路的整体延时经过测量为De=1ms 。
以下是链路的可靠性的计算,首先我们分段对光纤链路的可靠性进行计算:
线路1:
以此类推,线路2是121; 线路3是128.71; 线路4是127.82。
对于串行链路,整条链路的可靠性评分为:
ReSUM=(217.39−1+121.00−1+128.71−1+127.82−1)−1=35.14
由上述四项主要参数可以计算出最终的Metric 值为:
三、结语
研究网络性能具有十分重要的意义。网络健康的研究目前国内研究的非常少。究其原因,主要在于目前网系统的复杂性和网络中数据流的不确定性。
本文在评估模型和基础数据的支撑下,通过评估模型,及时了解网络的整体健康情况。为网络安全运行打下了坚实的基础,实现精准的运维,有效地提升了网络服务水平。
作者单位:湖北华中电力科技开发有限责任公司