提高交换网管告警分析性能
2015-03-07王江东中国铁通有限公司河北分公司网络支撑中心河北石家庄050000
王江东中国铁通有限公司河北分公司网络支撑中心,河北石家庄 050000
提高交换网管告警分析性能
王江东
中国铁通有限公司河北分公司网络支撑中心,河北石家庄050000
摘要本文以解决交换集中网现存问题出发,运用PDCA循环(质量环),通过分析问题根源、确定方案、制定对策、确认效果并最终找到卓有成效的解决方法。从而以点带面,为类似问题的解决带来了新的方向。
关键词交换综合网管;告警分析;告警性能;PDCA循环
1 开发背景
交换综合网管作为现代交换网管的核心之一,主要负责汇聚分散布局的传统交换网各个交换局点的告警监控及统计报表。其收集汇聚各分散局点相关信息及相关处理的及时性和准确性,是保证系统运行效能发挥的关键因素。
某公司交换综合网管系统已使用7年,系统软硬件性能逐渐降低;随着公司业务发展,系统压力日渐增高,已经对系统运行效能造成较大影响,亟待解决。
同时该系统研发时,因历史局限性未能充分分解告警报中的告警类型,无法及时呈现网管工作人员重点关注的告警类别、影响等相关信息,已影响到告警监控效能的发挥。
为了提高交换网管告警分析的性能,增强告警分析的能力,因此我们选定依托自身力量,以PDCA循环(质量环)为方法逐步剖析,以实现《提高交换网管告警分析性能》。
2 确定方案
影响小型机性能的因素主要有4个方面CPU、磁盘I/O、内存、网络。通过分析小型机各个参数以及节省投资的目的,确定在内存和磁盘两方面提高小型机性能。
针对交换网管系统告警报告分解后告警分类不清晰的问题,采用数据库技术将交换网管分类后的数据进行再分类。为了便于告警分析和告警巡视将告警通过WEB页面显示。
3 第一次PDCA
3.1 制定对策
主要针对提高小型机性能,由于交换网管监控网元较多,告警报告分解需要长时间占用内存空间。磁盘I/O繁忙和内存页面调用频繁造成系统瓶颈,影响小型机性能。针对小型机内存页面调用问题,制定相应策略。
3.2 策略实施
使用 iostat命令查看IO状态,结果如图1所示。
通过分析发现 :hdisk1 活动百分比高,而同属于rootvg的hdisk0 却基本不活动,因此首先考虑的是使用reorgvg命令重新组织卷组,结果是hd6被自动转移到了hdisk0,重组过程中观察iostat,发现两块硬盘速率均可达到20Mbps,排除硬盘故障。
接下来使用 migratelp hd6/x hdisk1/x 命令,将编号是偶数的一半卷组从hdisk0转移到hdisk1,发现两块硬盘活动百分比都达到80左右,但是IOwait仍然很高。
最后考虑从更改内存参数入手解决。利用vmo -a命令查询内存参数,发现lru_file_repage值为默认的‘1’,改为‘0’。
3.3 确认效果
使用 vmstat命令观察小型机内存性能,结果如图2。
内存参数修改后刚开始时pi达到1000左右,po消失,十分钟后pi也基本消失,颠簸现象基本消除。相应的,cpu占用率从平均80峰值99降到30左右,性能优化初见成效。
4 第二次PDCA
制定对策:主要针交换网管收集报告过多问题。交换网管系统监控100多个网元,时刻在接收告警报告和话务报告,但是多为不重要报告。此次制定的策略主要是通过优化交换网管的报告任务来提高网管性能。
策略实施:通过对交换网现网组成的分析,以及日常工作的需要,将监控的网元根据重要性进行分类,汇接局、关口局需要详细话务报告和告警报告,端局话务报告根据情况可以删除。尽量减少交换网管收集报告的数量。
确认效果:经过对全省100多个网元所有上报报告
5 第三次PDCA
制定对策:针对交换网管分解告警后,告警分类不够详细的问题。为了将交换网管分解后的告警进行再次分类,在此使用数据库技术。提取分解后的告警数据,将其存入数据库中,利用数据库技术进行再次分类。同时再结合PHP技术将告警内容在WEB页面上显示,方便了告警巡视和告警分析。
策略实施:交换网管告警分解后ETL(数据提取、转换和加载)工具SPOON,使用此工具,通过建立数据提取任务,自动将告警数据从交换网管数据库中提取出来,并转存至自建的告警数据库中。再结合PHP技术将告警在WEB页面上实时显示。
确认效果:告警监控页面,可以实时展现未恢复的中断告警,过滤掉一般告警、事件告警等非重要告警。历史告警页面,可以查看那些已经恢复的告警内容,同时可以监控发生次数,了解网络运行质量。我们通过WEB页面弹出同时伴有彩铃提示的方式,可以让我们更加及时的发现和处理告警。
经过3此PDCA循环,我们通过提高交换网管小型机的性能、减少交换网管不必要报告、交换网管告警WEB页面显示3个对策,实现了提高交换网管性能的目标。
6 结论
此项目中我们利用科学的PDCA循环方法,逐步剖析问题,完全依赖自主力量,通过运用小型机技术、数据库技术、PHP网页技术等多方面知识成功解决了困扰多时的交换集中网管分析性能差的问题。
通过本项目的实施,证明科学的方法,能够帮助我们分解复杂问题,充分挖掘自身潜力,客服重重困难抵达胜利的彼岸。
参考文献
[1]李宝山,王苏东.告警管理系统中的告警同步模块的设计[J].通信技术,2013(4).
[2]高明飞.移动综合网管数据缺失原因的分析及处理[J].电信技术,2009(1).
中图分类号TP3
文献标识码A
文章编号1674-6708(2015)139-0154-01