网络故障诊断和性能分析
2012-04-23郑妍刘嘉万洪强
郑妍 刘嘉 万洪强
摘 要:随着数据处理的集中程度越来越高,网络和网络所提供的信息服务的重要性日益凸现。网络特别是骨干网络出现故障导致网络性能的下降或网络服务的中断对业务正常运作的影响是巨大的,网络的稳定良性运转直接关系到业务的安全生产。因此,如何快速发现网络故障、找到网络瓶颈、提升网络性能、提供工作效率是所有网络维护管理人员必须面临的棘手问题。本文就此问题作出具体阐述。
关键词:网络故障诊断;性能分析;设备;方法
中图分类号:TN711文献标识码: A 文章编号:
1网络故障诊断和性能分析
从目前来看,传统的网络故障诊断和性能分析有以下几种方法,他们有各自的特点。
1.1置换法
置换法简单且不需要专业的设备,但需要耗费大量的时间。这种方法从很大程度上来说是“治标不治本”,没有从根本上找到网络故障的原因。同时该方法对间歇的网络故障完全无能为力
1.2设备监控和日志
通过设备监控和查看日志来解决网络故障不需要额外的投资,一般可通过网络设备自带或配套的管理软件实现。该方法操作相对不算复杂,但需要使用人员对设备的相关配置和技术参数以及网络拓扑结构非常熟悉,能够从海量的信息中找到需要的数据。时间上的花销也较大
1.3使用网络测试仪
网络测试仪的使用相对复杂,但它能对网络的情况做比较全面和完整的分析。不过想要非常准确的定位网络故障,提升网络性能需要网络测试仪使用人员有比较专业的网络知识和丰富的网络管理维护经验。另外网络测试仪一般是实时检测工具,当有突发的或间歇性的网络故障发生时,如何有效的使用网络测试仪实现网络故障诊断也是一个挑战。
1.4使用网络管理和监控软件
网络管理和监控软件对网络的分析比较全面,能够给网络维护管理人员提供非常有益的帮助。但目前来看网络管理和监控软件存在一些不足的地方,如:网络设备的传输性能情况;用户端的应用性能情况等。另外网络管理和监控软件一般无法实现协议分析,因此在深层次的故障分析上不具备优势。
1.5使用网络流量监控设备
网络流量监控是网络故障诊断和性能分析及其重要的一环,通过有效的网络流量监控可以快速的实现网络故障的确认并以此为依据提升网络性能。但是目前主流的网络流量监控需要交换机/路由器提供功能上的支持(需要交换机/路由器支持NetFlow、J-flow、SFlow等),并将占用部分交换机/路由器的资源。另外,网络流量监控也没有办法评估网络设备的传输性能,用户端应用性能等。
1.6协议分析工具
协议分析是非常有效的网络故障诊断和性能分析工具,但协议分析要求使用人员有非常深厚的网络理论基础,另外常见的协议分析工具对一次性分析的数据量都有限制,因此在使用面上受到了一些限制。
以上的工具和方法各有优劣,如何选择合适的方法和工具,对网络的故障进行快速诊断,提升网络的性能是所有网络维护管理人员必须面临的棘手问题。对于我局网络管理维护人员也是如此,目前我局信息化建设存在如下一些问题。
2玉溪局信息化建设存在的问题
2.1网络设备品牌、数量众多;结构层繁杂;维护难以做到全面深入
我局的网络设备和服务器数量众多、品牌、型号复杂。地理位置分布在不同的建筑,不同的楼层,怎么样才能对网络的故障作出快速反应并提出解决方案,及时的对故障进行排查是我们目前面临的一大难题。当前我们仅凭经验来判断和管理维护网络,这样的工作模式比较被动,并且人工分析的效率低下,难以将所有系统的工作都维护得全面。同时也为后期的网络优化带来了极大的困难,容易造成投资的无谓浪费。
2.2缺少量化的实时分析系统
由于缺乏工具手段,我们目前只能凭借用户的感受来判断网络的性能,而没有准确的数据来说话,这样就导致了无法准确、快速的了解网络的性能,掌握可能导致网络性能下降的根据原因,对网络的优化也无从谈及。因此我们必须依靠自动化分析工具来实现。这样才能主动提高网络服务的稳定性和高可用性。
2.3监控中心缺乏简单有效的协议分析工具
网络管理和维护工作的主要目的之一是为了提高IT运维的效率,缩短平均故障恢复时间(MTTR),从而提高各业务系统的可用性、稳定性,让各业务系统真正有效地服务于企业正常运转所需的各项工作,并最终为网络优化提供数据基础。在业界,针对网络应用性能管理及故障检测的手段主要为“捕包解码”通过“捕包解码”能够将网络应用故障发生时网络中具体数据和信息一字不差地记录下来,以便故障恢复后能够实现故障现象还原分析。通过“协议分析”能够对每个网络数据传递过程进行最深层次的分析,直接找到故障发生的Root Cause(根本原因),从而防止类似问题再次发生。
2.4网络、服务器、客户端、软件系统责任界定困难
系统性能下降的原因有多种,包括:网络故障、服务器故障、客户端故障、软件系统故障等。而一旦网络故障的出现,我们经常需要反复多次的排查、定位故障原因,甚至为了判定责任区域属于何方而一起开会讨论,但是获得一致的结果往往很难,因为各小组分别都有自己的故障测试仪器和方法,而这些方法工作在ISO/OSI模型的不同层次,所以其测试所参照的标准是各自所在层次的协议标准,它们是相对独立的,很难将这些测试结果组合到一起来互相印证以判断故障。
2.5缺乏系统优化需要的科学数据
一个能够持续稳定提供服务的系统,在使用过程中一定需要良好的机动维护能力,能够及时根据使用情况调整和优化,目前,我们主要依靠用户的终端感受和故障出现的频率来判断系统的瓶颈,并依次作为网络优化的基础。这种方式以直观感受为主,没有科学的数据基础,无法找到系统的短板,这将直接造成“头痛医头,脚痛医脚”“治标不治本”的结果,从而导致资金的盲目投入和浪费。
2.6逐步用更为科学、长期的性能瓶颈评估数据支持系统优化和IT采购决策
在IT采购的概念中有一个著名的“木桶理论”,硬件、软件、网络、运维能力就像组成木桶的各片木板,任何一个木板短了都会直接导致整个系统其他部分投资浪费,因此整个IT系统应该均衡各方面的性能才能避免浪费。
软件每年信息系统进行的软件、硬件投资金额可观,为了能够“花好每一分钱”,不造成投资浪费,唯一的方法就是在投资采购之前,准确评估出”最短的木板”,投资的钱都用于改进性能最差部分,从而保证用最小的投资获取最好的性能提升。
2.7 ITIL与BSM需各层次数据源
如果逐步考虑部署ITIL或者BSM系统,将需要各个层次的性能数据提供数据源,典型的数据源是“最终用户体验时间”,应用性能响应等各类参数,比如PMDB(performance management Database,)CMDB(Configuration Managemtn DataBase)等,目前还欠缺全面的业务系统PMDB相关的数据。
这些问题使用传统的网络故障诊断和性能分析方法已经不能完全满足我局信息化建设发展水平,因此找到适合我局网络故障诊断和性能分析的方法工具是当前工作的重中之重。
3 适合玉溪供电局网络故障诊断和性能分析的方法工具
目前玉溪平安城市监控系统的的运行从根本上改变了玉溪市的面貌,该系统通过多点联网监控,最终实现监、控、存、查、管等综合应用,同时为交通、治安、消防、通信、农业、灾害、突发事件等提供基础数据和辅助信息。该系统的建设也为我局的信息化建设提供了诸多有用的思路。如果我局的信息网络中有一套类似“平安城市”的系统,那么我们将可以快速的发现和定位故障,提供科学的基础数据用于网络性能的提升。