基于计算机技术的交换机网络管理系统
2009-06-04梁亚雄徐进军张煜辉
梁亚雄 徐进军 张煜辉
摘要:对分散的多机型的交换机告警信息集中采集和处理功能进行了研究,系统具有告警故障监视、告警故障设置、告警信息统计和查询等功能。可以缩短设备故障历时,也可以通过分析和预处理查找故障隐患,将故障消除在萌芽状态,从而有效地提高维护人员的工作效率和网络的运行质量,为企业创造良好的经济效益和社会效益。
关键词:网管系统 功能设计 数据拆包 故障采集和处理
近年来,随着电信网络用户的增加和新型交换设备的引入,建立功能齐全、使用方便的网络管理系统对各种交换设备进行集中管理和集中维护,提高电信网络的运行质量和效率十分必要。
1.交换机的传统网管系统存在的问题
目前,电信网中主要有AXE10, EWSD, NEAR-61, SIGMA, SESS和华为CC08等交换机机型[1]。由于交换机告警故障信息的原始报告类型和定义复杂,不同交换机型的告警原始报告的格式和内容差异较大,甚至是同一种交换机机型,不同软件版本的告警原始报告也有差异,传统网管系统[2-3]为了准确分析和处理各种机型的告警原始报告,在网管接口机上开发多个告警分析处理模块,分别处理一种特定的交换机机型的告警原始报告。告警分析处理模块的功能包括:实时接收告警原始报告;提取告警原始报告中的告警时间、告警交换局、告警关键字、告警内容等信息;把处理后的告警信息保存在数据库;同时通过Socket连接发送到前台工作站。这种方式使系统具有结构清晰、数据结构简单、开发过程简单的优点。但是对于新增机型和新版机型的告警原始报告,只要告警原始报告的格式发生变化,程序员必须对告警分析处理模块进行相应的程序修改;完全依赖程序员对交换机告警原始报告进行分析,归类,再转化为计算机语言,对于缺乏交换机专业知识的程序员来说是一个艰巨的过程;在时间上也不适应东莞目前多交换机接入和版本频繁升级的现状。
2.告警信息集中采集和处理
某电信本地网12个NEC交换机局点、7个朗讯5ESS交换局点、10个C&C08交换机局点共200万门的容量的交换设备,网管系统需要收集和处理的数据量巨大,如何保证告警故障信息集中采集和处理的高实时性将直接影响到整个系统的总体性能。在系统的开发过程中采取了许多措施来解决该问题。
1)所有只能提供串口交换机设备的端口首先都通过10LAN进行协议转换,将RS232转换为TCP/IP方式再通过网络交换机接入到拆包服务器,提供网口方式的交换机直接通过网络交换机接入到拆包服务器进行拆包处理,这种布局方式有利于大数据流的快速传输。
2)采用快速、稳定的TCP/IP网络。拆包服务器处理告警信息后必须通过TCP/IP网络把告警信息送到前台工作站,拆包服务器和网管监控室(24小时有专人值班)的计算机设备采用性能较高的3COM 100M网片,并且把所有拆包服务器与网管监控室的前台工作站接入同一个CI SCO 100M网络交换机上,提高网络传输速率,缩短告警信息在TCP/IP网络上的传输时延。
3)提高拆包服务器的硬件配置,使拆包服务器拥有强大的处理能力,提高告警信息的处理速度。拆包服务器采用HP LH3000 PC服务器,P4 2G CPU,高速SCSI硬盘,内存扩展为2G。
4)拆包服务器的系统拆包模块在处理告警小报告时,每个交换机都有一个线程专门负责把重要告警信息通过SOCKET连接发送到前台工作站告警监视程序,产生告警;另一个线程专门负责把告警信息录入告警数据库中。两个线程并行运作,不通过数据库提供告警信息,避免了由于数据库故障而丢失告警信息的危险和录入、查询告警数据库而产生的时延。新网管系统通过SOCKET实时连接到交换机告警端口,并发送一定的连接信息保持端口的长时间连接,如果发现端口中断(由于网络原因,或交换机重新启动原因),接收程序立即(1分钟内)对这个端口进行重连,重连三次(次数和重连开始时间可以通过配置文件由用户设置)。重连三次如果发现这个端口还没有连接上,系统进入等待状态,等待下次重新连接(如三分钟后),这样循环尝试,直到连接正常。同时将接收程序所有与端口有关的动作记录到日志中,必要时可以查看接收程序的运行情况。
5)拆包服务器采用热备份的机制,尽可能提高系统的安全性,防止告警信息的大量丢失。系统设有专门拆包服务器健康侦察进程,如发现有拆包服务器停止工作时间达到设定时间,该拆包服务器上连接的交换机将自动接入事先在数据库中设定的单台或多台备用拆包服务器,由备用拆包服务器负责故障拆包服务器所接入交换机的信息处理,直到故障拆包服务器恢复为止。
6)完善前台工作站告警监视程序语音告警功能,保证以最快的速度准确把告警信息通知用户。前台工作站告警监视程序能够按照设定的告警等级和告警过滤条件,把过滤后的告警信息由重要到次要的顺序产生语音告警,使重大故障的告警信息能够最快的送到网管中心。
3.系统的显示部分
对采集到的各类告警,系统实时地以声音和图形界面提供给维护人员。具体显示方式有告警监视总图和各种告警列表。用户可以自由决定某一类(根据告警类型、告警级别等)告警的到来是否需要声音指示。在以地图为背景的全局监视图中,显示全网所有交换局点的位置。
1)显示多种告警源:设备告警、性能告警、网管系统自身告警,从各局点可方便浏览到该局点目前各级别告警的统计信息,并可切换到设备告警列表,同时设备告警列表自动以该局作为过滤条件以进一步查询该局点当前所有设备告警
2)系统收到告警发出相应级别的告警音,同时用相应告警级别的颜色进行直观的闪烁指示,用户可自定义告警级别、告警声音和告警颜色。活动告警得到确认后或者接收到对应告警的消除报告后,停止声音指示并转变为休眠告警。提供声音/闪烁开关控制功能。◆
参考文献:
[1] 陈榕 徐昌华. 电力通信网综合网管系统实施策略[J]. 电力系统通信. 2004.25(9)
[2] 匡红阳. 初探电信网络管理系统的现状和发展趋势[J]. 计算机系统应用. 2003.3
[3] 周德泽等.计算机智能监测控制系统的设计及应用[M].北京:清华大学出版社,2002