APP下载

浅析ZXSM2500光传输设备故障管理系统的查询处理

2015-05-30马永刚

中国新通信 2015年6期

马永刚

【摘要】 介绍了ZXSM2500光传输设备中的故障管理系统,详细分析了告警信息的查询和处理方法,并以常见故障的分析和排除为例,说明故障管理系统在光传输网络管理中的应用,为快速查询、处理故障提供了依据。

【关键词】 光传输设备 故障管理 告警信息

ZXSM2500设备是由中兴通讯股份有限公司生产的光同步传输设备,一般与中兴ZXSM 150/600配合使用,可为用户提供从小容量本地网、中容量中继网或二级干线网到大容量一级干线网的一整套全面传输解决方案,广泛应用于民网和军网的传输系统中。该设备提供了强大的网管功能,在网元级和网络级对SDH(数字同步传输体系)网进行管理,包括配置管理、故障管理、性能管理和安全管理等功能。其中,故障管理系统监测整个网络的运行状态,并通过告警信息与用户发生交互,用户通过查询、处理各种告警信息就可以了解掌握整个网络的运行状态,及时处理故障,保障通信的正常运行。所以及时有效地对告警信息进行查询和处理在光通信网络故障管理中显的尤为重要。

一、故障管理系统的基本功能

ZXSM2500设备提供一个外部告警开关量输入接口,即SWITCHING INPUT接口。可输入4个TTL电平开关量作为监控告警输入,当检测到通信类故障和外部环境的风扇、开门、温度等告警时,可以通过NCP(网元控制处理)板上报到网管中进行监视。故障管理系统是检测设备故障、故障定位和故障排除等措施有关的网络管理功能,其目的是保证网络能够连续、可靠的工作。设备的告警输出接口为电源告警单元的ALARM接口,用于将设备的告警状态输出至机房列头柜或告警箱,告警状态可通过继电器的开合输出开关信号表示[2]。

二、告警的查询和处理

故障管理具有对设备的检测、诊断、恢复和故障排除等有关的网络管理功能,保障网络能够提供连续可靠的运行。故障管理从用户得到当前可接受的服务质量门限和故障查询请求,从性能管理得到当前网络运行分析结果,从配置数据库得到设备配置信息。当发生故障时,通过配置管理修改配置参数以修复或隔离故障部件将故障数据交给性能管理以分析网络可用性,向用户报告原因和处理结果,提出处理建议。

2.1告警查询

2.1.1告警信息的收集

网络系统可以采用定时采集和手工采集两种方式对告警信息进行收集。定时采集可以以某一设定的时间间隔定时对告警信息进行收集;手工采集则由操作员设定需要采集的网元、单板、支路、告警类型、告警内容等信息,系统按照设定进行采集。采集的告警信息包含的内容有:告警类别(处理类告警、通信类告警、服务告警、设备告警、环境告警等),告警级别(一般告警、严重告警),告警内容,告警原因,告警对象,告警时间等。

2.1.2 告警信息的查询

告警查询是对网元侧告警进行主动查询。网管上的告警可能由于网管误报、通讯中断等原因与网元侧的实际告警数据不一致,根据告警种类正确判断网络运行情况,这就需要执行告警查询,将网元侧的告警查询上来。告警查询还有一个功能是用于将非自动上报的当前告警或查询到网管上,有利于一些相关故障的处理。网元告警上报包含的内容:将告警按严重程度分为严重告警、一般告警和事件告警,按告警发生源分为传输告警、设备告警、外部事件告警、性能告警和软件告警,按告警状态分为当前告警和历史告警。所有应管理的告警如下:

(1)传输告警

傳输告警与STM-N传输信息流有关,包括:

LOS(Loss of signal)接收信号丢失

LOF(Loss of frame)帧丢失

LOP(Loss of pointer)指针丢失

RDI(Far end receive failure)远端接收失效

AIS(Alarm indication signal)告警指示信号

(2)设备告警

设备告警告警与构成SDH系统的物理设备有关,如板的拔/插、电源故障、时钟故障等。

(3)外部事件告警

外部事件告警是与设备环境有关的告警,如机房门开、火灾、水灾、高温等。

(4)性能告警

性能告警即性能超值告警,如性能门限的设置,性能设置门限可以根据网元运行优劣情况进行,一般不高于正常值的20%。

(5)软件告警

软件告警主要是对NCP上程序运行过程中检测到的通信故障和程序错误进行告警。

2.2告警处理

基于以上分类和内容,管理系统应做到:

1)主动上报告警:设备发生告警,MCU(微处理器)检测到,立即主动上报给NCP;NCP收到MCU上报的告警,或自己检测到告警,立即上报给SMCC(网管系统监视监控中心);SMCC收到NCP上报的告警后,立即向操作员提示或选择性地上报ZXSM-OS(中兴网管系统)。2)请求报告告警:在某些时候,SMCC可以请求NCP上报其所有和某些类别的告警;NCP也可以请求MCU上报所有当前告警。3)允许/禁止主动上报某些类别的告警:SMCC可以设置NCP某些类别或所有的告警允许/禁止主动上报;NCP可以禁止/允许MCU主动上报告警。4)请求报告允许/禁止主动上报告警的状态:SMCC可以请求NCP上报允许/禁止主动上报告警的状态;NCP可以请求MCU上报允许/禁止主动上报告警状态。5)告警过滤:当若干个告警同时发生时,若这些告警是相互关联的,网管系统应能在若干个告警中找出最主要的告警,目前只考虑在MCU级过滤。6)告警定位:网管系统对发生的告警,应能定位到某站、某单板、某支路,时间标记精确到秒。7)告警查询:SMCC的操作者能根据告警时间标记、告警状态、告警位置、站点、板槽位、支路号、告警类型、告警严重程度等条件进行组合查询。8)告警刷新:当前告警有两种动态显示方式,一是在网络拓扑图中,已发生告警的网元图标和单板用醒目颜色显示或有告警灯闪烁;二是在网络导航树中,已发生告警的网元图标以及从顶层子网图标到该图标的路径用醒目颜色显示。告警刷新操作是将网管后台数据库中的告警信息与前台的显示信息同步,实际是显示窗口的刷新。此项操作不与网元交互信息,刷新后网管上即时显示的告警信息对处理故障是相当重要的。9) 告警屏蔽:告警屏蔽设置用于设定告警是否上报网管,设置为屏蔽状态的告警将不再上报。系统对每个告警的初始设置均为非屏蔽状态。配置好网元的告警设置后存盘,将配置数据下载到NCP板上,这时设置的参数才能生效。

三、常见故障处理

从实际工作中讲,应先收集故障现象和网管告警信息,定位故障站点,然后利用网管和测试工具来确认。用故障现象和网管告警信息来定位故障时,应按从严重告警到一般告警,从线路板、时钟板告警到交叉板、支路板告警的顺序进行。需要注意的是,使用网管操作时,应先采集NCP时间,证实网管有效,否则一切操作均无效。

下面以两个常见故障为例,说明如何利用故障管理系统完成故障定位和故障排除。

故障一

现象:2M通道中断或不通。

分析和处理:①查询网管中故障管理系统,发现有TU-12终端数据丢失的告警,说明该2M口有收故障。②通过取NCP时间证实网管可用和有效,并进行告警刷新操作;③采集当前告警,查看是否有其它更高等级的告警,并确定告警状态和告警位置;④在网管上对该2M口做“线路侧环回”、“终端侧环回”,或光线路板做环回,通过网管告警和两端交换机的DT(数字中继)板状态,来判断哪一段不正常;⑤用误码仪来测试通断情况,以便更准确的定位故障。

此种故障的原因一般有如下几种可能:①2M线短线或断线;②2M线收发接反;③2M混线;④2M支路接口盒故障;⑤2M支路板故障。

故障二

现象:NCP板有告警,网管无相应告警。

分析和处理:

①取该站点的NCP时间证实网管是否通讯正常;②采集该站点的当前告警(有时需要多次采集);③查看告警上报设置。因为网管将告警分为主动上报(此告警一产生,NCP板立刻上报网管)和非主动上报(网元产生此告警,网管只有采集当前告警,NCP才上报);④若告警还不一致,复位该NCP板或重新下載该站点的告警等级库。

四、结束语

通过对设备故障管理系统的查询分析,可以及时、准确的了解整个系统网络的运行状态,分析故障产生原因,并判断故障所在位置,为快速处理故障,恢复通信畅通提供了保证。

参 考 文 献

[1] 陈雄. 中兴ZXSM2500SDH光传输系统[J]. 电信科学,1998.

[2] 中国邮电电信总局主编.《SDH传输设备维护手册》.北京:国防工业出版社,2008.

[3] 中兴通讯股份有限公司.《ZXSM数字复用设备手册》.2003

[4]《光同步数字传输系统测试》 邓忠礼 赵晖编著 北京,人民邮电出版社 2007