SDH传输网管网元脱管案例分析
2021-08-17刘贻雄丁艳琴
刘贻雄,丁艳琴
随着同步数字体系(SDH)的优点不断凸显,其应用也越来越广泛。作为铁路重要行车业务及其他网络的承载网,SDH传输网在铁路通信中发挥了重要作用,其运行质量直接关系到铁路运输的安全。SDH的各项强大功能和优越性能是通过在先进的管理系统之下充分显示出来的。网络管理包括业务管理和设备监控,简称网管系统。其中性能监视是一项重要的网络管理功能[1],在日常网络运维中承担着对网络性能事件进行分析处理、数据采集、可用性指标分析、故障告警等重要职能,一旦网元脱管,会阻碍网络隐患的发现,需要尽快处理,否则有可能导致业务中断。因此分析网元脱管对日常网络维护有着重要的意义。
1 SDH网络管理概述
SDH传输网管系统由网管和网络组成。网管和网关网元之间通过TCP/IP(传输控制协议/因特网互联协议)传递信息,网关网元和非网关网元之间通过ECC(嵌入控制通路)通信,从而实现网管和非网关网元之间的通信[2]。ECC属于数据通信通路(DCC)D1~D12,SDH段 开 销(SOH)中 的DCC,用来构成SDH管理网的传送链路。D1~D3为再生段DCC,用于再生段终端之间交流OAM(管理和维护)信息,带宽为192 kb/s;D4~D12为复用段DCC,用于复用段终端之间交流OAM信息,带宽为576 kb/s[3]。这些数据通路为SDH网络的管理和控制提供了强大的通信基础结构。中兴、华为SDH网元通信均使用OSPF(开放式最短路径优先)协议,通过ECC通道实现信息传递。目前铁路传输网络管理系统结构见图1。
图1 铁路传输网络管理系统结构
ECC路由的建立方式与SNCP(子网连接)保护类似,都采用发端并发、收端选收建立路由的方式,其原则是根据最短路径建立路由。正常情况下,网管通过网关网元登录非网关网元走最短路由,若短路由不通,则走长路由;若所有ECC路由均不通,则无法登录网元[4]。
1.1 华为SDH传输网通信模式
铁路通信传输网络中,华为SDH网管系统采用网关网元通信模式,网关网元IP地址主要用于设备与网管之间的通信,只有在参与TCP/IP通信时的IP地址才有效。也就是说,只有网关网元才设置IP地址,非网关网元不设置IP地址。华为传输网络中每个网元必须有1个独立的标识符ID,ID号冲突会造成ECC路由表建立出错,导致网管无法实现对网元的管理[5]。
1.2 中兴SDH传输网通信模式
铁路通信传输网络中,中兴SDH网管系统则采用非网关网元通信模式,网络中所有网元遵循一定的规则,统一规划IP地址,每个网元IP地址唯一,各网元通过IP地址与网管通信。当网络中有2个网元使用同一个IP地址时,会造成ECC通信异常,ECC路由表建立出错,网管无法实现对网元的管理。
2 网元脱管原因分析
网元脱管,即网管无法对网元进行正常的管理,其现象主要表现为网元变灰、网元无法登录等[6],是传输网络维护中经常发生的障碍。正常情况下,传输网元脱管不会造成所承载业务中断,只是网管无法实时监控网元、分析网络性能、进行数据备份或下载、以及远程应急处置等。但若处置不当,极有可能会造成脱管网元承载业务全部中断。
造成传输网元脱管的原因多种多样,大致分为硬件故障和软件故障。硬件故障主要包括光路故障、板件故障,以及网管与网关网元间网线故障等;软件故障主要包括网元ID号或IP地址冲突、ECC风暴、ECC参数配置错误等。而处理网元脱管问题需要了解各方面技术原理,包括设备ECC通信原理、网管与设备通信原理等。以下简要分析4种故障类型。
2.1 主控板故障
主控板作为整个系统的网元级监控中心,与本网元所有单板的MCU(管理控制单元)之间采用S接口进行通信,与网管之间采用Qx接口进行通信,是网管与网元通信的纽带。网关网元主控板故障会造成本系统所有网元脱管,而非网关网元主控板故障引起的脱管范围与其在网络中的位置有关[7]。
2.2 光口DCC配置错误
简单的链型组网结构中,DCC方向只有一个,光口DCC均配置为开启状态。环型、网状组网要注意DCC的方向,中心网元光口方向过多容易造成DCC拥塞,需要适当采用DCC屏蔽,避免因DCC拥塞导致网元间歇性脱管。
2.3 华为SDH网管网元ID号配置错误
华为SDH设备网元ID是网元身份标识,由于网络扩展需要可能出现ID号重复的情况,需要对扩展ID进一步区分。不同扩展ID对应不同自治域,只要保持扩展ID+网元ID唯一即可。在光路互联的不同自治域,扩展ID+网元ID重复会引起网元脱管,处理不当可能会导致脱管网元数据丢失,造成严重通信障碍[8]。
2.4 中兴SDH网管网元IP地址配置错误
中兴网管对网元的管理不同于华为SDH,它以网元IP地址作为网元身份标识。采用IP地址定义的方法,遵循一定的规则,IP地址配置重复或错误均会引起网元登录失败。
3 案例分析
3.1 SDH传输设备光板ECC模块故障导致网元脱管
某铁路线基站组网情况如下:区间基站与相邻车站2.5 GHz传输设备构成622 MHz二纤双向复用段环,网内DCC通道如图2箭头所示。为避免ECC拥塞,正常情况下基站7与B车站2.5 G基站间ECC通道应处于关闭状态。
图2 铁路基站传输组网
故障现象:巡检网管发现基站4、5、6、7网元脱管。
通过网管查证,基站7与B车站2.5 G基站间ECC通道关闭,基站3、4间ECC通道不通。
故障处理:
1)网管查询基站3、4间光路ECC为开启状态。
2)网管登录基站3网元,利用ppptable命令查看ppp端口配置表[9],如图3所示。
图3 ppp端口配置表
ppp0、ppp1、ppp2表示已经创建的ppp通道(与之对应的flag端口序号为2、3、4),Tx/Rx_addr表示光板,Tx/Rx_port表示光板上相应的端口。利用ifconfig-a命令[9]查看端口是否建立连接,结果见图4。
图4 端口信息
基站3网元光线路板6槽1口对接基站4网元光线路板11槽1口。由图4可知,ppp1/3:flags基站3网元6槽1口与基站4网元11槽1口未建立连接,判断基站3至基站4光路ECC通路中断。
3)网管定位基站3至基站4的ECC通道不良故障点,现场对基站3光线路板6槽1口硬件环回,网管登录基站3网元,输入命令“eping 6 1”(6槽1口),发现有丢包,则基站3光线路板6槽1口ECC模块性能不良。更换基站3的6槽1口光模块,恢复了网管对网元的实时监控。
针对连续几个网元脱管的故障现象,要先确定ECC路由方向,再利用网管检测手段判断出网元ECC通道中断的区域,最后与现场配合,利用网管ping测工具定位故障点,在最短的时间内使网元监控恢复到正常状态。
3.2 华为SDH传输设备网元ID冲突导致网元脱管
新建线设计规划在A站新建通信楼,将既有通信楼局干10G、骨干10G设备搬迁至新建通信楼,既有通信楼设备连接见图5。由于只有1架过渡设备,设备搬迁工作需按以下步骤进行。
图5 既有通信楼设备连接
1)过渡设备安装在新建通信楼,命名为“骨干10G”,设备配置与既有通信楼原骨干10G一致,并与既有通信楼局干10G设备建立光路连接,同时既有通信楼原骨干10G设备断电。
2)既有通信楼局干10G设备搬迁至新建通信楼,与骨干10G光路互联不变。
3)既有通信楼原骨干10G设备更名为“局干扩”,下挂于新建通信楼局干10G设备。
4)将局干扩网元纳入局干网管监控。
既有通信楼设备搬迁后,新、旧通信楼设备连接关系见图6。
图6 搬迁后新、旧通信楼连接关系
故障现象:在进行第4步,将局干扩网元纳入局干网管监控后,骨干10G网元频繁脱管。检查局干扩网元属性,发现与骨干10G设备的扩展ID+网元ID相同,且局干扩与局干10G、局干10G与骨干10G网元间ECC通道开启,3个网元DCC字节均使能,导致骨干10G网元频繁脱管。
通过网管发现,搬迁任务完成后既有通信楼局干扩设备纳入局干网管监控,现场未在设备侧线下修改设备主控板配置(扩展ID+网元ID),导致骨干10G网元频繁脱管。
故障处理:关闭局干10G对骨干10G方向光板ECC通道,将局干扩ID更改为5098(规划ID),重新下载骨干10G网元数据库,骨干、局干网管监控恢复正常。
需要注意的是,在以后的站改施工中,若要将既有设备纳入网管监控,需线下修改设备配置,避免设备上线时发生网元频繁脱管;若由于网管误判断导致强制进行数据上传和下载,会造成网元数据丢失,大面积影响业务。
3.3 中兴SDH传输设备网元IP地址冲突导致网元脱管
为实现L地与X地业务互通,开通L地与X地间OTN波道,L地与X地光路互通后的网络拓扑见图5。
图5 L地与X地光路互通后的网络拓扑
故障现象:OTN波道在L、X地分别对接B、E网元,对接完成后,L地传输网络中C、D等网元相继脱管。
网管查询L地传输网络网元IP地址为132.1.N.18,联系X地传输网管,咨询X地传输网络IP地址为132.N.1.18。当L、X地传输网络中同时存在IP地址为132.1.1.18(N=1)的网元,在网络建立光路连接后,两地网络中IP地址冲突,引起网元脱管。
故障处理:检查网元B与波道对接光口DCC为开启状态,L地传输网管关闭该光口DCC通道后,网元脱管恢复,L地传输网C网元与X地传输网F网元IP地址均为132.1.1.18(N=1),网元脱管由IP地址冲突导致。
因此,在不同传输网络光路互联时,应关闭互联光口DCC通道,避免网元IP地址冲突引起网元脱管。
4 结束语
作为网管日常维护人员,迅速定位障碍点并采取相应措施是非常重要的。本文通过对日常障碍处理中遇到的典型案例进行分析,研究常见网元脱管原因,总结网元脱管的特点,提出网元脱管处理建议,以保障铁路通信安全。通常情况下,SDH传输网元脱管不会造成所承载业务中断,仅影响网管对网元的监控[10]。在新线建设、既有线改造以及网络中新增网元时,规划每个网元必须有唯一的ID号或IP地址,避免网元ID/IP冲突造成网元脱管。在日常的网络维护中,网络维护人员应综合掌握网络结构、ECC通信原理以及网管与设备通信原理等[11]。面对各类网元脱管问题,维护人员应该有清晰的思路,根据障碍现象、告警内容进行障碍分析,不能在网管中盲目进行数据配置及数据的上传和下载,防止网元数据丢失,造成通信故障的升级。