APP下载

SDH传输网元脱管浅析

2010-05-14韩加林

铁道通信信号 2010年10期
关键词:主控板网元传输网

韩加林

1 传输网管系统

传输网管系统由网管和传输网络 2部分组成,网络结构如图 1所示。

图 1 传输网管系统结构图

网管上层应用 TCP/IP协议实现服务器和工作站的互通,下层应用嵌入控制通路 (Embedded Control Channel,ECC)协议栈实现工作站与管辖的网元 (NE)节点的通信,SDH设备之间的通信使用 ECC。其中,网关网元 (GNE)与网管终端直接相连,也可通过 LAN、HUB、WAN相连,非网关网元与网关网元通过数字通信通路 (DCC)连接。网管和网关网元之间通过 TCP/IP协议传递信息,网关网元和非网关网元之间通过 ECC通信,从而实现了网管和非网关网元之间的通信。而ECC即嵌入式控制通道,用于 SDH网元间通信,传送 TMN信息,实现网管对非网关网元的管理。在 2个 SDH网元之间有光纤连接时一般使用段开销的再生段字节 DCC字节传送 TMN信息。在没有光纤连接但需要交换 TMN信息的 2个网元之间一般使用扩展ECC,即将2个网元通过网口经交叉网线连接在一起,并传送 TMN信息。

DCC:D1-D12,用于网元网管之间、网元和网元之间 OAM信息通路;D1-D3,DCCR用于再生段,带宽 192 kb/s;D4-D12,DCCM,用于复用段,带宽 576 kb/s。

ECC:DCC是其物理载体,用来传递 SDH网元之间的通信信息。

主控单元:通过管理接口与网元管理终端连接,负责收集传输系统的性能、告警等维护信息上报网管,并下发来自网管的各种命令,如配置、监视等。同时通过 DCC通道和不同传输网元之间交换信息来实现对其他网元的管理。

网元脱管:是指网络管理器或网元管理器与其监控的网元不能正常通信。

2 SDH传输网元脱管问题

一般来说,网元脱管不会引起传输设备所承载业务的中断,但会给传输网管的监控带来极大的不便。因为它会导致网管无法实时监控脱管的网元,而脱管网元的运行状态及告警信息也无法上传至网管,从而失去对网元监控的连续性。网元脱管所造成的影响不仅与其在网络拓扑结构中的位置有关,而且影响的范围也不同,会影响到单个网元或多个网元的监控。如果处理不及时,有可能会造成大的通信故障。网元脱管的故障,具体来说分为以下几种情况。

2.1 网元无法登录,ECC不通

传输网元脱管分为硬件故障和软件故障 2类。

1.如果单个或多个网元无法登录,可能原因:①外部原因,如设备掉电、供电电压过低、光纤性能劣化、损耗过高等;②操作不当,网管 ECC/DCC配置有误;③设备故障,网卡故障、光板故障,或网元有大量的性能数据上报到网管造成ECC通道堵塞;④主控板故障;⑤主控板 ID拨码不正确。

2.如果全部网元不能登录,原因有:网关网元主控板故障,网线、网卡故障,计算机 IP地址和网关网元 IP地址不正确。

3.大面积网管脱管还有一个重要原因:管理网元数量太多,网元的 ECC处理能力有限,网管终端的管理能力也是有限的,要控制在 400个网元以下。网管终端的处理能力取决于网管的硬件配置,否则可能出现网络大面积告警时 (骨干光缆中断等),网管终端死机。不管网关网元设置在哪里,管理的网元数量都可能不够用。如果不是网关网元单板故障,建议设置多个网关网元,合理分配每个网关网元处理的网元区域,关断区域之间的ECC通道,各网关网元分别使用路由器将网管数据汇聚到网管服务器上,才能使问题迎刃而解。

4.更换主控板后,忘记拨动或错误拨动 ID码,导致网元无法登录。

2.2 网管终端无法通过 ECC通道登录部分网元

链型传输网络结构如图 2所示。网管 NM监控正常,网元 1、2、3登录成功,网元 4、5登录失败,NE4、NE5网管图标此时为灰色,网关通信正常,网元通信正常,查询当前告警,无任何告警。

图 2 系统组网图

网管终端能够登录网元 1、2、3,说明网管计算机工作正常。网络结构为链型,网元 3无告警、异常性能上报,排除了网元 3、4之间光路的问题,原因有:①网元 4主控板故障,造成 DCC通道不通 (DCC,通道为网管信息传递的通道),导致网元 5不能登录;②网元 4的主控板处于复位状态,即主控板没有正常开工;③网元 3的主控板工作不正常,导致本站到下游站的 DCC通道不能正常建立;④网元 4的时钟板发给通信模块的参考时钟有问题,导致 D1、D2、D3字节处理有问题。

为此,查看网元 4主控板的状态,运行灯正常闪烁,没有处于复位状态。对主控板进行复位,主控板开工后故障依旧,说明不是主控板处于复位状态造成。拔下网元 4的主控板,使 DCC通道在网元 4穿通,再次用网管登录,发现网元 4不能登录,网元 5能够登录,说明网元 4的主控板出了问题。更换网元 4的主控板,再次登录,结果所有站点登录成功。

2.3 传输省一干和二干用同一网管监控出现脱管

铁通新疆分公司北疆省干传输组网如图 3所示。使用的是中兴 SDH传输设备,在省一干工程乌阿线 (子网 1、2)开通使用 1年后,又开通了省二干传输网络乌塔、乌泰线 (子网 3)。为了便于北疆线省干的维护和管理,将省二干的设备通过奎屯接入省一干,却出现了网管网元大面积脱管现象。当子网 1、2网元监控正常时,子网 3的所有网元脱管;当子网 3监控正常时,子网 2的网元全部脱管。屏蔽奎屯对 55新镇的 DCC通道后,子网2恢复正常监控。

网管在没有加入省二干网络监控之前,以及对省二干进行 DCC通道屏蔽后,省一干监控正常,说明网管及传输光路没有问题,问题可能出在 IP地址的设置上。检查省一干和省二干网络设置的各网元的 IP地址后发现,省一干 (子网 1)主干区域网元的 IP地址均为 192.1.*.18,而昌吉所带的一条支链 (子网 2)上 2个网元 IP地址为:193.1.*.18,省二干 (子网 3)各网元的 IP地址均为 193.1.*.18。由于子网 2和子网 3都使用了相同的网段 193.1.*.18,当通过奎屯和昌吉这 2个转换节点转换 IP地址后,转发到网管时出现监控地址冲突,网管不能同时与重复的 193网段地址进行路由通信,只能随机的与其中一个地址通信,因此,出现子网 2或子网 3所有网元脱管的现象。

图 3 北疆干传输网络拓扑图

如果要使网管能正确地管理所有的网元,必须在网管主机正确设置可达全网的IP路由。将子网2和子网 3的所有网元 IP地址改为同子网 1的地址段:192.1.*.18,其中*号的 ID号编码不能重复,脱管问题得到了彻底的解决。

后期经过网络优化,省一干和省二干作为2个独立的网络接入乌鲁木齐的网管。具体做法是:采用添加静态路由的方法,将 2个不同网段的子网合并为一个子网,2个子网之间用光路连接,打通 2个子网之间的 DCC监控通道 (或用 HUB连接2个子网的网元)。在网管主机的网卡上绑定一个与网关网元 ID:192属于同一网段的 IP地址:192.1.12.18,保证网管主机到网关网元有可达路由。设置到达其它网元的路由时,可用添加静态路由的方法加以解决,用命令添加:route add 193.1.0.0mask 255.255.0.0 192.1.12.18即可。

2.4 IP地址冲突造成网元脱管

1.IP地址冲突造成单个网元脱管的情况。西北环马可尼设备升级时,当增加 DXC设备后,疏勒河 192.6 SMA 16单个网元出现网元时通时断的问题。经查找,发现 IP地址和网管中心打印机的IP地址发生冲突,修改打印机 IP地址后,网元监控恢复正常。

2.IP地址冲突造成 2地市城域网网元交替脱管的情况。全疆传输集中网管建设的过程中,曾出现过伊犁城域网调通后,本地网 30多个网元监控正常。在与网管中心接通 DCN路由几分钟后,伊犁城域网发生脱管现象,提示 “网络上有重复的IP地址”。并且在伊犁城域网调通后的几分钟时间里,哈密本地网也发生脱管现象,经网管中心查找原因,发现 2个本地网的网管 IP地址相同,IP地址被误设,修改后 2个本地网监控恢复正常。

3 结束语

铁通新疆分公司采用的传输设备有中兴、华为、马可尼、烽火等多个厂家的产品,不同厂家的 SDH设备在运行过程中都会出现网元脱管现象,引起故障的原因很多。对于维护人员来说,最重要的是了解网元脱管的原因,并能迅速定位和排除故障,使 SDH网管系统尽快恢复正常,保证通信的安全畅通。

[1] 鲁刚平,熊炼.华为 SDH光传输设备维护[J].重庆工学院学报,2004,18(2):47-49.

[2] 张仁美.ZTE 622M SDH光传输设备故障检修 1例[J].西部广播电视,2005,(9):30.

[3] 王永超,蔡栋栋,年玉桂.光传输设备故障浅略分析[J].科技信息,2009,(11):714.

[4] ITU-TRec X.86/Y 1323-2001,EthernetOver LAPS.

(责任编辑:诸 红)

猜你喜欢

主控板网元传输网
一种快速可靠的主控冗余及切换机制的设计与实现
虚拟光网络中NFV资源分布式调度设计
重庆轨道交通闸机三杆机芯主控板的技术自主化探究
一种全网时钟同步管理方法
升级双主控板交换机ISO
浅析干线传输网升级改造勘察注意事项
OTN传输网的建设及应用探究
寿光电力SDH传输网优化设计
OTN在福建高速公路传输网中的应用
S1字节和SDH网络时钟保护倒换原理