APP下载

浅谈数据中心机房华为数通设备常见故障的研究与分析

2021-01-26陆震郭腾飞高小龙

江苏通信 2020年6期
关键词:主控板单板交换机

陆震 郭腾飞 高小龙

中邮建技术有限公司

0 引言

数据通信是通信技术与计算机技术相结合而产生的一种新的通信方式。数通设备作为数据通信的硬件基础,是最重要的数据承载及数据收发设备。本文中的数通设备主要指网络系统中最为常用的两个数据通信设备——交换机和路由器。随着IT技术的迅猛发展和大数据时代的到来,数据中心的网络规模逐渐扩大,数据流量增长带来的带宽需求和网络稳定性需求成为数据通信工程师面临的挑战。

1 IDC网络某局点网元托管问题分析

1.1 问题描述

某日客户网维人员反馈IDC网络某局点部分网元托管,通过相关软件初步对问题进行定位和故障恢复工作。涉及到的设备为华为NE40E路由器(NE40E是华为公司一款中高端路由器)、华为S5300汇聚交换机(S5300是华为公司一款中低端交换机),组网如下:

图1 组网图

1.2 故障定位与分析

(1)查看NE5000E(NE5000E是华为公司一款高端核心路由器)侧链路一切正常,因中间过传输设备,因此初步认为设备宕机或者传输到NE40E链路故障;

(2)紧急赶到机房现场后检查设备硬件,NE40E路由器硬件运行正常并未宕机,登录设备检查log日志以及告警等信息也并未发现因断电或其他原因导致设备重启的告警;

(3)查看设备端口链路状态后发现,出口Eth-Trunk1中4条10GE链路有一条GE5/1/1处于DOWN的状态,查看端口状态无收光现象,查看聚合端口配置并未启用静态LACP模式,判定此条故障链路导致设备托管。因对于聚合端口未启用静态LACP模式,中间过传输设备时Eth-Trunk1有链路中断而对于NE5000设备Eth-Trunk34端口并未感知,所以导致报文通过传输设备到达GE5/1/1端口时丢弃,剔除GE5/1/1端口,两端配置静态LACP模式后故障排除。

经以上操作后,网管与网元脱管故障得到解决,恢复正常。对于静态LACP模式,当把一组接口加入Eth-Trunk接口后,这些成员接口中哪些接口作为活动接口,哪些接口作为非活动接口,需要经过LACP协议报文的协商确定,对于中途过传输设备,通过LACP协议报文感知两端聚合端口状态,同时实现负载分担和冗余备份的双重功能。

1.3 解决方案与措施

解决方案:核查全网设备,排除隐患。

措施:当两台设备组成Eth-trunk经过传输设备互联时,必须配置静态LACP模式,对于工作模式未启用静态LACP模式的聚合端口及时整改。

2 ME60设备版本升级单板无法注册问题分析

2.1 问题描述

对某局点的ME60(ME60是华为公司目前生产的宽带接入路由器,作为汇聚层设备,一般承载一个区域的宽带上网和大客户业务)设备版本升级过程中,出现主控板升级后所有业务单板无法正常注册的问题。

具体操作如下:

(1)00 :50分左右,开始删除并清空设备原补丁文件,指定下次启动文件为新的版本文件,进行剔除用户等操作;

(2)1 :01分左右,执行reboot设备主控板重启操作;

(3)1 :20分左右,设备主控板正常启动并能登录设备,正常情况下主控板注册成功后会下发版本软件至各个业务单板;

(4)1 :40分左右,通过dis device查看设备单板注册情况,发现除了主控板正常注册外,其他所有单板均为Unregistered状态;通过disp ver查看设备版本,主控板已经升级到目标版本;

(5)1 :50分左右,尝试做主控板主备切换操作,但提示“备用主控板MBUS不正常!”,无法进行主备切换;

(6)1 :55分左右,联系华为400专家(400是华为公司一个技术支持电话,参与400技术技持的人员都是相关设备的研发人员,又称为研发工程师)配合诊断,400工程师建议通过手工下发版本软件至业务单板的方式来升级业务单板;

(7)1 :58分左右,根据400工程师的建议,用手工下发软件的方式升级业务单板,但由于手工下发方式比较慢,历时60分钟左右;

(8)3 :00左右,手工方式升级业务单板操作完成,但是升级后业务单板还是未能正常注册;

(9)3 :07分左右,尝试下电拔插1槽位业务单板,3:15分查看1槽位单板状态还是未注册;

(10)3 :20分左右,根据400专家建议将9槽位主控板拔出,只剩10槽位主控板在位并整机下电重启设备;

(11)3 :27分左右,设备主控板正常启动并能登录设备,从界面信息可看到正在upgrade各业务单板;

(12)3 :35分左右,查看其他业务单板均正常注册,各业务接口已正常up,用户陆续上线。

2.2 故障定位与分析

升级成功后,通过采集升级操作记录以及设备相关log记录,华为400研发工程师分析,主控板第一次重启后没有下发软件版本至各个业务单板,导致业务单板无法正常注册,原因是由于第一次重启后主控9槽位单板升级后EPLD状态异常,EPLD固件未正常升级成功,导致系统无法升级其他业务单板;整机重启后,设备主控板正常启动,状态恢复;系统升级各业务单板成功。

(1)9槽位主控异常时日志信息:

2.3 解决方案与措施

因华为ME60设备升级重启后主控单板会出现EPLD状态异常,所以根据设备特性分析及设备升级情况提出如下措施建议:

(1)设备升级后如果个别单板无法正常注册,可以尝试通过手工升级业务单板的方式来升级未能正常注册的单板,如果还不能成功,建议更换故障业务单板;

(2)如果设备升级后主控板正常注册,所有业务单板无法正常注册,那么可以尝试再次重启主控板来重新加载版本软件;

(3)如果再次重启后还是无法正常注册,则需更换主控板,重新升级。

3 S9306设备下挂用户IPTV卡顿问题分析

3.1 问题描述

某日发现S9312设备下挂二级汇聚老城机房的华为汇聚S9306交换机下挂的OLT设备,OLT入方向报文有丢包,导致下挂IPTV的直播和点播画面卡顿;OLT上联到华为汇聚S9306交换机的端口是GE1/0/12端口。现网组网结构为:

图2 组网图

3.2 故障定位与分析

分析二级汇聚老城机房的华为汇聚交换机S9306设备连接OLT的端口GigabitEthernet1/0/12,发现出方向有大量discard持续存在,端口信息如下:

经过计算,该端口每秒钟丢包在200至500个左右,这表明,该端口出方向有持续的拥塞丢包发生。进一步通过端口镜像抓包分析该端口的流量情况发现,当日白天的抓包记录显示,该端口在此次抓包的过程中,突发流量达到1G流量,单条单播源发的流量突发比较大的可达到600M,单条组播源发的流量突发比较大的可达到200M。单播流量经过确认为预留给用户的点播视频业务,8021p优先级是5;组播流量有的8021p优先级是5,有的是0,组播复制点在NE设备,组播流量为组播源往多个用户复制叠加的流量。

通过对数据的分析研究,得出:

(1)当华为汇聚层交换机S9306设备的GE1/0/12端口出方向的带宽被占满时,多余的报文就会缓存在缓存区内;

(2)当端口出方向的带宽有剩余带宽时,缓存区中积压的报文就会逐步释放;

(3)如果积压在缓存中的报文越积越多,超过缓存大小时,这些报文就会被丢弃,丢弃的报文数量会在端口的discard计数中体现;

(4)如果端口突发的流量超过现有空闲的缓冲区,就会存在端口拥塞,导致出方向不能及时得到处理,引起同优先级的报文丢弃,这样就可能影响到客户的业务,对外的表现可能有:上网速度比较缓慢,IPTV存在卡顿或马赛克情况等。

综上分析,导致IPTV业务受损的原因是客户原先使用的华为汇聚交换机S9306设备的G24CA型号单板缓存较小,同时该单板的GE1/0/12接口下挂的用户较多,当网络中突发访问量较大时,产生拥塞丢包,引起机顶盒观看的电视节目花屏。

3.3 解决方案与措施

由于华为汇聚交换机S9306设备的G24CA型号单板缓存较小,同时该单板的GE1/0/12接口下挂的用户较多,所以在机房有条件的情况下,建议采取如下措施:

(1)建议将华为汇聚交换机S9306设备的G24CA型号单板,更换为缓存更大的单板;

(2)扩容OLT上联到华为汇聚交换机S9306设备的链路带宽。但是扩容需要注意的是,由于OLT现有上联华为汇聚交换机S9306设备的端口是在1槽位,1槽位的G24CA型号单板已经缓存较小,所以要扩容到华为汇聚交换机S9306设备除1槽位外的其他槽位,这样问题就可以解决了。

4 结束语

通过三个典型案例的研究与分析,总结出如下数通设备故障的处理方法:

(1)在网络维护中出现部分网元托管时,首先核查全网设备进行隐患排除,当两台设备组成Eth-trunk经过传输设备互联时,必须配置静态LACP模式,及时整改工作模式未启用静态LACP模式的聚合端口。

(2)因华为ME60设备升级重启后主控单板会出现EPLD状态异常,所以设备升级出现EPLD状态异常时,可以重启主控板,通过重新加载版本软件进行解决。

(3)在网络维护中如果出现华为汇聚交换机S9306设备下挂IPTV的直播和点播画面卡顿,首先排查设备上是否有G24CA型号单板,同时该单板下挂的用户是否较多,如果有G24CA型号单板并且该单板下挂的用户较多,可以直接更换为缓存更大的单板或者扩容链路。

数通设备是数据中心不可缺失的一部分,数通设备的稳定运行是数据中心机房的核心。所以,在维护过程中要对数据机房中的每一个故障加以研究与分析,及时总结发现现网的漏洞,营造一个安全稳定的数据中心。

猜你喜欢

主控板单板交换机
一种快速可靠的主控冗余及切换机制的设计与实现
壁挂炉主控板工装测试系统设计
重庆轨道交通闸机三杆机芯主控板的技术自主化探究
单板U型场地滑雪关键技术动作及训练方法
刘佳宇——2018年平昌冬奥会单板滑雪女子U型场地亚军
更换汇聚交换机遇到的问题
基于地铁交换机电源设计思考
缔造工业级的强悍——评测三旺通信IPS7110-2GC-8PoE工业交换机
封面人物 单板滑雪凌空飞燕蔡雪桐
罗克韦尔自动化交换机Allen-Bradley ArmorStratix 5700