APP下载

政企专线EOS业务故障处理指导

2017-09-07邢迎冬张楠楠白雪峰

数字技术与应用 2017年5期

邢迎冬+张楠楠+白雪峰

摘要:在现网的政企专线业务中,EOS类业务由于用户接口为以太接口,且可承载的带宽颗粒大,扩容灵活等因素而应用广泛,本文以通辽市工商局某网点为例,来分析如果该网点用户业务中断的故障排查思路。

关键词:MSAP;EOS;SDH

中图分类号:TN915.6 文献标识码:A 文章编号:1007-9416(2017)05-0036-02

1 组网拓扑

组网说明:分支网点交换机的百兆以太口通过网线上联联通的百兆光纤收发器,然后通过光纤上联至联通机房接入MSAP的EOSE-8FX单板,接入MSAP通过622MSDH接口上联至联通SDH本地传输网,本地传输网通过2.5G接口对接汇聚MSAP,然后通过8EOS-GC单本的一次汇聚和PTU-4GE单板的二次汇聚后,经PTU-4GE单板的GE口与用户汇聚路由器的GE口完成对接,最终实现了用户分支业务至总部机构的传输和汇聚。

2 故障处理流程

2.1 详细了解现场情况,确定故障严重程度

处理故障之前,详细了解故障的现场情况是前提。例如,需要详细和客户沟通确认:

(1)网络的拓扑情况,包括使用的设备型号,还有相应的连接关系;

(2)业务全部中断,还是部分中断;

(3)如果是业务丢包,丢包的严重程度或丢包率,如果是视频业务的话,图像的状态如何,视频的业务占用带宽是否超过传输带宽;

详细了解了上述情况后,做到了了解的故障的基本情况和故障严重程度,就可以采取相应的措施,现场处理或指导客户处理故障。

2.2 检测设备工作状态和各接口连接情况

了解故障的基本情况后,首先,要检查设备的工作状态和各接口的连接情况。这一步是根据观察分析法来判断故障原因。可以从下面几个方面进行判断设备的状态:

(1)网管上的当前告警列表或历史告警列表,可以查看到设备的当前或历史告警情况。根据告警分析法来判断相应的告警,进行判断故障点。

(2)观察MSAP的板卡前面板的指示灯。如上图1所示板卡为用户端接入MSAP中用于下联收发器的单板EOSE-8FX,指示灯的正常状态应为PWR灯(电源指示灯)长亮,SYS灯(系统运行指示灯)闪烁,LINK/ACT灯(接口连接状态指示灯)闪烁。如果PWR灯或SYS灯灭,说明單板处于异常状态,需要更换板卡或联系厂家工程师进行进一步排查;如果LINK/ACT灯灭说明板卡收不到光,故障原因可能为:1)光缆中断;2)板卡光模块故障;3)用户端收发器掉电或故障;需要客响维护人员进行相应的确认。

(3)观察用户端设备指示灯状态。如上图1所示收发器的指示灯正常状态为:除ACT灯和LINK/ACT闪烁,其他灯长亮,如果指示灯状态不对,需要对照用户手册中指示灯的含义来具体处理。

2.3 判定故障是数据层面还是传输层面

检查完设备工作和各接口连接上没有异常后,然后要进行数据层面还是传输层面的判定。关于数据层面和传输层面的解释如下图2所示。

EOS业务是将以太网业务承载到传输网上进行传送,自然分为两个大层面:一个是数据层面,另外一个是传输层面。在出现业务异常的时候,建议先排查传输层面的问题,后排除数据层面的问题,是因为传输层面有问题,通常在网管上会有明显的告警,通过告警分析法就可以逐个解决故障。

判断传输层面的故障重点还可以通过查看以下命令信息:在群路盘端口模式下show sdh-alarm(可以查看传输层面的告警信息)和show interface(可以查看传输上的开销设置和实际状态信息)。

(1)传输层面常见的故障主要包含以下几个方面:

1)交叉连接配置错误,包括MSAP交叉连接错误;

2)传输线路损伤,例如光纤断或连接错误、光接口没接触好、光衰耗过大等;

3)EOS业务对接问题,例如V5/K4字节不匹配,封装协议配置不一致,GFP的FCS设置不一致,LCAS设置不匹配等;

4)业务板卡单盘故障或设计缺陷;

(2)数据层面常见的故障主要包含以下几个方面:

1)数据配置错误,例如VLAN配置、链路聚合配置、USE-CORE-TAG配置等;

2)网络中产生环回,导致影响整个数据网络;

3)以太接口自协商问题或网线制作和接触问题;

4)业务板卡单盘故障。

2.4 检测网络中设备的配置

2.4.1 检测MSAP的设备的配置

(1)检查交叉连接和时隙指派情况:在网管上打开“SDH业务管理”中的“交叉配置”,检查:时隙配置是否完整,状态是否为“激活”;对接传输接口时隙是否正确。

(2)检查数据层面配置情况:在网管上打开“VLAN交换端口配置”,查看8EOS-GE和PTU-4GE单板对于VLAN的设置是否正确。

2.4.2 检测MSAP外围设备的配置

了解到MSAP外围设备的配置,以便从网络整体角度分析问题。

2.5 通过各种方法,缩小故障范围,定位故障原因

通过上一步的初步判断,可以通过一些简单的方法,可能的逐步缩小范围,一步一步找到故障点,进而进行相应的措施,排除故障。

2.5.1 EOS业务典型网络排障经常用到的信息

如图3所示。

(1)板卡当前的状态和告警。MSAP的板卡前面板的指示灯,包含板卡系统灯、电源指示灯、总告警指示灯,还有接口的状态指示灯,这些指示灯状态需要特别的关注和确认。还有,系统的当前告警和状态也需要检查。如果有了上述信息,可以通过告警分析法,按照先高级、后低级,先高阶、再低阶的原则进行处理。endprint

(2)EOS接口、交换\以太端口统计和SDH的性能统计。端口的数据统计,包含收发的数据统计,还包括一些错误帧的统计。通过对这些端口统计的查看,对业务流的状态就有了清晰的了解,然后结合一些故障排除方法,例如环回测试法,就可以逐段缩小故障反馈,从而进一步找到故障点,进而排除故障。

(3)MAC地址表。MAC地址表可以在一定程度判断业务是否正常。例如,在汇聚交换板卡上查看MAC地址表,可以清楚的看到相应端口和VLAN下面的MAC地址,如果某个业务接入通道有问题或业务接入终端设备有问题,就不能学到相应业务接入终端的MAC地址,可以粗略的判断业务是否正常。

(4)环回检测状态。MSAP的EOS汇聚板卡支持环回检测功能,可以检测出传输通道是否有环回,然后把相应环回的交换接口关闭掉,直到环回解除,这样可以保护其他的业务分支业务的安全性。

(5)板卡软硬件版本信息。查看现网的设备的版本信息,以便确认是否存在功能缺陷,或者为厂家工程师进一步分析问题或验证故障现象提供必要数据。

通过上述的信息,结合一定的故障排除方法,可以解决一些常见的故障,或者可以确认故障的范围,为后续排查提供参考。

2.5.2 传输层面问题常用排查方法

通过分段环回查看Jx和V5\K4字节信息判断传输问题,原理介绍:SDH的开销Jx、V5、K4一般有三个值,发送值、期望接收值和实际接收值。如果通过逐段环回的方面,判断这些开销字节的发送值和实际接收值是否一致,就可以粗略判断被环回的段是否正常。如图4所示。

如果通过环回测试,确认了接入侧和汇聚侧的传输没有问题,后续就需要再进行排除对接问题或数据层面的问题了。

2.5.3 数据层面故障常用排查方法

如图5所示。

方法一:通过业务流各点数据统计判断故障范围。

原理介绍:MSAP的EOS板卡和交换汇聚板卡均可以进行端口的性能统计。

通过业务流向的各点的收发包统计,查看数据增量或者具体数据统计,来判读故障点。

方法二:通过一些测试软件,例如sniffer,再加上各点的环回,也可以逐段判断故障点。

使用sniffer产生一定量的数据包,然后通过线路中各点的环回,然后使用sniffer进行收包统计,如果发出去的包与接收的包数量一致,则说明传输没有问题;如果接收的包少于发送出去的包,则说明线路质量不好;如果干脆没有接收到的包,则说明环回点这段业务不通,再进一步減少环回范围逐段判断故障点。

方法三:通过在交换盘汇聚盘上查看MAC地址表也可以初步查看业务通道是否正常。

MAC地址表可以在一定程度判断业务是否正常。例如,在汇聚交换板卡上查看MAC地址表,可以清楚的看到相应端口和VLAN下面的MAC地址,如果某个业务接入通道有问题或业务接入终端设备有问题,就不能学到相应业务接入终端的MAC地址,可以粗略的判断业务是否正常。

3 结语

总之,在处理故障过程中,只有透过故障的表象找到其本质,才能实现故障的准确定位并迅速排除。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,从而从容应对各种异常现象,提高故障处理的效率。endprint