APP下载

揪出核心子卡故障

2018-03-04山东何钰张威

网络安全和信息化 2018年11期
关键词:路由器端口现象

■ 山东 何钰 张威

编者按:最近笔者单位的核心路由器子卡出现故障,导致大面积网络故障。经过排查最终找到了故障点,通过修复设备软件版本故障得以排除。本文介绍故障的处理过程。

故障现象

近日,网管平台告警信息明显增多,而且宽带用户报修网速明显变慢的情况也呈现上升趋势。

故障分析

针对上述网络现象。运维人员迅速做出反应。首先对宽带出口进行ping以及trace。同时对市公司核心路由器的设备CPU、内存、端口光功率以及流量突变值进行查看均没有发现问题。

然后鉴于该故障的出现,我们对故障进行了综合分析,故障现象是浏览网页时打不开,具体表现在凤凰网、搜狐、新浪等网站,尤其是二级页面问题突出。但是对网站进行ping测试却没有发现丢包现象。基本可以排除接入层以及汇聚层网络问题。

对故障现象进行简单分析和思路整理后,由于页面有时打不开或者很慢,所以我们把故障点定位在DNS服务器。经对DNS服务器排查,初步认为是DNS服务器异常劫持出现问题。通过对单个电脑进行DNS修改测试,依然没有奏效。

故障解决

为尽快找到故障点,分别对宽带出口抛开我方设备进行直接测试网络正常。同时在流控上对上述出口测试也正常,这样就将故障锁定在核心路由器上,核心路由器和流控也是使用万兆口连接,省公司互联网总出口是80G,该通道采用8个万兆口分别使用两台核心路由器连接,通过命令查看核心路由器-1上的xgei-0/10/0/2端口利用率为23%,要少于其他3个端口,而且该端口入方向错误包个数过多。发现端口异常后,初步断定端口存在问题。决定通过更换端口的方式进行故障解决。接下来将故障端口关闭,然后将该端口从聚合组中删除,最后再将新的端口启用并加入聚合端口来代替原有端口,具体的配置命令即:

Config t

//进入配置模式

Interfacexgei-0/10/0/2

//进入端口

Shutdown

//关闭端口

完成故障端口的关闭后,将该端口从聚合组中删除。具体命令即:

Config

//进入配置模式

Lacp

// 进入LACP配置模式

interface xgei-0/10/0/2

//进入端口

no smartgroup

//删除聚合组中的故障成员端口

将故障端口从聚合组3中删除后,下一步需要将新端口开启强制,在开启端口前需要查看设备空余万兆端口,使用命令“show interface description”查看处于down的万兆端口即可使用。这次我们准备将空余的端口xgei-0/10/0/8加入聚合组使用。具体命令即:

interface xgei-0/10/0/8

//进入端口

No shutdown

//端口使能

negotiationnegotiation-force

//端口强制协商

speed speed-10G

//定义端口速率

duplex duplex-full

//定义端口双工模式

lacp

//进入LACP配置模式

interface xgei-0/10/0/2

//进入端口

smartgroup 3 mode on

//将端口加入聚合组3中

完成端口的更换后,再次对省公司出口进行了测试,网速提升十分明显。同时对使用省公司出口的互联网用户回访业务恢复正常。这样我们就完成整个故障的排除。

故障总结

上面我们从得知故障现象后,根据互联网影响的面积,对出口进行ping和trace测试,并查看了核心设备的CPU、内存以及设备告警信息后,然后将宽带出口按照网络结构分层次测试,最终将故障定位在了核心路由器上。通过升级核心路由的子卡软件达到了故障解决的目的。

该故障的发生定性为核心路由器的万兆子卡出现问题引起的,故障的原因是核心路由器万兆子卡内部芯片出现偏差,然后我们在凌晨进行了板卡软件升级重启,经过测试原来故障的端口恢复正常。通过厂家工程师提供的故障报告该故障出现的几率极小几百万分之一,虽然故障发生概率小,但是一旦发生影响面却十分广泛。为彻底杜绝此类故障的发生,我们对核心设备故障板卡进行更换,并加强了设备的巡检力度,从根本上降低设备的故障率。

猜你喜欢

路由器端口现象
买千兆路由器看接口参数
维持生命
路由器每天都要关
路由器每天都要关
一种端口故障的解决方案
硬件解耦三端口变换器的软开关分析与仿真
交换机生成树安全
它们离“现象级”有多远
你能解释下面的现象吗
猜谜语