地址池重复引故障
2018-11-08
BRAS即宽带远程接入服务器,是面向宽带网络应用的新型接入网关,它位于骨干网的边缘层,可以完成用户带宽的IP网的数据接入。通常作为核心设备位于网络结构的最上层,主要完成两方面功能,一是网络承载功能:负责终结用户的PPPoE连接、汇聚用户的流量功能;二是控制实现功能:与认证系统、计费系统和客户管理系统及服务策略控制系统相配合,实现用户接入的认证、计费和管理功能。
笔者单位的BRAS设备和上层路由器依靠BGP动态路由互联,两者之间路由的学习,保证了数据的正常转发。相反的,如果路由学习错误,就会导致数据无法转发,从而影响互联网业务。本文从用户反映网络故障,拨号成功打不开网页这一现象开始排查,并运用ping、trace和show命令,将网络故障准确定位在了BRAS上地址池设置重复,进而导致路由学习错误,并最终引发网络故障。接下来就详细介绍一下网络故障的处理过程。
图1 查看路由器 10.219.144.0路由学习情况
故障现象
近日,某同事向我们反映,有部分互联网用户出现故障,具体故障现象是拨号成功但打不开网页,需要多次拨号后,才能正常上网。
故障分析
根据用户反映的时间节点大都在晚上,我们在机房搭建测试环境。经过多次拨号后抓取到了故障现象,即拨号成功打不开网页。使用ipconfig查看到设备拨号成功后的IP地址是10.219.144.2,Ping网关10.219.144.1是没有问题的,也没有丢包和延迟大的现象发生。但是Ping核心路由器(10.253.0.19)就出现超时的现象,这样就可以断定问题出现在路由器和BRAS之间。
为了进一步验证故障的环节出现在路由器和BRAS之间,我们使用trace命令对互联网出口进行了跟踪,发现数据只能跟踪到BRAS,根本到达不了路由器。接下来登录到核心路由器上,使用命令show ip fordwing route查看关于10.219.144.0路由的学习情况,如图1所示。
通过图1可以看到,在核心路由器上可以学习到两条包含10.219.144.0网段的路由,即10.219.144.0/22和10.219.144.0/24,这两条路由均来自不同的方向,其 中10.253.139.50即出现故障的BRAS,而10.253.139.2是另外一台BRAS。路由器学习这两条路由都能将他们转发出去,但是数据回程的时候,它会根据路由最长匹配原则优先匹配10.219.144.0/24的地址段,从而转发给10.253.139.2这台 BRAS,这样发生故障的BRAS用户就上不网,因为它所在网段的子网掩码比较短。
故障解决
通过上面查看路由转发明细,可以查看到路由转发存在问题,具体情况是同一个网段从两个方向学习到。根据路由最长匹配原则,在路由转发的过程中匹配上子网掩码较长的网段,从而导致路由转发到其他BRAS设备。
找到故障的诱因后,登录到故障的BRAS上,将IP地址重复的地址池做了相应的修改,从而达到解决故障的目的。具体配置命令即:
上面通过进入地址池,首先删除了原有地址池的IP地址,然后在vbui接口下删除了接口地址,紧接着又重新定义接口地址,最后在地址池中添加IP地址段即可。在完成BRAS上新的地址池配置工作后,使用测试环境PPPoE拨号后可以获取到新地址池的IP地址10.219.212.2/32,该 IP地址访问Internet也没有问题,故障得到解决。
经验总结
从得知用户故障,并根据故障出现的时间节点,而后在机房搭建测试的环境抓取故障现象,并使用一系列ping、trace和 show命 令,准确定位了故障原因即路由在转发上出现异常。具体原因是同一个网段路由转发出去没有问题,但是路由回程时会根据路由最长匹配的原则,转发到其他BRAS设备,从而导致路由转发故障。根据故障原因,通过修改重复的IP地址池后故障得到解决。
通过此次故障的排查,充分认识到IP地址池设置重复带来的负面影响,为此我们将设置专人保管IP地址,专人专用,从而杜绝IP地址重复配置的事件发生,并及时做到数据的更新,同时在新的IP地址添加后,查看路由转发表,对路由的学习情况进行比对,使用这些举措在源头上有效控制IP地址的合理使用,保障用户的较好体验。