运营商宽带承载网低时延架构研究
2021-07-30李志鹏
李志鹏
(中国移动通信集团福建有限公司泉州分公司,福建 泉州 362000)
0 引言
随着多年宽带网络的发展,我国宽带用户数已将近5亿,用户带宽已向100M、200M、500M普及,各大运营商更是提出了千兆宽带大发展的口号,宽带用户的接入带宽已不再是主要问题[1]。高清影音、网络游戏、VR等互联网应用应运而生,影响用户感知的问题点已经从带宽不足转变为卡顿、延时。以游戏为例,在时延60ms以下感知为较好,时延30ms以下感知为流畅。因此,在各大运营商将宽带用户满意度作为重要考核指标的背景下,提高宽带用户使用感知成了首要目标,而降低宽带承载网的时延成为了主要抓手。
提升宽带用户感知,降低网络时延,需要从云、管、端三个维度进行优化调整。云,主要体现在运营商内容引入、CDN调度等方面。管,主要体现在宽带城域网、宽带骨干网和基础传输网络等方面。端,主要体现在用户侧的接入光猫、Wifi、PC、手机、远端服务器等方面。从以上三方面着手,结合福建移动宽带承载网特点进行针对性的优化调整,从而有效降低网络时延,提供大流量、低时延的宽带承载网[2]。
1 网络分析
端到端传输时延=用户接入传输时延+运营商省内网络时延+运营商省外网络时延。目前宽带用户访问互联网电视、IDC资源、CDN等大部分资源均在本省,流量75%左右流量在本省内流转,仅25%出省,因此做好省内时延优化即可有效提高用户感知。
用户接入传输时延问题已经随着光网络的高度覆盖而解决了,PON接入时延较固定,且控制在了1~2ms之间。
运营商省内网络时延主要分为两点:(1)省内传输时延:传输多路径保护的要求,造成地市出口至省级核心节点路径长短不一。以地市C为例,出口MB路由器至省干A市和B市的PB路由器虽然都只有1跳,但是传输路径长短并不相同。经过测试,C市移动分公司至省干A市节点、省干B市节点的传输最短路径距离约200Km,最长路径距离约2000Km,相差1800Km可造成单向时延差别在9ms左右,若数据包来回路径均相同,则最大时延差别可达18ms,将极大影响指标数据和用户网络使用感知。(2)省内IP路由迂回:IP路由迂回造成访问网络资源经过的路由跳数增多,造成时延增大。如图一,D市出口路由器MB访问A市省干PB下带的网络资源有两条IP路由,按照地市出口负载均衡的现状,原则上50%流量走A市方向,50%流量走B市方向。若走A市方向,则可以直接到达。若走B市方向,则需要经过B市省干路由器PB再转发至A市省干路由器PB。经过测试,这两种情况最大时延差可达20ms。
图1 地市位置示意图
综合以上多方面分析,通过三方面优化时延指标:(1)网络各个层级7*24小时ping测,记录时延指标,针对时延突增的情况进行故障工单下发,及时解决时延异常问题。(2)优化传输长短路径带来的时延不一致的问题。(3)优化IP路由问题,解决路由迂回跳数增多引起的时延增加问题[3]。
2 优化方案
2.1 网络各层级时延监控
省内宽带网络设备从接入PON网络到省网路由器经过:OLT-BRAS-MB(地市出口路由器)-PB(省网路由器)。通过CMNET网管系统,每5分钟分别SSH方式登陆BRAS、MB、PB设备,对直连的下一级设备进行ping测试,测试数量为10个包。经过各个层级分析测试,OLT-BRAS段落ping时延平均不超过3ms;BRAS-MB段落由于各个区县BRAS至地市核心节点距离不同,时延略有差异,但平均值都在4ms以内。MB-PB段落由于传输长短路径问题,时延在5ms-20ms之间,取决于数据走在哪条传输路径上。
有了以上监测系统和经验值,构建一个7*24小时时延监测机制,当连续两个周期平均值超过经验值的50%,即认为异常,进行故障工单派发,维护人员介入处理。
2.2 传输长短路径优化
2.2.1 结构分析
优化前,网络结构特征如下:(1)福建移动省网PB为双核心,分别在A市和B市。地市核心MB到省网核心PB之间口字型组网,两条IP链路IGP路由Cost值相同。(2)MB-PB之间多条物理链路聚合成Trunk,成员链路使用传输无保护电路承载。(3)流量从BAS负载分担到两台MB,在MB-PB的两个Trunk之间进行负载分担,同一个Trunk的不同成员口之间也进行负载分担。
问题点较为突出:(1)MB-PB的两条双归路径,虽然IP路由等价皆为最优,由于底层传输路径不同,存在路径长短差异进而造成时延不同。(2)同时同一Trunk的成员链路由于不同传输路径也导致时延不同。
通过建立一个智能化流量调度系统,实现IP层与传输层的联动,将时延敏感业务通过网内疏导至最短路径,达到端到端最短传输时延,并具备故障与性能劣化下的自动调整,确保平日最优,故障不堵。
2.2.2 调度策略
(1)优先保障一类业务和重点区域的流量承载在 IP最优路由+传输短路径。一类业务暂定为:DNS、AAA;二类业务暂定为:IDC、CDN、网吧、游戏;三类业务:其它业务。重点区域暂定为:A市、B市、C市三个重要城市。
(2)路径优先级:IP短路径+传输短路径 > IP长路径+传输短路径 > IP短路径+传输长路径。指标优先级:网络不拥塞(不丢包)>低时延>负载不均衡。
(3)为确保时延最优,多条链路之间平时可以适当降低均衡度,但单条链路使用率最大不超过阈值(如70%,可调)。如单条链路使用率超过阈值,则将流量按照次优路径的顺序进行均衡调度,直到所有的使用率均不超阈值。同时,实现传输短路径故障时将流量无缝切换到传输长路径上。
2.3 IP路由迂回优化
2.3.1 地理和网络特点
福建省城市特点为:AB市双核,ABC市三大中心城市。福建省陆地面积12.14万平方公里,福建公司下辖9个地市公司。省内三大中心城市为A市、B市、C市,均位于福建沿海,省会A市位于福建北部,B市位于福建南部,C市位于AB市之间,A市和B市两大城市之间的距离为360公里。福建移动CMNET九地市核心出口路由器共18台MB组成。每个地市2台MB以口字型接入省网A市和B市的PB路由器。省内有A市、B市、C市三大IDC机房,每个IDC机房均由两台出口路由器V字型上联至省网两台PB[4]。
在当前网络架构下,以城域网与IDC互访流量模型为例,D市城域网访问A市IDC,城域网侧与IDC均为负载分担,有2种路径:
路径1=(图二1-1)+(图二1-2)=(D市-A市)+(A市-A市),物理距离为177km,时延为3ms;
路径2=(图二2-1)+(图二2-2)=(D市-B市)+(B市-A市),物理距离为911km,时延为19ms;
图2 A、D 市互访流量模型
路径1的时延是路径2的6.3倍,可以看出路径2不合理,为次优路由。但CMNet为大流量网络,为了节约投资,路径1和路径2无法做成主备,必须负载均衡。
无论在路由层面进行何种设计,都无法同时满足城域网和IDC两边路由最优和负载均衡的要求,这是目前网络结构下无法克服的弱点。各地市城域网MB与福厦双核心PB路由器口字型组网,地市IDC与福厦双核心PB用V字型组网,再加上负载均衡,链路已经注定会部分次优。既然如此,就需要对这部分网络结构进行调整。通过分析各个省份和各个运营商的网络结构,再结合福建移动自身特点,提出了使用4台PB路由器+地市双V字型的路,改造前后对比如图3:
优化后的结构可同时满足城域网和IDC两边路由最优和负载均衡的要求。本优化建议方案,除了可以解决省内用户(含4G、宽带、专线等)与南北数据中心互访的时延问题以外,还可以大幅降低省内用户与所有省级平台(如DNS、省级CDN节点、互联网电视省级中心平台)互访的时延。
图3 结构优化前后对比
3 优化效果
通过7*24小时各个层级监控,全省平均每个月约可发现10起左右的时延异常问题,主要集中在传输通道误码、设备CPU过高、环路这几个主要影响因素。通过监控及时发现,立即处理,确保网络正常稳定运行。
通过区分业务等级,保障高优先级业务享受低时延的地市出口链路,普通业务负载均衡。优化前后,一类业务前后时延最大可缩短约18ms左右。二类业务在传输短路径链路空闲情况下,同样最大可优化18ms左右。在传输短路径链路符合较高情况下,可以使用中路径链路,最大可优化10ms左右。可见,重点业务的时延优化效果非常显著[5]。
通过优化地市出口MB、IDC和省网MB网络结构,将“二核心,口字型”组网优化为“四核心,V字型”组网,从以下几个方面达到了较好效果:
(1)大型IDC出口实现Mesh互联:以A市数据中心、B市数据中心和泉州大型IDC为中心,增加大城域网到IDC中心直驱。
(2)网络架构扁平化:IDC间具备一跳直达能力等,解决了现网存在的IDC资源分散、网络分级多层、链路绕行时延大的问题。
(3)资源复用高:PB与IDC出口合设,合理利用设备资源,增强省网节点的核心能力。
(4)当前全省用户访问省级数据中心资源的流量中,流量从优化前的平均时延12.71ms降低到平均时延7.9ms,降低38%。
4 结语
通过对网络结构分析、网络指标监控、网络业务等级分类等创新手段,构建了一个网络结构合理、重点业务优先保证的省内宽带承载网。在新兴业务发展,云网融合的大背景下,业务发展与网络质量并行,为广大用户提供低时延的网络服务,进一步提升用户使用感知。