Ping包时延优化
2012-07-30中国联合网络通信集团有限公司深圳分公司
黄 航 中国联合网络通信集团有限公司深圳分公司
1 引言
深圳联通WCDMA网络正式运行以来,网络规模不断扩大,网络负荷与复杂程度也不断提高。随着智能终端使用的普及,特别是使用iPhone手机用户群数量的不断扩大,导致数据用户的迅速增长。如何有效解决数据用户的数据包传输时延、提升数据用户的感知成为当务之急。
2 研究背景
深圳WCDMA网络在建网初期,由于用户数量较少,网络上下行的干扰水平相对较低。但随着现网规模越来越大,智能终端的普及,特别是HSUPA用户数量的急骤增长,导致现网干扰水平升高越来越明显,特别是局部话务热点区域,基站小区RTWP普遍偏高,呼吸效应明显。
Ping(Packet Internet Groper)是网络层协议,使用ICMP的超时机制来发现一个数据包在穿越互联网络时所经历的路径,其时延大小决定了网络IP包经无线空口至对端服务器之间的实际时延。这就意味着有效地优化Ping包的时延,可以有效减少用户终端到网络服务器之间的IP数据包的端至端时延,从而提升用户网络感知、降低投诉率、提升网络质量。
通过开展专项优化方案实施,显著地减少了现网IP包传输时延,明显提升了深圳WCDMA网络质量,满足了公司“降本增效、节能减排”的经营策略与思想导向。
3 Ping时延优化分析
为了有效降低Ping包时延,先从理论分析影响用户终端至服务器之间引起时延的各个因素,包括限制HSUPA用户上行数据调度的因素、小区无线资源与NodeB处理资源等各类因素,也包括TCP/IP协议层的因素等。
3.1 HSUPA快速调度
HSUPA分组调度算法主要功能是根据RNC通过NBAP的配置上行底噪参考Reference Received Total Wideband Power(RefRTWP)、上行干扰目标Maximum Target Received Total Wideband Power(MaxRTWP)、Target Non-serving E-DCH to Total E-DCH Power Ratio(NServToTotalPwr)、UE上报状态信息、RNC通过NBAP的配置的UE QoS参数、小区无线资源、NodeB处理资源等信息,确定系统资源使用情况和系统负荷,通过一定的优先级策略,分配系统资源给不同的UE,从而达到调度的目的,其调度流程如图1所示。
3.2 影响HSUPA调度的因素
(1)小区负载
从上图HSUPA调度流程,正确地评估UE、空中接口无线资源和NodeB资源和负载使用情况,可以为解决上行HSUPA用户数据调度问题提供很好的优化思路。
假设用归一化变量Cell_Load_current(百分比)表示小区上行负载,Cell_Load_max(百分比)表示小区最大的负载容量,有以下公式:
Itotal是基站处包括底噪功率在内的总的接收宽带功率,取值为RTWPcurrent;Pn为底噪,取值RefRTWP,根据3GPP TS 255.133协议的定义,在理想的情况下,在空载的时候RTWP为-106.4dBm;MaxRTWP是小区目标干扰门限最大值,其值与厂家芯片解调能力有关,这里取-55dbm;RoT是噪声提升(Rise over Thermal)。
根据上述的(1)~(3)公式,当Itotal取值范围从-105dbm至-60dbm时,可以得到三者的趋势如图2所示。
从图2中可以观察出底躁负荷的两个规律:
图1 HSUPA调度流程
图2 小区负荷与RoT之间趋势图
1)当RoT从不断的增加时,Cell_Load_current不断接近Cell_Load_max;
2)当Itotal在-105dbm至-100dbm时,Cell_Load_current急骤增长;当Itotal大于-100dbm以上时,增加速度放缓,Cell_Load_current缓慢向Cell_Load_max靠近。
(2)单UE负载贡献
对于每个TTI,Node B解调E-DPDCH后,获得MAC-e PDU、调度信息SI和Eb/No,把MAC-e PDU复用信息等参数送往调度器,定义调度器根据下面公式近似计算单个UE对NodeB的贡献负载。
这里R是UE的比特速率,W是WCDMA码片速率。
当无线模型PB3时,不同的3G业务在对应的BLER下Eb/No如表1所示:
表1 不同3G业务的UEload
为了将UE的贡献负载UEload映射为UE的授权SG,两者之间存在如公式(5)的对应关系:
上式说明可以从UE的贡献负载得到UE的服务授权,也可以通过UE的服务授权得到UE的贡献负载。
(3)UE调度优先级
HSUPA调度器优先级采用增强的比例公平算法(Enhanced Proportional Fair Algorithm),调度优先级与UE当前上行待传输数据量成正比,调度优先级与UE的上行平均吞吐量成反比。
调度优先级高的UE优先获得更多的资源,而优先级低的用户在剩余资源受限时,原来分配的资源将会被抢占。当前优先级低的用户会因为资源被抢占而速率变低,但在后面的调度中由于其速率太低而计算得到比较高的调度优先级,进而优先被调度,获取资源,这样就保证了各用户的公平性。
UE的调度优先级与UE当前手机的状态有关,包括与UE当前上行待传输数据量(或当前可以传输的速率)成正比,与UE的上行平均吞吐量成反比,单个UE的优先级可由以下公式推出:
其中Rn代表单个用户在第n个TTI前(n为当前时刻)获得的上行平均吞吐量;
Dn是UE当前上行可以传输的速率;FairnessWgt是公平因子,取值1;
UE_buffer_status是UE上报的SI中的缓冲区大小信息;
QoSweight是考虑用户SPI(Scheduling Priority Indicator),GBR(MAC-es Guaranteed Bit Rate)等RNC配置的业务QoS信息后的业务综合权重,有以下关系:
其中SPI由RNC配置,共有0至15个等级;
当UE的Rn大于等于GBR,则GBRweight=0;当Rn小于GBR,则GBRweight=MaxGBRWeightValue。
(4)NodeB处理资源
目前限制Ping包时延的NodeB处理资源主要包括:
1)Iub口传输带宽
HSUPA上行业务信道需要上层的流控制机制来保证不同的用户共享Iub带宽。当E-DCH承载的业务实时速率较高导致Iub口传输利用率过高或者拥塞时,可能会造成数据乱序、丢弃、或者延迟,严重时会导致小区分组域RAB指派建立成功率低、小区接纳拒绝次数突增,从而直接影响Ping包上行数据的调度效率与成功率。
HSUPA的流量控制主要分为两个部分:
(a)由RNC检测拥塞情况并通知基站NodeB侧,以降低UE的实际速率,减轻拥塞的程度,避免对其他业务造成影响,NodeB侧调度器在收到传输层拥塞指示后限制对UE的授权。
(b)由Node B的主控模块测量Iub口的数据流量,把带宽利用率发送给调度器,调度器根据带宽利用率决定是否限制UE的授权,从而降低Iub口的数据流量。
2)CE资源
HSUPA上传速率与上行CE消耗成正比,如表2所示:当上行速率越来越大,CE的消耗也是成倍的增长。
表2 HSUPA不同速率的CE使用率
如果系统当前可用负载或CE资源小于所有UE请求发送速率贡献的负载之和,系统会先根据调度优先级从低到高,逐个释放优先级低的用户的授权,并计算降低授权后所贡献的负载,直到调度优先级低的用户释放出来的负载和CE资源满足优先级最高的用户的需求。
对于上行CE受限的站点,将会直接影响优先级较低的用户上行数据调度;受限严重的站点将会使小区的分组域RAB的建立成功率严重降低、分组域的接纳拒绝次数突增,导致Ping包成功率与传输时延恶化。
(5)无线空口质量
对于城市之中的一些覆盖盲点、小区边缘的无线信号强度不稳定,导致基站侧有可能接收误码率较高,或者无法收到终端侧的反馈消息,空口流程超时导致无线数据业务链路失败;部分射频直放站由于设备原因,导致上下行空口质量不稳定,直接引起上下行无线链路质量恶化,甚至无线链路失败。
这些原因都将直接导致Ping包发送成功率与传输时延恶化。
(6)其它原因
部分基站小区退服、Iub传输故障,是导致空口质量恶化与小区性能变差的主要原因;其次是基站设备类告警,包括IR口链路告警、硬件告警与功率异常告警、温度告警、电源告警;最后还有天馈类的告警,如驻波比告警与RRU功率异常等等,都会成为导致Ping包成功率低与时延较长的客观原因。
3.3 TCP/IP协议栈中影响IP包传输效率的因素
在各协议层,由于加入数据包头等处理,均会花费一定的开销。除了物理层外,主要是TCP/IP、RLC层开销比较大。
TCP协议利用可变窗口进行流量控制。在TCP重传率较小的情况下,可以通过修改服务器接收窗口的方法来提升数据业务传输的效率。
如果IP层的数据报大小比链路层的MTU还要大,那么IP层需要进行分片处理。从提高效率方面来说,在保证一定的重传率的情况下,应使MTU尽量可能大,以避免出现IP分段和重组。
4 优化方案实施与效果
4.1 降低上行负荷,提升上行容量
从式(1)至(3)可以得出结论,降低全网的上行干扰水平,可以有效地提升上行容量。对单个小区来说,在相同数量的终端接入情况下,降低小区RTWP,可以将更多的上行负荷余量腾出给单个终端,再根据公式(5),平均至每个UE的授权SG等级都可以相应提升,HSUPA调度的速率将会得到提高。
如图3所示,导致小区RTWP水平较高的原因主要有以下几种:
(a)小区用户数量多导致RTWP总体提升;
(b)外部存在干扰源,主要是电信市话通站点与直放站点干扰;
(c)天馈或者基站侧内部器件故障;
(d)其它原因,主要是突发的话务量增多与不明干扰源。
图3 RTWP高原因分布图
通过对近3个月现网后台的统计,RTWP水平保持在-90dbm以上的较高的小区个数为389个。通过扫频与指标分析,确定因小区用户数量多导致RTWP抬升的有186个,占总数的47.8%;外部干扰导致小区底躁提升的有129个,占总数的33.2%;66个小区是由于天馈或者基站侧内部器件故障导致底噪提升,占总数的17.0%;8个小区由于其它原因导致底噪提升,占总数的2.0%。
4.2 基站资源扩容
针对基站上行CE受限、Iub口传输拥塞所带来对Ping包传送成功率与时延大小的影响,通过收集现网近3个月KPI指标CE受限与Iub口传输拥塞严重的站点进行BPC板件扩容与传输扩容。通过统计,现网总共确定需扩容站点共有426个,其中需要BPC板件361块,需新增156对E1,新增16M FE链路共126条。图4表明了扩容前后受限与拥塞小区个数的变化情况。
图4 扩容前后对比
4.3 站点效能整改
对于现网存在的覆盖弱区与盲区,主要采取几种方法提升覆盖:
(1)小区整改:提升站点覆盖效能,有效地提升部分遮挡较为严重区域的覆盖率;
(2)光纤拉远:解决部分区域覆盖盲区,有效提升覆盖率;
(3)室分外引信源整改:提升区域覆盖率与覆盖质量。
通过对现网164个站点进行天线整改、52个站点新增拉远小区、39个室分外引进行信源整改,有效提升了现网无线覆盖率与质量,图5表明进行站点效能整改后对网络覆盖质量提升水平。
图5 整改前后网络覆盖对比
4.4 设备维护与告警修复
及时解决现网所存在的告警,对保持站点性能与减轻网络负荷水平都起着重要的作用。通过对后台告警梳理,现网总共存在356个影响业务的告警。其中小区退服39个,断站26个,设备告警121个,天馈类告警156个,其它告警14个。经修复维护,截止目前已经消除92%的告警,如图6所示:
图6 告警修复前后对比
4.5 提升用户优先级
HSUPA资源分配采用SPI加权因子映射机制。用户的SPI_WEIGHT越高,那么所获得的调度优先级越高。
目前用户可划分为3个等级,取值为(1、2、3),分别代表金、银、铜三个等级。缺省的映射关系如表3所示:
表3 用户优先级ARP映射表
同时SPI_WEIGHT与SPI的映射关系如表4所示:
表4 SPI_WEIGHT与SPI映射表
从表3与表4可以看出,对于语音业务、流业务、交互类业务、背景类业务,相同的业务中当SPI取值越大,SPI_WEIGHT取值就越大,再根据公式(5)、(6)、(7),单个用户终端的上行调度优先级Priority也会提升10%至20%。
通过对同一个用户USIM卡的优先级做铜→银→金的修改后,对相同的服务器FTP做100Mb文件上传测试,结果如表5所示:
表5 不同用户等级上传速率对比
4.6 TCP接收窗与IP的MTU优化
WINDOWS系统默认的TcpWindowSize为64000Byte,通过注册表将其修改为168000Byte;MTU由1492Byte修改为1600Byte。
通过在RNC11下面定点不同字节长度的Ping测试,每个分别采样50次,然后取平均,得到平均时延如表6所示:
表6 Ping包时延对比
从表6可以看出,在Ping包长度较小时,并不能体现出明显的差别,但随着字节的越来越大,时延缩短较为明显。
通过在相同时间与相同的无线环境下,对修改过TCP窗口大小与MTU长度的服务器1,与无做任何修改的服务器2,进行不同大小文件的下载对比,如表7所示。从测试的结果看来,下载速率有5%至10%的增长空间。
表7 下载速率对比
5 结束语
本文从剖析限制Ping包传输时延的原理开始,提出了降低Ping时延的几种有效措施,并由此开展对深圳WCDMA网络专项尖峰行动。针对提升Ping包时延的优化方案进行实施后,通过对关内总共9个RNC进行定点Ping测试,测试规则为Ping包长度保持为1024字节,每个RNC随机抽取100个点,每个点50次Ping试验,实施的前后对比如图7所示。
图7 优化前后PING包时延对比
从优化前后来看,几乎所有RNC的Ping时延均有不同程度的下降,最高时延降低25%,有效优化了目前WCDMA网络数据包传送时延。此次专项尖峰行动达到了提升数据用户感知、减少投诉量、提升网络水平的目的,为后期网络优化提供了思路。
[1]中兴通讯股份有限公司. ZTE UMTS HSUPA Packet Scheduling功能指导[Z].
[2]窦中兆,雷湘. WCDMA系统原理与无线网络优化[M]. 北京: 清华大学出版社, 2009.
[3]中兴通讯股份有限公司. UMTS PS业务分析指导书.V1.0[Z].
[4]张新程,关山. HSUPA/HSPA网络技术[M]. 北京: 人民邮电出版社,2008. ★