WLAN网络质量提升研究
2012-01-19段琼
段琼
(中国移动通信集团河南有限公司,郑州 450000)
中国移动WLAN网络经过几轮快速规模化的建设,其网络覆盖率、网络容量已跃居几大运营商之首,给广大用户提供了高速优质的数据体验。然而随着用户数量迅速攀升,用户对数据速率的更高要求,尤其是一些数据业务高密度区域,部分WLAN网络容易出现高负荷过载和服务质量下降的情况,采用合理有效地手段持续地对WLAN网络进行维护和优化,已成为当前必要的工作重点。
理论上,无线网络优化是WLAN网络生命周期的重要环节。在实践中,无线网络优化通常可以最大化的利用现有资源并有效提高用户体验,真正使WLAN成为可运营、可管理、可持续发展的网络。后评估便是由集团以引导设备厂家有计划地解决网络运行存在的设备问题,同时完善厂商的技术及服务支持体系,以及制定提高用户满意度为目标而推出的规范性指导。
在既定的标准下,通常WLAN的优化主要分为射频优化和数据优化。优化思路和手段主要是关注Wi-Fi整体覆盖方式的合理部署,并通过信号侧和数据侧的优化方法最大限度削弱无线干扰带来的影响,保证最终用户的使用效果和用户体验。本文主要结合着运营及后评估中常见问题和难点问题就WLAN网优提出自己的思路,重点放在以下几个方面。
1 关联成功率
关联成功率是通过统计AP下无法接入的用户数以及接入用户的总量来衡量该AP下可用性的参考。AP关联是WLAN服务使用的第一步。AP关联失败,用户最直接的感知就是终端能接收到移动的Wi-Fi信号,但是连接不上,导致用户体验变差。因此,保障及提升AP关联成功率是运维的一项重要内容,同时也是集团公司考核的一项重要指标。
显然的,关联成功率通常跟RF相关,因此,针对关联成功率的优化,我们要把重点放到信号侧的优化方面。
除了大家熟知的信道、功率调整外,结合着802.11协议,我们还应该从以下方面入手来进行相关优化:
1.1 限制低速率用户接入
通过限制用户的接入速率来提升WLAN设备的整体吞吐量和使用率。因低速率用户占空时间较高速率用户比重大,极大的限制了WLAN设备整体的运行情况。默认情况下,无线网络中大量的广播报文和管理报文都是采用最低发送速率1Mbit/s,严重消耗了空口资源,一些覆盖区域,信号强度已经不是问题,可以将1、2、6、9等低速率禁用,提高广播和管理报文发送速率,降低空口资源消耗。另外,通过禁用速率可以达到拒绝11b终端接入的效果。
1.2 无线用户二层隔离
按照802.11协议规定,AP会在空口广播同一个二层内的广播分组,而这样的广播分组在网络中出现的可能性较大,便占用了用户有效报文的空中资源,造成资源浪费。无线网络中,广播/多播报文会使用最低速率发送广播报文,所以当广播报文比较多时,会相对较多地消耗信道空间带宽,从而影响到整个网络性能和应用。大部分的Wi-Fi网络,主要为无线客户端提供便捷的随时随地的上网应用,而对无线客户端互相访问需求不高。二层隔离功能开启后,来自无线客户端的广播/多播报文只会向有线网络发送一份,而不会再向其他无线客户端都发送,可以极大地减少空口信道的广播和多播报文流量,从而提高Wi-Fi网络的整体性能和应用感受,同时也为提升AP关联成功率打好基础。
1.3 基于用户的负载均衡
用户自主选择接入造成AP负载不均衡,特别是在会议室、室内体育场馆等用户集中、覆盖密集的区域,开启基于用户的负载功能,可以优化网络资源分布,提升高密覆盖的能力。
1.4 利用竞争窗口和退避算法的改进体改AP接入信道的优先级
AP应该具备根据用户比例,动态调整竞争窗口的大小,以改善多用户并发下的AP性能。
1.5 关闭广播Probe探测功能
客户端支持被动Beacon和主动Probe发现无线网络的功能。所有的无线客户端都会定期发送广播Probe request探测,即使一个无线客户端已经成功接入到Wi-Fi网络中,它也会定期在每一个信道发送两个Probe request报文,第一个为携带链接SSID的Probe,另外一个为广播的Probe(ssid长度为0)。这样在无线用户比较多的网络中,可能会出现一定量的Probe response报文,而且这些报文都是使用低速率进行发送,会消耗一定的空间资源。如果网络条件允许可以考虑关闭广播Probe探测功能以节约空口资源,当用户关联时AP不至于没有足够的资源来完成对station的正常response。
1.6 限制低电平用户接入
对于信号强度比较弱的无线客户端,虽然可以接入到Wi-Fi网络中,但是所能够获取的性能也要比信号强度好的无线客户端差很多。如果这个弱信号的终端还在大量地下载数据,会占用大量信道,给该信道的其它设备留下的空间非常小,最终必然对其他的客户端造成很大的影响。
利用类似的实现可以直接控制拒绝信号强度低于指定门限的无线客户端接入到Wi-Fi网络中,即可以避免低信号客户端本身不好带来的麻烦,也同时减少了这种终端对其他客户端的影响,提高整个Wi-Fi网络的应用效果和关联成功率。
1.7 基于客户端链路状况的流量整形
该特性主要考虑弱信号的终端发送报文通常使用比较低的速率发送,相对于信号强的终端会消耗比较多的信道,在信道资源分配上对信号强的终端不公平,为了达到各个终端在信道占用上尽量公平,可以对弱信号的AP发送报文的比例进行适当的控制。建议结合时间公平调度算法使用,在公平调度的基础上,AC能动态的根据AP发送给无线客户端的报文发送速率情况对客户端的发送控制比例进行计算。
2 认证成功率
运营级的无线宽带网络需要关注与用户体验相关的各项指标,如 Portal 推送成功率、认证成功率等,这些指标是否能够达到要求也是一个优化重点。且该项指标只体现集团后台Portal Server和RADIUS Server等认证服务器的数据认证成功率,通常该值出现异常,涉及的组件包括AC(Portal Client/NAS)、Portal Server、RADIUS Server 3部分,因此,认证成功率的优化主要是数据侧的优化。我们下面主要从AC方面来进行相关分析。
在整个的认证体系中,AC同时作为Portal Client和NAS的角色而存在,其主要作用是通过后台的Daemon来和Portal Server以及RADIUS交互,根据集团规定的规范完成整个的认证。基于运维的相关经验,认证成功率异常时,可从以下的原因入手进行分析和处理:
2.1 AC处于重负载下,没有足够的资源来对相关报文做处理
业务高峰时段,由于过多的用户并发接入或者软件配置参数设置不合理,可能会导致AC的CPU或者RAM被某些进程过度占用,在这种前提下,会因为高优先级任务(如中断、收分组等)长时间占用CPU而使得认证相关模块得不到调度,导致认证业务处理时延变大,而认证功能属于时延敏感业务,从而导致AC与认证服务器之间的交互出现超时导致认证失败率高,目前大部分的认证功率异常跟此原因相关,因此,需要要求厂家对核心的、关键的模块提供静态或者动态的调整方法,确保这些时延敏感的、核心的守护进程总是能够通过快速的较高的优先级调度得到足够的资源。
2.2 链路或者是集团Portal Server/RADIUS异常
通常此类问题可以结合着统一网管的trap告警以及现场的实际测试来进行验证。另外,我们也需要重点监控下行链路的利用情况,因为在下行链路上设计到了CAPWAP或者是CAPWAP DTLS封装,如果配置不当会出现大量用户业务流AC分片、重组或者重传的情况,会对链路的有效资源做过多消耗。同时,也要做好广播域的隔离工作,合理的规划VLAN。在无线网络中,广播/多播报文会使用最低速率发送广播报文,所以当广播报文比较多时,会相对较多地消耗信道空间带宽,从而影响到整个网络性能和应用。特别一个广播报文通常会向VLAN内的所有的AP发送,同时消耗所有AP的资源。
所以在构建Wi-Fi网络的时候,在条件允许的情况下,一定为无线业务创建独立的VLAN,而不要和有线网络使用相同的VLAN,这样既可以避免大量的广播/多播报文的影响,又可以避免不必要的攻击,以节约宝贵的空口和上行资源。
2.3 主备RADIUS
在AC上可以配置主备RADIUS地址,当主用RADIUS出现问题时,AC自动连接备用RADIUS完成认证、计费工作,并同时监测主RADIUS的工作状态,当主RADIUS恢复后,自动切换回主RADIUS,此种方式可一定程度保障认证、计费的可靠性。
3 AP下线率/退服率
导致AP退出服务的可能原因很多,比如AP死机、AC故障、交换机故障、通信故障都可能引起AP退服,通常需要根据收集的信息做进一步的分析。以傲天动联公司设备为例,我们可以按照图1的思路进行分析。
然后我们可以根据收集的信息进行分析,然后根据分析结果有针对性的进行相应的调整。
除了上述分析思路外,在移动现有的瘦AP模式下,AP和AC之间通过CAPWAP隧道进行控制和数据交互,AP和AC侧都有相关的Daemon来建立、维护、拆除隧道,除了keepalive机制的优化外,建议厂商对相关后台进程的优先级做动态调度,确保CAPWAP的守护进程总是能够通过动态的较高的优先级调度得到足够的资源,这可有效的防止AP掉线、退服故障。
图1 AP下线率/退服率
4 节电优化
节电模式通常是被很多网优人员忽视的一个项目。关于STA的节电模式,当前AP通常是维护一个节电缓存队列,该队列是将STA处于节电状态时AP要发送给STA的报文缓存到一个特定的队列中,等待STA变为非节电时将缓存队列中的报文发送到STA。这里有一个队列深度的问题,队列深度就关系到在STA节电时可以缓存的最大分组数及对AP性能的影响,通常节电模式因软件设计原因会对性能和稳定性造成较大的影响。AP需要暂存处于休眠状态的STA的帧,因此暂存空间的大小设计(队列深度)便变得尤为重要。对于AP来说,暂存空间(buffer memory)是一项有限的资源,802.11标准要求AP必须使用某种老化功能,通过判断数据帧的暂存时长,超过某一时限的帧,将被丢弃。标准并没有对具体时限进行定义,但规定了在listen interval时间内,AP不得丢弃暂存数据。因此一般情况下,AP为终端暂存数据的时间至少大于listen interval所指定的时间。而PAD、手机终端设备,由于设备较小,电池续航能力较弱,尤其在使用WLAN网络时,对电量的消耗会加剧,因此许多厂商会将其产品设计成经常性进入休眠模式,这会导致AP因暂存队列的维护和状态机的更新带来额外的不确定性。由于节电模式改变了报文802.11协议的报文传输机制,因此也会带来种种奇怪故障。特别是随着Wi-Fi终端种类增加,由节电模式引起的问题也越来越多。因此在出现网络故障或者性能较低的时候,建议对listen interval或者老化机制进行调整,以便于得到最适合当前环境的值,或者暂存时建议厂商能够根据STA的数量和状态对队列深度进行动态调整,在STA取回时能够设定相关的发送优先级以确保其它重要数据优先发送。
5 总结
通过以上个人运维工作中的实际体验心得,希望能为WLAN网络的维护和优化提供一些有价值的实际经验。同时,个人建议在优化实施阶段必须建立详细而完整的优化日志,这对整理优化的思路,结合统计数据,分析评估每项工作的效果,将会有极大的帮助,应该在优化中予以充分重视。