WLAN远程故障诊断方法的研究与应用
2012-01-19董宁
董宁
(中国移动通信集团广东有限公司,广州 510623)
1 背景
无线局域网(WLAN)是计算机网络与无线通信技术相结合的产物,它使用无线信道来接入网络,为通信的移动化、个人化和多媒体应用提供了潜在的手段,并成为宽带无线接入的有效途径之一。其中,基于802.11a/b/g共享资源的终端产品发展尤为迅速。从基于WLAN网络提供数据业务的网卡,手机直到INTEL的“迅驰”技术,使WLAN成为笔记本的基本配置。在如此多样化的产品中,保证所有设备网内的互通和同频段不同系统的设备正常工作就显得尤为重要。
WLAN技术和设备的迅速普及,为基于3G宽带之外,提供了一种更好的无线宽带网络技术。从2002年开始,国内各个运营商开始踊跃的投身到WLAN网络的覆盖建设中,截至到2011年,根据 IDG统计,中国运营商建设的WLAN AP接入点,已经超过250万个。其中广东移动的WLAN网络覆盖建设,更是走在全国的前列,基本覆盖了省内各个主要城市的人流热点地区。
随着我省WLAN建设的全面铺开,预计到2012年底,我省WLAN接入AP将超过30万个,覆盖包括珠三角在内的10个以上的重点城市,其中重要城市的AP数,将超过3万个。
WLAN的技术标准和体系,在设计之初,主要是为用户解决短距离的局域网无线通信的问题,是一个企业级的技术标准,是一个用户局部网络的标准。目前电信运营商将之用于通信网络,这里面存在技术矛盾。
主要有几个方面:
(1)在技术标准制定和无线频谱等的使用上,存在诸多的缺陷;
(2)用户的移动性和投诉定位之间的矛盾。处理用户故障困难,故障诊断成本高;
(3)不断增长的带宽需求和网络架构之间的矛盾;
(4)开放性和网络安全之间的矛盾。
以上的矛盾,造成了在网络管理和实际维护工作中的困难,维护成本较高。继续需要对管理模式、管理手段、管理技术平台进行升级和开发,才能满足需要。
2 研究与应用
2.1 电信级WLAN运营网络现状和运营商中存在的问题
问题1: 开放频段和运营商网络需求之间的矛盾。WLAN使用的是2.4G/5.8GHz的工业频段,为公开频段,存在着大量工作在此频段范围相同的工业设备。传统的固定频段的规范方式,不适用于这个频段的频点使用规划。在覆盖区域,往往还可能存在其他运营商的AP设备,或用户的无线路由器等设备,网络频谱情况复杂。在很多热点覆盖区域,由于使用用户多,需要增加AP密度,这样又导致了AP之间的相互干扰,成为网络运营中的主要问题。在这样的复杂网络环境中,普通的WLAN设备缺乏主动应对和适应调整的能力。
问题2: 在一个用户实际应用环境中,一旦用户连接出现问题,包括连接中断、网络质量恶化、体验不佳等,必然引发用户投诉,此时,按照目前的维护手段,远程诊断困难,派人到现场进行诊断和处理,不仅仅时间成本高,也往往错过了解决投诉的最好时机。因此,需要对网络进行灵活的空中接口定位和故障诊断。
问题3: 运营网络的开放性和网络安全之间的矛盾。运营商普遍采用无验证WLAN接入,再使用Web二次鉴权的方式来实现认证。存在着AC/AP直接暴露在黑客攻击范围内的问题,一个简单的DDoS攻击,可导致AC/AP处理性能的急剧下降,存在很大的网络安全隐患。另外采用的无验证WLAN接入方式,导致用户在正常使用过程中,通过网络传输的敏感信息,可以在空中被全部截获,存在很大的安全问题,长期运营下去,必然导致用户的强烈不信任感。
2.2 解决方案的提出
为解决以上存在的问题,有效的提升电信级WLAN网络的质量和运营水平,降低故障处理成本,我们需要在网络规划、网络优化工具、网络诊断工具等方面,进行一系列的改进,通过不断的数据积累和分析,不断的提高。
具体步骤如下:
(1)开发智能化探针,广泛的部署在需要诊断的网络范围内,定期的搜集数据,一旦需要,可以通过网管平台进行远程的故障诊断和网络测试,进行远程故障定位;
(2)根据智能化探针的数据,对网络的频段规划、冲突处理、远程测试结果等,得出一系列的处理结果和处理数据;
(3)在以上工作的基础上,不断的建立在不同应用环境下的网络建设和维护模型。比如用户高密集区、用户低密集区、机场、学校、工业区、写字楼区等地。
2.3 解决方案的目标
通过在市面上已有的开放式AP (以下称为SMART AP)的基础上,开发进一步的嵌入式软件,将SMART AP升级为智能WLAN探针。同时开发集中管理式WLAN网管平台软件模块,组成一个WLAN的远程终端系统。用于定期对网络进行扫描测试监控、远程故障分析、远程WLAN端到端测试等功能。
维护工作的改进目标:借助探针的部署和网管平台的运作,逐步的实现维护工作从被动维护向主动维护转变,从亡羊补牢到未雨绸缪。在实际工作中,可以通过对目标地区的反复测试和数据优化,进一步的提升用户体验,降低故障处理的时间和成本,合理的规划频段,挖掘现有网络的潜力,支持更多的用户。
通过网络探针和网管平台的运作,不断的积累相关的运营数据,对网络架构、网络布局,进行持续的不断改进。
针对在网络中运营的各种用户环境,通过数据的分析和处理。得出在不同场景下的网络优化和建设模型。
2.4 解决方案的研究
2.4.1 方案关键技术
本文主要在以下几个技术基础上开展研究:SMART AP技术、SMART RF技术、电信级的运营管理和监控技术、空中抓分组技术以及端到端的网络测试能力。
SMART AP技术是一个智能化的终端,在网络平台的控制下,可以实时的切换为以上任何一个工作模式,有AP(FAT AP、FIT AP)模式、Wi-Fi-Client模式、VPNRoute、Wi-Fi-Sniffer、PC/Mobile模拟终端。如图1所示。
图1 SMART AP技术
SMART RF技术(智能射频处理技术)是在无线技术领域的一个事实上工业标准,目前已经有越来越多的芯片厂商支持这个体系。在WLAN领域的应用,SMART RF主要有以下几个功能:全软件化的无线电控制、无线自适应技术、自动功率控制和设定、自动网络信道调整、自动优化网络服务能力、邻居自动发现、网络空洞自动修补等功能,是未来的无线电控制技术。本项目涉及的设备,全部支持SMART RF技术,可以实现上述的各项功能,并可以在平台的控制下,针对环境和实际情况,进行进一步的调整和优化。
2.4.2 方案达成电信级的介绍
本文开发的网络探针, 除实现上述的SMART AP技术、SMART RF技术外,还需实现电信级的运营管理和监控技术、空中抓分组技术以及端到端的网络测试能力。方法如下:
2.4.2.1 解决AP之间的相互干扰的研究思路和方法
依照国标GB 15629.11、GB 15629.1102和IEEE 802.11bWi-Fi标准,WLAN的无线设备工作频段为:2.4~2.4835GHz。工作频率带宽为83.5MHz,划分为14个子频道,每个子频道带宽为22MHz 。各个频道的分配情况如图2所示。
图2 WLAN可用信道
多个频道同时工作的情况下,为保证频道之间不相互干扰,要求两个频道的中心频率间隔不能低于25MHz。因此从图2可以看出,在一个蜂窝区内,直序扩频技术最多可以提供3个不重叠的频道同时工作,提供33Mbit/s的吞吐量。所以在同一场所内,相同频率或重叠频道下的AP和用户会互相干扰。
因此,我们要对功率频道进行优化,其主要目的就是要尽量消除同频干扰,提供系统容量,主要思路和方法是对AP频点、功率调整优化。
2.4.2.2 解决网络安全问题的研究思路和方法
安全问题已经成了WLAN发展的重中之重,雅典奥运组委会就因为WLAN的安全存在隐患而放弃了在2004年雅典奥运会的各个赛场布置WLAN网络。但由于针对WLAN安全的技术不断更新,如果能够应用最先进的安全技术,同时进行合理的配置,那么就可以解决这个棘手的问题。
本文根据网络安全方面的知识,运用了多种手段:
(1)WEP加密,支持64bit和128bit;
(2)IEEE 802.11i,IEEE推出的WLAN最新安全标准;
(3)多SSID,通过SSID来限制用户的访问权限;
(4)MAX过滤、IP过滤;
(5)同时支持多种认证方式来检测用户身份;
(6)WAPI(我国提出的WLAN安全国家标准)。
2.5 解决方案的应用
本文开发的网络探针,是在SMART AP、SMART RF的技术上,通过对内置嵌入式软件和平台软件的定制化开发,形成符合中国移动网络需要的智能网络探针。具体如下:
(1)智能WLAN网络探针,客户可模拟客户端、模拟AP、侦听网络情况,分析频谱和信号源等;
(2)部署对应的网管模块,构建WLAN探针管理平台;
(3)通过探针的数据的运用,优化热点地区的射频环境和规划;
(4)可实现远程故障排查、取证、定期测试等。
系统平台整体构建图如图3所示。
图3 WLAN远程故障诊断系统架构
系统实现的功能如下:
(1)无线网络环境扫描。通过远程控制,可以得到探针周围无线网络环境的情况,包括AP(含其他运营商、用户无线路由器),终端情况(手机/PC),频段使用情况、AP的信号强度等,可以对环境的情况,有一个清晰的了解;
(2)测试认证登录过程。通过远程控制,控制探针进行远程登录,或者登录过程的相关信息,测试WLAN接入系统的时延,故障诊断等;
(3)远程打开网页。测试网络质量情况;
(4)下载测试。远程控制探针进行网络测试,测试速度等指标;
(5)定时处理模块,可以下达测试任务,探针定期自动完成测试,并汇报结果给平台;
(6)数据分析和处理模块。可以通过多个点不断的测试和信息收集,对信息进行各个维度的分析和比对,形成相关的报告;
(7)系统巡检功能。定期分发测试任务给远程探针,并要求探针汇报测试情况,对异常情况,发出告警(支持声/光);
(8)一系列的开放式接口,系统具有良好的再开发能力和扩展能力。
2.6 方案创新性
目前在业界,将WLAN用于大规模的电信级组网的情况很少见,也鲜有厂家从事基于大规模WLAN网络,在以下方面进行过深入探讨和研究:改善无线交互分析、增强端到端业务测试的效率来寻求提升故障投诉处理的方法。
本文的研究成果,实现了上述需求,对运营商的WLAN网络维护有着很重要的意义:
(1)科学的运用和科学的管理。本文科学地运用SMART RF技术、SMART AP 产品,采用独有数据模型,重新的定义了以上设备和技术的运用。对探针收集的数据,进行大量的自动化和智能化的分析和处理,大大的提高成果的应用效能;
(2)拓展现有网管平台的管理功能。本项目的网络平台模块,架构在已有的网管平台的基础上,按照当前网管平台的规范和接口,进行开发,有效的利用了现有平台的能力和功能,并且可以做到新的系统和现有系统无缝整合;
(3)开放接口:方便后续的进一步开发和整合。本文的系统和终端探针在开发时,全部严格的遵循开放的协议和接口标准、合作单位制定相关的技术标准和接口,并作为企业内部的控制标准,保证了后续开发的可能性和一致性;
(4)有效的整合了目前WLAN领域的前沿技术。本项目里面用到的技术,许多是属于WLAN继续领域的前沿技术,比如SMART RF、SMART AP,网管平台组网等,通过有效的整合,创新的运用,组合成本文定义的产品输出。
3 应用结果
3.1 案例1:在某商业楼宇部署SMART AP,测试和分析数据情况
在某一个商业楼宇,部署了一个SMART AP探针,周围有CMCC信号,但是较弱,客户反映上网不稳定,速度不顺畅。
安装好设备后,在平台添加设备参数后,探针即可顺利的和平台连接。网管人员在公司办公室打开软件并登录,即看到已经在线的该探针,点击设备可在地图上显示出设备在线的图标。中间主控台显示设备的相关信息,切换到“WLAN扫描”,点击“扫描”,可以看到如图的周围的无线信号的情况。
如图4所示,附近共有8个SSID,其中有一个是电脑产生的虚假AP。诱导用户做点对点的连接。可看到真实的CMCC的信号处在6频道,信号强度只有13%,属于状态不佳。点击查看一下无线环境(如图5所示),发现只有频道1、频道6、频道11有信号,其它频道基本都是空白。问题初步判定为,CMCC所在的频道,由于各个SSID使用比较集中,加上有一个企业的AP功率较强,各个SSID共用一个频点进行传输,因此性能和带宽受到限制而导致不确定和信号较弱。
优化建议:在这个具体位置看来,1频道的现场接收功率较弱,可以调整AP到1频点上,以便减少信道干扰。
安排人员到现场调整后,测试前后的网络反应和带宽的变化情况如表1所示。
表1 测试前后的网络反应和带宽的变化情况
经验总结:在部署AP的过程中,需要关注AP使用的频点和周围环境,建议通过扫描周围环境后,避开和其它AP或者无线设备共用的频点。如果AP支持自动改变频段功能,应该开启,让AP可以根据周围环境的变化,自动调整频点。
3.2 案例2:处理用户投诉,分析并解决问题
接到从10086转来投诉,反映在某个热点地区,手机使用WLAN无法上网。
图4 现场WLAN信号
从平台客户端,从地图上定位客户反映故障的地点,发现AP,同时发现有探针部署在AP周围。远程连接探针,扫描周围环境,可以准确的看到AP发送出来的SSID,信号质量为47%,信噪比为32。初步判断AP运行正常,无线环境优越。使用SMART AP模拟客户端登录CMCC,处理时长在3500ms内。一切正常。后回复客户,后来确定是客户的手机配置的问题,导致无法连接CMCC。
图5 现场无线环境详示
本故障处理,实现了在远端,可以实现端到端的测试,就像在现场处理故障一样。节约了维护上的人工成本。
按保守估计,本研究全省推广应用以后,WLAN业务可以缩短故障处理时长70%上下,由此带来的该业务的客户满意度,可以提高30%以上。
按目前全省每月平均收到600单WLAN投诉(数据来源于客服系统),每单投诉网络排障时长需0.125人天(3h)来算,每年可节省12×600×0.125×70%=630人天。
4 小结及展望
(1)通过远程WLAN探针,可以方便的解决远程的管理和问题,通过系统主动的扫描和自动化测试处理,可以及时的发现在网络中存在的故障AP,及时的通知维护人员进行处理;
(2)模拟WLAN AP出现故障的情形,网管操作人员通过远程,直接的调用附近的AP,对现场进行测试,迅速的定位故障点;
(3)本次采用的SMART AP是一个功能强大的载体,可以在未来,继续开发更多的功能;
(4)通过系统的运作,可以进一步的积累处理故障的经验,同时在未来,可以通过二期的升级,把系统在运作的过程中的经验,进一步的转化为系统的自动化处理逻辑,进一步的提高业务的维护成本;
(5)继续完善远程故障系统的各项功能,并部署到实际的应用环境中。积累更多的业务数据,通过对数据的挖掘和运算,形成WLAN优化的经验模型。