WLAN网管问题的探讨及建议
2012-01-19杨滨,邢庆文,高卫荣等
1 前言
无线局域网(WLAN)凭借其无线接入技术本身具有的应用灵活、安装速度快、建设周期短等优势,以及地理应用环境的无限制特性,成为3G发展和应用的有效补充。因此,中国移动进行了大规模的WLAN网络建设,使之成为小区尤其是热点地区重要的高速无线数据接入手段。
图1 投诉问题比例
但由于WLAN网络处于建设初期,多种问题引起了用户的投诉。根据中国移动某分公司2010年11月至2011年2月投诉数据,从投诉占比看,排名前6位的投诉是设备故障、用户多导致网络慢、弱覆盖、无覆盖、用户多导致拥塞、客户端问题,占比均超过20%。
由图1可以看出WLAN业务作为移动数据网络的重要补充手段,急需提升用户体验,而网管系统是保障网络质量,监控网络性能的重要手段和依据。但在WLAN网管使用的过程中,系统提供的功能却不能满足用户需求。本文将在介绍网管系统现状的基础上,通过分析网管数据来分析原因,并提出问题解决的建议。
2 WLAN网管系统现状
随着WLAN网络的建设,中国移动制定了相关的WLAN网管规范,并建设了相应的网管系统。中国移动的WLAN网管系统定位于网元和网络管理级的综合网管平台,对网元进行集中式管理,与WLAN设备之间存在直接互通的IP路由。WLAN网络中的AP和AC设备纳入省级综合网管系统进行管理;AS和Portal纳入中国移动总部数据网综合网管系统进行管理。总部网管系统通过部省接口从省级网管实现对AC和AP的管理。WLAN网管组网方式如图2所示。
图2 中国移动WLAN网管系统图
根据规范要求,省级WLAN网管采用SNMP等标准协议进行数据采集,主要实现AP、AC等设备的配置管理、性能管理、告警管理及拓扑管理等功能,其逻辑结构如图3所示。
图3 WLAN网管逻辑结构图
3 WLAN网管存在问题及分析
目前,中国移动通信集团公司已经制定了详细的WLAN网管规范,WLAN设备在入网时必须符合相关的网管规范要求,同时综合网管的开发厂家也按照网管规范的功能要求对WLAN网管进行开发。但在现网的使用过程中,网管系统并不能满足相关人员使用的要求。通过对网络维护人员,市场人员,网管系统开发厂家和WLAN设备厂商的调研,并结合集团的规范和现网中使用的网管系统的功能进行对比,我们发现主要存在以下几个方面的问题。
3.1 数据可用性问题
由于设备自身MIB中仅记录当时的状态(包括用户数和累计数据量),不能提供瞬时流量等信息,因此WLAN网管系统需通过计算统计得到设备流量、性能等数据。但是存在较多不合逻辑或无法关联对应的情况。例如在线用户数以小数表示;当AC在线用户数为0时,关联用户数却很高;AP关联用户数比在线用户数少的情况;业务综合指标报表中在平均在线用户数全部非0的情况下,峰值在线用户数全部为0;关联用户数长期不变或数值过大;整个AC下挂AP流量为0等。
3.2 数据有效性问题
(1)故障类型不规范。目前,不同厂家的设备可提供的故障Trap信息的触发原因和信息内容均不相同,网管系统目前没有指定统一的故障类型,只是将厂家信息简单记录,这就造成多项相同故障信息以不同代码形式分别统计。同时由于没有对厂家设备的统一规定,导致某些报警功能越差的设备,在网管系统中故障数量越少,并不能真正体现实际的设备告警信息。故障类型不规范造成某些重要告警不能细化,例如对于厂家发送的不同原因的AP下线告警,网管系统全部归入WLAN_FITAP_OFFLINE_ERROR告警,而没有区别原因统计;
(2)故障等级的划分有待进一步细化,故障等级报表和故障类别报表中对故障等级采用了不同的标识,故障等级报表中为2级(紧急、次要),故障类别报表中为2级(1、3),并且对于无线模块故障、AP端口down等告警定义为较低级别,但是有些通知类TRAP却定义为较高级别。
3.3 数据一致性问题
(1)不同类型报表对同一种指标的统计数据不一致。例如故障统计报表中各种统计方式得出的结果不一致,如按照故障类型和设备类型分别统计,得到的结果不同;
(2)同一指标在不同报表中定义不同。例如在按照故障类型和设备厂家统计的结果中,故障类型字段不同。
3.4 问题分析
通过比对WLAN设备中原始网管数据和WLAN综合网管数据的分析,我们认为出现以上问题的主要原因有如下3个方面:
(1)基础信息的不准确:WLAN网管系统的原始数据采集于设备的MIB数据库,OID是MIB中网管对象名称,对OID的解释不同造成了网管数据的歧义;
(2)设备不稳定:网管系统在进行数据采集时,遇到AC设备超时无法响应,网管系统无法获知设备的状态,导致信息缺失,而网管系统并没有对数据的校验和分析;
(3)OMC数据不准确:由于WLAN设备不是电信级设备,在OMC中的原始数据本身缺乏准确性,而且部分关键数据未能提供。
4 WLAN网管系统建议
根据上文的分析,目前WLAN网管的主要问题是数据的问题,包括告警数据、性能数据等。由于现有WLAN网管系统是按照电信级网络设备的网管系统要求进行建设,对数据的校验功能较弱,因此本文建议在数据网管的架构中增加对数据质量管理的处理层,如图4所示。
新增的网管数据处理层主要完成对采集数据质量监控服务,对采集数据的及时性、准确性、规范性做严格的监控。采集和数据监控服务分别对采集适配各个服务实例进程以及被管网元提供的网管接口进行监控,确保所有的采集任务能顺利执行、采集的数据能正确适配和转换,采集的数据符合标准的格式定义,同时提供日志和监控辅助界面,协助网络维护人员进行监控和核查,数据处理层的具体功能要求包括如下方面。
图4 网管功能架构图
4.1 数据及时性
根据预先设定的延时门限,数据处理层对数据是否及时生成进行判断,并立即将数据缺失情况用信息发布或短信方式发送到各数据维护责任人,并根据设定的补采机制自动补采。
4.2 数据完整性
数据处理层采用数据流监控的方式进行数据的跟踪,以保障数据的完整性。一个具体的数据完整性的监控过程建议分阶段进行,具体的示意如图5所示。
4.3 数据准确性
数据处理层提供接口,便于网络维护人员定义规则库和基本的信息库。建立WLAN网管数据字典,通过建立网管数据与厂家数据的唯一映射关系,明确各项数据名称和意义,提高网管数据的可用性。同时,系统根据规则库进行数据逻辑检查。如定义某些属性值不应超出某个范围,则系统对数据进行核查时要核查数据是否与规则库内存在的逻辑吻合。
系统通过数据自身的规律及限制条件,验证数据在逻辑上的准确性,如比率数据应小于等于1、非空数据、非负数据等;通过数据间的业务关联关系,验证数据在业务上的准确性。
图5 数据完整性监控过程
4.4 增强数据处理能力
由于WLAN设备的处理能力限制,网管系统应该将大量的计算工作移到后台进行工作,如端口流量的计算,可以在网管系统中实现,而不仅是从AC设备处采集流量指标。建议改进网管系统的数据处理算法,结合数据的业务属性对原始数据进行计算,保证数据的可用性,具体的数据处理要求如图6所示。
同时,增加采集粒度,对于不同的指标数据能够分级的时间粒度进行采集,如对流量数据可以提高采集粒度,对于不关键的指标可以降低采集粒度,满足网管功能的同时,减轻设备的处理负荷。
图6 数据后台处理
5 结束语
由于WLAN设备存在稳定性差,处理能力低等缺点,为实现对3G网络的有效补充,必须通过有效的网管系统进行克服。而WLAN网管系统的开发不应按照以往电信级网络设备的网管系统开发思路进行建设,应充分考虑到WLAN设备的特殊性,在网管系统的开发过程中将原来被动接受数据,呈现数据的模式,更改为数据校验并智能处理的模式,以期对WLAN系统的建设提供更好地支撑。