无线网络大数据运营共享平台初探
2013-02-28沈建军刘名茂安劲伟
沈建军,刘名茂,王 波,安劲伟
(1.中国电信股份有限公司广东研究院 广州510630;2.中国电信股份有限公司广东分公司 广州510081)
1 引言
随着无线网络规模的扩张,无线网络的运行数据呈爆发性增长,运维工作中所使用的应用工具种类也越来越多,但总体上表现出一种相对封闭的态势。每个应用系统厂商都必须独自完成数据采集、数据处理、数据挖掘和应用呈现等所有环节,存在投资重复、数据、运算、存储在内的各种资源的复用度低和结果封闭的问题。另外,随着集约化、精细化运维管理的深入发展,网络分析工作往往要求实现多数据源的关联分析。
无线大数据运营共享平台需要基于开放的平台架构,建立透明的数据采集分拣、共享的数据库和统一的应用接口,实现多数据源的数据共享,多个应用工具可对共享数据源进行深度的数据关联挖掘分析。
2 现有平台
2.1 整体概况
无线网络使用的数据种类众多,主要包括CDMA网络的性能、CDR、信令、PSMM、DT/CQT、室内分布基础台账、Wi-Fi网络性能、用户申告数据等不同种类的数据,同时每天网络产生的数据量都在TB级以上。
在业务飞速发展的今天,要求无线网络运维所依赖的支撑工具能够快速响应用户需求的改变,也就是说,对应用工具的灵活性和易扩展性都提出了很高的要求。目前无线网络运维工作中涉及的数据分析应用工具的整体架构缺乏灵活性,不能满足用户快速部署新应用、新算法的要求。数据的解析、存储和调用在时效性、准确性和回溯性上都无法满足用户的多维度和多并发的查询需求。
2.2 典型优化平台主要问题
优化平台以各地的网络优化、建设、客户投诉处理需求为导向,定义了日常优化、专项优化、用户级优化、3G分析等功能模块,共2 000多个功能点。
该平台的使用,有效解决了部分技术复杂、网元数量繁多、大量数据分析难、优化经验不足、人员缺乏等网络运营问题,有效支撑了网络的建设和运营。但也存在部分问题,现阶段仍难以有效解决,包括如下几个方面。
·架构难以适应创新性的工具开发及应用,不能完全满足日常网络维护优化工作IT支撑需求。
·未集中对外系统提供数据采集及共享接口,导致相关系统直接用私有接口对接设备厂商专业网管。一方面,私有接口无保障,设备厂商专业网管升级后,私有接口数据结构发生变化,上层采集即出现异常;另一方面,多套系统通过私有接口连接网管,加大设备厂商网管及单板压力,直接影响设备网管的稳定运行。
·常用数据及应用涉及性能、话单、参数、邻区等几大类。因涉及的用户多且数据量大,同时操作比较复杂,特别是用户使用海量数据分析查询的时效率比较低下,往往导致功能不可使用。
2.3 大数据共享平台思路及难点
针对典型优化平台存在的问题,可考虑将现有平台数据采集、存储与分析应用模块分离,建设数据采集、数据存储、共享接口模块和专项应用四大模块。建设无线网络大数据运营共享平台,形成整体结构清晰同时有较强扩展性的平台系统,实现对外统一的数据采集及共享,满足各类平台更多的规范功能、分析功能及优化工具快速部署的需求。
无线网络大数据运营共享平台需要基于开放平台架构,采集无线网CDR、PSMM、DT/CQT、网络工作参数及室内分布台账等多种数据源,数据的共享存储和深层次数据挖掘是平台的难点。制定通用的接口规范能够让第三方工具厂商在此基础上开发工具,是平台的最终目标。
图1 无线网络大数据运营共享平台系统架构示意
3 大数据运营共享平台研究
3.1 整体架构
无线网络大数据运营共享平台基于开放的平台架构,整体系统架构可分为采集层、存储层、接口层和应用层4层。每层承担不同的工作职能,并且通过统一的服务,实现各层之间的数据相互流转。数据采集层实现数据采集分拣规范的制定功能,实现无线网的CDR、PSMM、DT/CQT、网络工作参数等数据的采集和解析;数据存储层提供分布式数据共享存储功能,实现不同数据源的云共享存储;接口服务层建立统一的规范接口,用作无线应用工具和数据源之间的数据转换传送接口;应用工具层实现集中的多应用工具呈现。无线网络大数据运营共享平台系统架构如图1所示。
3.2 采集分拣层
无线数据存在种类多、数据量大和解析复杂的特点,包括无线网络侧的无线性能、告警、无线话单、DT/CQT等数据。数据采集分拣层采集无线网络的运行数据后,形成统一、规范的数据格式,由存储层入库并向应用推送订阅数据。
数据采集分拣层对其上层模块或应用来说,屏蔽了底层数据源的差异化,可以针对各种不同的数据源进行采集。当用户需求发生变化,需要增加新的数据源时,只需要新建一个和对端数据源的连接,就能采集到该数据源的相关数据,可扩展性强。其次,负责对采集到的数据进行处理加工,生成统一格式的数据,供数据存储层使用。
3.3 数据存储层
数据存储层存储不同数据源的数据,为接口服务层不同的应用工具和数据分析提供支撑。需要实现海量数据的自动入库,支持对历史数据的查询和计算、对海量数据快速高效的关联分析等。因此,数据存储层内部要基于开放系统的架构和采用基于分布式系统设计,包含数据导入引擎、数据管理引擎、查询缓存引擎、用户接口、权限管理等多个模块,具备开放的接口。数据存储层的功能如图2所示。
图2 数据存储层功能示意
数据存储层存储的数据是海量的,目标将达到PB级。以某省CDMA网络的12年CDR数据为例,每天语音通话记录为2.3亿条,入库后的数据量为0.8 TB;数据通话记录为13.3亿条,入库后的数据量为2.3 TB。
数据存储层应实现如下功能。
·存储入库速度需达到100 Mbit/s以上。查询最小并发SQL指令数量不小于20个,20 000行30个字段,最大完成时间小于5 s。
·基础数据包括原始数据和部分预处理数据,将统一存储一份供所有应用使用,避免重复存储,部分预处理数据可能与应用密切相关,因此需要分库存储。
·系统存储容量可支持PB级,而且支持远程容灾、备份机制。
·系统应不存在单点瓶颈,所有节点应对等均衡,应支持大并发及复杂分析查询,而且其性能不能受到影响。
3.4 接口服务层
接口服务层处于数据存储层与应用层之间。应用访问的所有服务都由接口服务层提供。随着无线网络大数据运营共享平台应用工具的扩展,接口服务层所提供的接口服务也需不断增加。
接口服务层满足接口协议封装要求,封装使用者和服务通信时所使用网络协议的各个方面;数据格式转换要求,对使用者数据格式要求和服务接口所希望的数据格式进行相互转换;接口边界管理要求,不同的使用者可能有不同的安全性要求,因此由服务接口实现这些使用者特定的要求;接口性能要求,保证服务满足它向一组具体使用者所做的服务承诺;接口访问要求,应用层根据接口服务层提供的各种应用业务接口开发用户交互UI界面。
3.5 应用工具层
无线网络大数据运营共享平台的应用工具层,是对共享数据库的数据挖掘及关联分析后提供最终分析结果的部分,是平台的最终呈现系统。
应用工具可共享调用接口服务层的Web Service、API函数等接口,提取存储于共享数据库中的不同数据源,对数据进行挖掘及关联分析,为使用者提供结果的查询和分析。
4 业内其他平台方案对比
目前,各运营商均在其各自的系统和平台上按照分层架构的原则进行搭建。无线网络大数据运营共享平台在IT架构及功能性等方面仍有较鲜明的特点。
4.1 平台性能
无线网络大数据运营共享平台采用的是开放式架构,平台的计算资源利用较合理,资源浪费较小,管理较方便,扩展性也较强。
目前大多数平台的存储采用阵列的方式,而无线网络大数据运营共享平台的存储采用分布式数据存储方式,硬件要求较低,扩展更加灵活。同时具有海量数据存储和处理、高并发及线性扩展能力,提供多种索引技术能力、较强的数据压缩能力、多级别负载均衡能力及完整的数据库状态监控管理工具等。
4.2 平台功能
目前大多数无线网络运行平台的数据源比较单一,而大数据运营共享平台的数据源包括无线网络侧的CDR、PSMM、DT/CQT数据及Ev-Do Stream在内的各种不同数据源,数据源比较丰富,并且具备较强的扩展性。
其次,从功能上来看,目前平台仅提供已定义过的记录数据的查询和订阅功能,而大数据运营共享平台可以提供对已有数据的查询、订阅、二次统计加工服务等多种功能。同时,目前平台的接口服务无法定制,即只能使用平台规范中提供的接口服务,但大数据运营共享平台的接口服务则可以定制,第三方系统新增一个接口服务后,只需要注册到平台中,就可以被其他方所调用。
最后,在目前的平台架构中,分层不是十分彻底,部分上层应用的功能也混在共享层,即无线网络大数据运营共享平台的接口层,而大数据运营共享平台的分层比较彻底,每一层的分工都很明确,各司其职。
5 现场试验环境测试情况
为验证无线网络大数据运营共享平台的平台架构及各层功能,搭建了如图3所示的平台,并在应用工具层配置了室内话务分离工具、网格化质量分析评估工具及可视化测试数据展示工具3个应用工具,对无线网络大数据运营共享平台的架构及功能进行了验证测试。
图3 无线网数据共享平台试验环境功能示意
经过现场验证,3个应用工具均可对共享数据进行查询分析,并集中呈现。通过应用工具对接口和数据库也进行了并发测试,其中100个并发简单和复杂查询在无差错的情况下分别在10 s和100 s以内实现,实际验证了平台开放的平台架构及功能模块的可行性。
6 平台演进探讨
无线网络大数据运营共享平台从整体架构上看,分层合理,通过开放的架构服务,完成各层间的数据流转。
平台目前采用分布式数据库进行搭建,数据按不同的要求进行行和列式存储,一定程度上能够满足大数据存储的要求,但在实际运行中也发现存在一些查询和分析方面的不足。比如查询或分析信令、DT/CQT数据时,发现这些数据都是不固定长度和非关系型的,数据达到一定量时查询效率只能到秒级,还不能达到毫秒级别等。为此,未来的平台有必要引入非关系型数据库,如MongoDB等,通过内存NoSQL冗余原始数据,并采用尽可能多的节点进行并行冗余,彻底解决查询效率低的问题。因此,在分布式数据库的基础上,未来无线网络大数据运营共享平台的数据存储层应该按照双数据库的模式搭建。同时搭建解决关系型数据(如各类指标等)查询和运算问题的关系型数据库和解决大量非结构化数据(如信令等)查询效率问题的非关系型数据库,通过统一的接口服务层向外提供服务。
未来随着应用工具的增多、功能的扩展,平台需增加接口及平台的管理模块,以加强应用工具及平台功能模块的管理。
7 结束语
无线网络大数据运营共享平台探讨了基于开放的平台架构,定义了各层的功能和要求,为此,搭建现场测试环境试验了规范数据格式、存储模型、接口规范、数据采集分拣等平台底层模块的算法,验证了可行性。同时,结合测试中发现的不足,从数据规范、数据库的选用和发展、接口管理和平台功能管理等方面对未来的无线网络大数据运营共享平台提出了新的设想和要求,为尽快搭建一个可运营、多应用工具共享的无线应用工具平台提供参考,将无线网络运营集约化、精细化管理工作持续推进和落实。
1 万晓榆.CDMA移动通信网络优化.北京:人民邮电出版社,2003
2 Kyoung Il Kim.CDMA系统设计与优化.刘晓宇,杜志敏译.北京:人民邮电出版社,2000
3 中国电信无线网优平台二期需求规范(正式稿)V2.0,2009