一种基于大数据分析的网络优化方案
2014-04-14江苏移动通信有限责任公司江宁分公司徐峰
江苏移动通信有限责任公司江宁分公司 徐峰
一种基于大数据分析的网络优化方案
江苏移动通信有限责任公司江宁分公司 徐峰
摘要:在传统网络优化的基础上提出了一种基于大数据的网络优化解决方案,更好地对运营商全业务网络进行规划与优化。
关键词:大数据;网络优化;架构
0 引言
随着运营商全业务发展理念的提出,运营商宽带网络所涵盖的网络内容也日益丰富,各种网络的数据量的不断膨胀,使得对综合大网管处理各项数据的能力及对网络的更好的规划和优化的要求不断提高。传统的网络优化已经渐渐显示出其局限性。表现在以下几点:时效性不强,各种网络性能指标呈现需要几个小时,预警及时性不足,不能先于用户之前发现问题,处理比较被动;集约化程度不高,系统比较分散,且不能灵活满足网络规模快速增长的需求,不能全网统一管理,网络性能分析、周期性报表制作需要多个系统支撑,效率低下;支撑能力弱,对海量数据的深度挖掘效率不高,预处理能力缺乏,缺乏多维度数据的关联分析能力,难以精确定位故障问题,全程全网预警能力缺乏,难以实现网络预见性分析。因此,为满足用户日益增长的质量要求,必须建立一套健全的大数据分析系统,能够对现网的各类网络指标进行快速的统计分析,先于用户发现问题、预先提出网络优化建议。
1 大数据网络优化特性
1)从结构数据转向混合数据。传统的网优数据需要将信令数据等转化为结构数据,大数据网优可以直接收集各种非结构数据而无需转换。大数据网优数据采集方式见图1。
2)从离线统计走向实时呈现。大数据基于流式数据处理,可以做到实时呈现,增加时效性。
3)从单系统走向多系统混采。传统网优系统一般是基于CDT(呼叫详细跟踪)或者信令分析的网优工具,而大数据网优可以实现各领域数据全面采集。
4)从结果数据转向动态数据。大数据网优将动态采集网络变化的数据,增加网络管理有效性。
2 全业务大数据网络优化整体架构
大数据网络优化由数据源、大数据网优平台、业务应用层和管理4部分组成。见图2。
2.1 数据源采集
大数据网络优化系统要对全网所有的有效数据进行快速采集,因此对于有效数据的定义、数据的合理预处理、数据的入库汇总尤为重要。
在有效数据定义方面,大数据网络优化系统采用多模块同步采集,采集数据包括网络数据、位置数据、信令数据、网管数据、用户数据和各种外部数据等,其中CDT、MR、信令数据定义为大数据的数据源,用户数据、网管数据定义为传统的数据。结构化数据与半结构化数据并行处理,这样大大提高了数据的采集能力。
在数据的预处理方面,在数据缓存短期保留原始文件和数据,期间不用将数据的格式和结构做转换。后期将基础数据中各资源数据归一化处理,数据按照最细粒度存储。数据模型是按照传统的数据库来处理,便于数据长期存储。
在数据入库汇总方面,将数据仓库层分为分析汇总数据和应用汇总数据。其中分析汇总数据中将基础数据进行轻度分析汇总,这样能够提高性能,防止大量的细节数据访问,数据沉淀,粒度较细的数据可以保存更长时间。而应用汇总数据则是以多种方式存放高度汇总数据,而且能够直接支持前端分析应用。
总之,数据源采集模块,可以实现将基础数据层中大数据计算结果和MPP(大规模并行处理)传统数据处理结果直接汇总到深度分析库中,进行数据的深度分析。
2.2 数据深度分析
大数据网络优化系统是基于Hadoop(分布式数据分析平台)的深度优化。其中的关键技术是MapReduce(一种编程模型)过程、分布式数据库(Hbase)、分布式文件系统(HDFS)、引入MPP和Hadoop与MPP分布式数据库混搭架构。
1)优化MapReduce过程。该过程增加data locality(数据局部性)特性,让多次迭代的MapReduce过程减少数据传递,数据本地写,提高访问速度;同时增加控制模块,定义迭代及条件退出过程,实现过程完全自动化;在输出模块建立缓存及索引,加速数据处理速度,MapReduce任务调度优化,性能提升70%。而且自研14类72种适合于Hadoop处理的并行数据分析挖掘算法单元,已调度框架优化,使用task预调度减少空闲slot时间,提高异常节点分析及可维护性提升。
2)采用分布式数据库Hbase。Hbase可以建在大量低端serve的集群上,基于开放平台与操作体系。与传统数据库垂直扩展的计算能力/行存储不相同的是,分布式数据库采取的是横向扩展的计算能力/列存储,具有大规模的并行计算,无限的处理性能。所以不论从可靠、敏捷、性能、成本等方面,分布式数据库都有很好的表现力,可在大规模集群中实现负载均衡。
3)采用Hadoop与MPP分布式数据库混搭架构。将不同种类的数据存储在Hadoop主数据仓库和MPP分布式数据仓库中,并通过一体化的管控平台进行调度,可实现数据的灵活存储及共享,其结构见图3。
4)实现快速的实时流处理。为实现数据的快速处理,系统采用了基于非关系型key-value数据库的分布式缓存和持久化存储系统。dcache高速缓存可以有效地缓解大量数据请求对系统的冲击,实现实时流处理。
预处理模块分为字段处理和事件处理两种类型,各种处理可以前后任意拼接组合。预处理模块从消息队列中获取事件消息,然后依据预处理规则完成对消息的补偿、剔除和组合等处理,然后将消息放入队列中等待处理。预处理将消息转成对象以便内部处理,并将基础数据进行分解,分拆成需要统计分析的元数据。预处理模块同时完成时间窗的打点操作,将时间信号记录到事件消息中。
2.3 业务应用层输出
业务应用可以有4大类的应用:
1)网络优化。先于客户投诉发现问题,挖掘出需要优化的网元。结合VIP用户群的业务量、业务类型、特殊位置等为价值用户提供重点保障。在特定区域内的不同网络进行流量分析、对比分析,流量预测。多网均衡、分流提供支撑。
2)实时监测。实现在线实时的监测网络的运行质量。
3)客户感知。实现客户感知从全网、区域、单客户的层层钻取,在网络侧对各接口的信令分析、定义与用户感知密切相关的指标体系,将网络现状进行点播式呈现,准确反映网络存在的具体问题。
4)客户投诉。实现简单、快速、准确、完整的投诉处理。从根据网络信令数据信息的变化和各个设备、网络的运行情况可以知道用户的实际体验情况,可以处理用户的问题,可以通过分析网络运行的情况、通过整个信令的整个流程来逐步分析网络服务差的原因。
3 总结
大数据网络优化,利用功能强大的数据采集及分析系统,充分挖掘数据的潜在价值,大幅提升网络优化的效率和效果。轻松实现,运筹帷幄,能够把握整个全业务大网络的“过去、现在和未来”。◆