基于多维数据的移动通信网络运行信息透视技术研究
2021-10-12李清亮
[李清亮]
1 背景
随着移动通信网络制式从2G、3G 到4G,再到现在的5G,移动通信技术的更新换代与移动互联网用户及终端多样化需求的剧增相互影响,网络的业务承载能力以及网络平台服务能力的要求更是逐步攀升。因此,网络运行数据的维度、体量以及实时性要求也随之迫切,而来自网络运行健康状态、用户测量反馈、系统参数配置优化等方面的监测、透视能力也亟需解决。在过去网络运行数据体量还比较小的2G、3G 时代,数据处理思路经历下载、入库、解压、运算、输出等单步骤进行;但到了4G 网络时,运行数据量则每小时以T 级产生,已经开始存在数据下载速度慢、处理效率低容易造成数据丢失、时效性差等问题;到5G 时代数据量更是以P 级的体量产生,且5G 系统部署将控制面与业务面分离、空口技术更新升级,现有技术手段已经不能完全满足信息的提取分析及运维优化需求,由于系统运行数据要求更加完整、准确和及时,那么必须打破传统技术手段,从数据采集源头到问题预警找到新的解决办法。
2 总体研究路线
为制定基于多维数据的移动通信网络运行信息透视方案,本项目总体研究路线必须包括数据实时采集解析技术、网络运行信息深度检测技术、智能监控模型算法三个方面。
详细研究路线图如图1 所示。
图1 基于多维大数据的移动通信网络运行信息透视技术研究路线
其中数据实时采集解析技术的主要内容是基于文件索引数据库技术、持续轮询技术、智能最优调度算法、健康度检测算法、时间多维汇聚梯度算法;网络运行信息深度检测技术的主要内容是对海量信息进行升维和降维的技术;智能监控模型算法的主要内容是梯度扩散的KNN 监控算法模型的设计。
3 拟解决的关键问题
(1)解决海量数据下载时延过长的技术瓶颈
5G 网络用户测量数据、运维数据、配置数据以及设备种类多等,后台生成海量的大数据需要采集下载,数据处理量比以往2G、3G、4G 网络增加成千上万倍,导致数据下载时延过长,起码多1~2 天,因此必须引入新的技术和方法才能有效解决。
(2)提高海量数据解析结果的完整性和准确性
5G 网络业务特性、场景化应用等产生的海量信息对大数据采集和解析的完整性、准确性和一致性的要求极高,数据分析才能可靠和满足需求。
(3)解决海量数据无法实时汇聚和无法高效运行的技术难题
网络服务存储的数据信息量庞大,按日常统计分析需求,要进行分钟、小时、天、周、月粒度等多维度的准实时汇总,数据库存在信息量巨大导致无法高效运行的技术瓶颈。
(4)深度检测与智能呈现网络运行现状和网络服务质量
优化现有数据检测能力,深度检测与智能呈现网络运行现状和网络服务质量。
(5)建立监控对象业务算法模型,智能动态预警网络问题
建立监控对象业务模型,以用户数据、测量数据、网络指标、网络配置等数据为基础实现智能动态预警网络问题。
4 主要研究成果及应用
(1)基于文件索引数据库技术和持续轮询技术
基于文件索引数据库技术和持续轮询技术实现文件准实时同步,解决海量数据下载时延过长的技术瓶颈。
传统数据的下载方式是等待数据完全生成完毕,然后批量下载文件到本地,造成下载延迟严重,且下载过程长时间占用服务器带宽。针对时延和带宽问题,加入本地文件索引数据库、持续轮询方式对生成的文件进行循环的不重复下载,实现了准实时同步,可以解决海量数据下载时间延时过长的技术难题。
(2)智能最优调度算法和健康度检测算法
应用智能最优调度算法和健康度检测算法,提高海量数据解析结果的完整性和准确性。
5G 网络业务特性、场景化应用等产生的海量信息对大数据采集和解析的完整性、准确性和一致性的要求极高,数据分析才能可靠和满足需求。利用分布式的master-slaver模型结合FTP 的长时间执行的特点,设计任务生成器和任务执行器,并通过被动的轮询方式实现生成器和执行器中的任务信息同步,在任务的调度中加入基于下载器的任务数量的均衡算法,实现任务生成器与任务执行器最优调度,并能稳定执行计算。
在master-slaver 模型的文件下载任务系统中,由于是分布式的多机器执行,且执行的任务是长时的,故容易因为网络的不稳定性而造成任务生成器与任务执行器之间的任务信息不同步。针对长时任务同步问题,设计了服务器的健康度统计算法,通过对服务器的健康度统计,任务生成器智能的判断任务执行器是否具备任务执行能力而优化任务的发布,有效的实现网络容错,提高数据准确性。
(3)时间多维汇聚梯度算法
基于时间多维汇聚梯度算法,解决海量数据无法实时汇聚和无法高效运行的技术难题。
网络服务存储的数据信息量庞大,按日常统计分析需求,要进行分钟、小时、天、周、月粒度等多维度的准实时汇总,数据库存在信息量巨大导致无法高效运行的技术瓶颈。
为了减少数据库运行压力并且满足多种时间粒度的准实时汇总,设计基于时间多维汇聚梯队算法,对目标指标进行分解得到多个中间过程,使大时间粒度的指标计算从大量基础数据汇总成可通过小数据量的多个小时间粒度的中间过程数据汇聚,解决数据库的运算压力。
(4)对海量信息进行升维和降维
结合SVD降维、高维映射、随机森林等各种算法精髓,对海量信息利用升维和降维的技术手段,实现同一数据多维度分析智能展示和过滤数据倾斜的检测能力,深度检测与智能呈现网络运行现状和网络服务质量。
例如:我们很难将随机分布在桌面的红色和蓝色的点按区域区分出来,但是通过高维映射的手段,我们设法将所有的点映射到三维空间,这样我们可以设法找到一个超平面将红色和蓝色的点按区域完美区分出来,如图2 所示。我们将这种思路应用到海量的网络运行产生的数据分析中,就能够突破以往数据分析的极限,实现同一数据多维度分析智能展示和过滤数据倾斜的检测能力,深度检测与智能呈现网络运行现状和网络服务质量。
图2 基于高维映射将红点和蓝点按区域完美区分示意图
(5)梯度扩散的KNN 监控算法模型
建立监控对象业务模型,以用户数据、测量数据、网络指标、网络配置等数据的众数为中心生成梯度扩散的KNN 监控算法模型,实现智能动态预警网络问题。
例如:如图3 所示,通过长期历史数据的挖掘,我们可以按15 分钟粒度建立监控对象的业务模型。
图3 基于15 分钟粒度建立监控对象的业务模型
然后通过实时采集解析该对象15 分钟粒度的指标,与该对象的业务模型进行对比,如图4 所示,基于时间梯度扩散的某对象业务实时监控对比图所示,可以发现从3:30:00 开始,该网元指标呈现明显波动,系统可以实时做出预警。
图4 基于时间梯度扩散的某对象业务实时监控对比图
(6)系统平台研制
在对多维数据准确、完整、实时的采集、解析、入库方案研究的基础上,再通过深度学习的方法建立网络话务模型。在此基础上,通过系统开发可以实现基于多维大数据的移动通信网络运行信息透视系统,移动通信网络运行信息透视系统逻辑架构图如图5 所示。
图5 移动通信网络运行信息透视系统逻辑架构图
移动通信网络运行信息透视系统物理架构图如图6所示。
图6 移动通信网络运行信息透视系统物理架构图
移动通信网络运行信息透视系统选择成熟的开源软件作为基础,文件系统、数据库均为分布式架构;
CephFS分布式文件系统提供多机器的数据共享能力,更方便的实现数据采集器、数据解析器、数据入库程序的数据共享。
采集器采用微服务技术实现对采集器、数据解析器、数据入库程序的分布式部署,具备消息队列、注册中心、feign 等辅助功能。
zabbix 实现对集群的可视化监控、数据采集器、数据解析器采用python 语言自主研发,支持分布式、多线程,能稳定并发执行计算。
5 结束语
本文研究采用大数据、智能算法等新一代信息技术,对网络运行信息透视技术进行新的研究与应用。研究成果可以突破现有系统平台发展瓶颈,以低成本,快速、直观地发现网络的问题,把网络优化水平提升到更高的层次,打造服务新业态,促进产业升级转型。