大数据在移动通信中的应用研究
2018-06-27解文博
解文博
摘 要:文章研究了大数据在移动通信中的应用。移动通信网络中包含了海量的、异构化的数据,大数据技术为移动通信服务的数据存储与数据分析提供了有效的技术基础,为海量数据的存储、查询、挖掘、分析等提供了更为科学、准确的技术方案。所获得的结果也更为准确、真实,更具有实时性,价值也更高。
关键词:大数据;移动通信;数据存储;数据分析;数据挖掘
大数据是一种超越了典型数据库软件采集、存储、分析与管理等能力的大型数据集,具有数据体量大、数据类型多、处理速度快、数据价值密度低等特点。移动通信经过多年发展,累积了大量数据,包括了用户基本数据,财务数据和业务使用情况,终端数据,网络信令数据与DPI数据,业务数据,产品数据及线上和线下获取的外部数据等各种结构化、半结构化和非结构化数据。如何发挥这些数据在移动通信中的价值,需要充分发挥大数据存储、分析、管理等技术的价值[l]。
1 大数据技术
大数据分析技术则是大数据核心技术,是对每个数据进行分析,在大量数据中分析各个数据规律的技术,是将数据库管理与人工智能技术等相结合提取数据集的一种技术。该技术包括数据挖掘、人工智能等机器学习技术、模式识别、神经元网络、回归计算、预测模型、时间序列分析、集成学习、关联规则挖掘与学习、统计分析等技术。
2 大数据存储技术在移动通信中的应用
2.1 Hadoop架构
Hadoop技术是基于Java语言而构建的一个软件框架,大量计算机构成一个集群,对海量数据进行分布式计算,能够在应用程序中支撑上千个节点达PB级别的海量数据。在应用Hadoop技术创建数据库时,可根据数据流向合理设计分层,将其分为数据源层、逻辑计算层、数据存储层、数据查询层及应用层。数据源层可以利用各种数据传输组件抽取、转换并装载各类不同结构类型的数据,如位置信息、计费信息、网络信息、客户信息及基站参数等,这些数据会以Oracle,MySQL,MS SQL Server以用系统日志等异构数据。逻辑计算层则负责对海量数据完成MapReduce計算,每个节点先就近抽取本地存储的各类数据,并进行计算处理,处理结束后,再将合并、排列并分发数据到各个Reduce节点,可以避免同时传输海量数据,造成数据传输拥堵。数据存储层需要选择性能较高、能够满足并发需求的数据库软件,以便于为前端应用层提供流畅的实时查询服务。因此,可采用底层存储引擎与分布式数据库集群相结合的方式建立专门的数据存储层,如利用HBase技术构建底层存储引擎,建立NoSQL数据库集群。数据查询层是一个中间层,将前端应用层与后端存储层隔离,对存储层中的异构数据模块进行屏蔽,为前端应用层提供统一化的接口,对存储中的数据进行JOIN及UNION计算,使查询数据显示能够同构化。在该架构中,数据采集ETL是一个关键环节,需要承担对数据库外数据采集的各种预处理工作,是该架构组件下对并行数据进行处理的主要工具,需要完成源接口文件的解压、小文件的聚合、大文件的拆分、目标格式文件的压缩、清洗、转换与加载等[2]。
2.2 Hadoop+MPP架构
MPP架构是一种由多个松耦合处理单元构成的大规模并行式的处理系统,该架构更侧重于对结构化数据的存储与计算,所获得的数据价值密度较Hadoop架构高,周期长,以GH信令数据的收敛计算为典型案例。Hadoop+MPP架构融合了两种架构的优势,数据主仓库使用MPP架构,数据库外预处理则使用Hadoop架构,Hadoop完成对数据的清洗、存储、加载、轻度汇总及历史数据的归档等任务,MPP则可对数据进行深度汇总与关联处理。利用分布式云存储ETL技术将B域、0域、M域及互联网类等各种海量数据接入到数据库中,再利用该技术组建的库集群具备的可扩展性优势,将海量数据进行并行接入,存储层建立网络爬虫集群,可以对互联网内容进行接入,并在该层建立流数据采集组件,以实现信令数据的实时接入功能。数据仓库则可以使用Oracle数据库技术,MPP库接入的数据为异构类数据,根据业务要求决定实际存储量,对数据进行深度分析与挖掘,可以实现即时查询与多维分析任务,并完成非固定模型的运算与复杂模型运算;Hadoop集群则可以汇总海量的原始清单,并组建计算中心和查询并汇总详单,完成简单数据的清洗、汇总、详单数据的整合及数据的抽取等任务。
3 大数据分析技术
3.1 数据价值发现
大数据技术为移动通信数据价值的发现提供了极为便利的技术,利用大数据分析技术,对各种异构数据进行分析与挖掘,获取移动运营商各项业务对于企业与个人用户产生的价值与影响的相关数据,并用以指导旧业务的完善与新业务的开展。数据分析包含数据可视化、提取统计分析与数据挖掘3个主要步骤。运营商将各类海量数据资源通过分析,将其封装为各项服务数据,使移动通信向信息服务的转型成为可能。数据分析主要包括区域价值与客户价值两类价值研究。区域价值的目的在于推动业务运营的精细化,提高网络管理的智能化水平,为企业发展战略提供有效的分析。客户价值的研究目的则在于实现精准化营销,根据客户的网络特征与性能指标预测提供针对性的服务,不断提高客户拥有量,为客户提供更符合自身需求的业务体验。
3.2 数据挖掘技术的应用
KPI在通信网络中往往以时间序列显示,传统的预测方法由于数据量选择范围较小、实时性差,导致结果准确率不足,通信网络数据量的增加也使传统算法的局限性与准确性不断降低。大数据技术的出现,使KPI预测算法得到了有效的改进。基于大数据技术改进KPI预测方法,挖掘隐藏的海量数据背后的价值更高的有效信息,能够提高预测准确率。
(1)要预测趋势分量T(t),将每段无线网络的起始话务量设为Xk,斜率设为Slopek,并将斜率拟合成一条直线,每一条拟合线之间保持首尾连续,采用无线网络话务量的所有数据为训练样本,并建模进行预测分析,其公式为:
其中,KT+i代表补偿后的得出的改善斜率,当最近的连续Ⅳ个斜率均不低于0时,第N+l个的斜率也不应低于0;y是一个可调节的常数,直至调节为一个最佳常数。因此,预测值前的数据权重就由历史数据与斜率所决定。
(2)需要预测季节性分量,设为S(t),在确定周期时间后,利用统计分析,根据所需要的特征对海量数据完成抽取,并根据以下公式完成差分运算,获得一个矩阵:
对该矩阵作线性拟合,可以获得多条拟合直线,即Y-aX+b,取拟合误差值最小的一个列数作为周期L,根据下式计算季节性分量:
式中p代表每一周期L中的样本数量,每-q位置处的S(t)代表P样本中同一位置q处的数据均值。
(3)要预测突发分量,设该分量为B,是由各种突发事件所产生的一个分量,该分量有很强的可列举性,可通过特定类别与特定数值相对应来表示,如下式:
在分析突發变量时,只需要知道需要查询位置的ID号,就能够将该ID号相应的突发分量代入预测公式中。
(4)要预测随机误差分量,设该分量为R。基于大数据进行预测时,该分量具有非独立分布性,是将无线网络话务量产生的历史数据减掉T(t)、S(t)与B(t)即可获得R的预估值,该结果可增强R值的实际性。
(5)预测KPI,采用以下公式即可计算获得:
X(t)=(1+B(t))×(T(t)+S(t)+R(t)
(6)在运用以上预测算法时,还需要对数据完成预处理,主要任务在于利用线性拟合曲线插入缺值,如利用最小二乘法进行线性回归即可获得缺失点的值。然后需要对需要预测的区域根据特征采取分类处理,如根据不同时间分布点的忙碌时段作为特征进行分类,再对不同类型的区域采取分类分析预测。第三步要排除异常值,对各类型数据作可信度取舍,置信度为95%,边界取值为u-2σ与u+2σ,排除不在此区间内的异常值,当时间序列呈非正太分布时,则需要采取其他方法排除异常值。第四步就能够根据以上预测算法进行分析预测与结果判定。当结果和真实值之间的误差处于非接受范围时,需要返回第一步,修正模型参数。
4 结语
未来的大数据技术将会使移动通信行业与交通、物流、银行等各个行业、领域实现战略合作,完成更为宏大的布局,发挥海量数据的最大价值。
[参考文献]
[1]周天绮,严奥霞.基于移动通信大数据的流动人口统计中Hadoop的应用研究[J].软件导刊,2015 (3):36-38.
[2]王超.基于大数据技术的现代移动通信研究[J].中国新通信,2015 (3):108.