浅谈通信网络的大数据相关性分析算法
2020-02-22陈国靖
陈国靖
摘要:传统通信网络大数据相关性分析算法在进行相关性分析的时候存在较大的弊端,主要是内存占比严重影响了相关性分析的速度。本文展开了对通信网络大数据相关性分析算法的研究,希望能够进一步解决其中存在的问题。
关键词:通信网络;大数据;相关性分析算法
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2020)36-0057-03
通信网络大数据相关性分析是指在进行大数据相关性分析中不存在控制变量,对无控制变量相关性分析的依据主要是样本类型。本文的研究主要是对隐藏在通信网络大数据之间的规律。传统通信网络大数据相关性分析已经无法适应当前网络大数据相关性分析的要求,无论是在存储能力还是计算能力上都已经严重阻碍了大数据相关性分析的发展,本文的研究也是为了解决内存占比大以及计算效率较低的问题。
1 大数据典型特征与维度
人类进入大数据时代以后,大数据分析就面临着更高的要求,由于大数据的数据特征,使得大数据分析需要在几小时内完成数以百万次计算的动态数据集。大数据最基本的特征就是海量的数据,其次是大数据结构较为复杂,数据类型复杂多样,没有办法进行批量处理,大数据并不是分布在某一个集中地地方,而是非常分散的,所以处理的时候不能够集中进行处理。新时期大数据典型特征主要有以下几种。
Volume:大数据产生的速度非常快,每分钟大数据的数量都会翻几倍,并且这种增长速度还是持续增长。
Variety:数据格式多种多样,没有办法进行直接有效地处理
Velocity:数据在不断增多的同时,数据之间的关系也在不断变化,并且随着数量增多关系会变得错综复杂。
Varacity:大数据能够为决策者提供数据依据,帮助决策者确认决策的正确性。
Complexity:大数据的来源多种多样,产生于多种终端,聚合十分复杂。
换一个角度来研究大数据的特征,从数据存储、挖掘、分析等角度来看,大数据具有以下几种特征:
Cardinality:对象集合化,数据集合对数据的记录特征和记录数量进行了定义;
Continuity:涵盖了大数据表达特征以及大数据占据空间;
Complexity:大数据的负载型具有单个维度上的特征,第一是数据类型具有广泛的变化范围,第二是数据集的维度非常高,第三是在处理速度上具有较高的要求。
大数据分析的核心是数据大小和复杂度,这两个方面的因素决定了方案的可行性,只有在分析方案中处理好数据大小和数据复杂度,才能够获取科学地分析数据,才能够使得大数据分析结果产生较大的价值。例如传统课堂向在线教育的模式转变,使得全球各地的学生都能够通过网络进行学习,在互联网虚拟化的平台中产生了大量的互联网数据,这些数据都是大数据的组成部分,并且数据每天都在成倍地增加,在线教育所产生的交互数据和形式每天都在不断地更新。如今的在线教育具有非常鲜明的数据源特征。现在的在线教育所使用的教材都是电子化的教材,电子化形式的教材形成了大量的网络数据,还有系统自身运行的各种数据信息,在线教育平台服务器运行的各项数据信息,以及学生在设计平台或者在线教育平台中发表言论都是大数据组成的重要内容。在线教育只是众多大数据产生源中的一种,面对多样化的数据,为了更好地利用好各种大数据,加强对大数据之间的相关性分析,提高相关性分析算法的运算能力,更好地服务于社会。
2 通信网络大数据相关性分析算法研究
2.1确定通信网络大数据相关性分析算法参数
在利用通信网络大数据相关性分析算法对关联规则进行分析挖掘的时候,需要对其中的参数值进行确定,每一个算法都具有一个参数值,并且中间还存在一个决策变量,我们要对这个决策变量的数值进行确定。这些数量众多的参数最终可以组成一个集合,这个集合我们称之为有效解,每一个相关性参数都存在一个理想的数值,这个数值我们叫作满意值,通过决策者对这些参数赋予满意值然后进行比较选择最终的参数。在比较的过程总存在一个期望值和一个实际值,而在对通信网络大数据相关性分析算法有效解确定的时候,需要利用到期望值和实际值之间的偏差,通过这种偏差来求的有效解。在确定通信网络大数据相关性分析算法的参数之前,首先要设计一个期望目标,这个期望目标是一个理想化的参数,其范围在,$fi^{*} (i=1,2,3,\ldots k)。權重系数是每一个相关性参数都会具备的,并且存在一个范围,$fi^{*} (i=1,2,3,\ldots k)$。因此,确定通信网络大数据相关性分析算法首先需要对相关性参数的期望值进行确定,对每一个期望值赋予一个优先因子,有效解就可以表示为:
pearson()参数条件计算公式为:
上述公式中的x,y分别代表着通信网络大数据相关性异常值和通信网络大数据相关程度,可以很明显看出,相关性异常值为零或者不存在异常值的时候,x,y呈负相关,但是相关性异常值的变化会导致计算公式的计算结果出现不同。
2.2网络大数据相关性驱动映射
通过确定通信网络大数据相关性分析算法参数值,可以在此基础上对通信网络大数据进行结构化向非结构化转化,利用驱动映射生成相关性结构通信网络数据,进而网络大数据相关性驱动映射,网络大数据相关性驱动映射的具体模式图如图1所示。
3 大数据相关规则挖掘
3.1准备工作
通过大数据相关性分析对商品之间的关联度进行挖掘,找出不同商品之间的关系,通过关联规则实现高效精准的数据挖掘。关联规则最初就是为了探究购物者购物篮中的物件之间的关系,有的客户购买了某件商品的同时大概率会购买另外一件商品,通过这种关联规则挖掘能够找出商品之间的关系,了解购物者的喜好,知道顾客习惯将哪些商品放到一起购买,通过这种关联性分析将商场的货物进行重新摆放,发现顾客购物篮中不同商品之间的关联,分析顾客的购物习惯。通过挖掘这种关联性,可以帮助商场更好地把握住客户的购物心理。
在分析ab两个商品的购买相关性的时候,从a→b代表着客户购买了a商品之后购买商品b的概率,通过相关性分析算法对两者之间的关联度进行有效的分析计算。在对两者之间的关联规则进行挖掘的时候,首先要从很多的资料合集中找出我们需要的频繁项目集,这个项目集通常是满足最低支持度的。然后我们要通过这些频繁项目集找出我们需要的关联规则。置信度的计算公式如下。
Apriori算法是我们在关联规则算法中使用最多的一种算法,该算法是在1993年的时候提出的,其核心思想是递推算法,该递推算法是在两个阶段频繁集思想的基础上产生的,该算法的主要思想是为了在庞大的数据中找出最大的一个频繁项集,利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。但是Apriori算存在两个较大的缺点,首先就是该算法会产生大量的候选集,严重影响最大频繁项集的产生;第二是该算法会重复扫描数据库,导致无法有效提升效率。除此之外,通过该算法进行分析还要不断地删除一部分记录,主要是随着时间的推移,数据在不断地增长,数据挖掘的难度会越来越大,只有删除一部分记录才能够进一步进行分析计算,这也是关联规则中需要不断改进的重要问题。关联规则的主要目的就是从大量的事务集中挖掘出满足支持度和置信度最低比值要求的所有的强关联规则。也就是说判定一个规则是不是强关联规则的重要标准就是看这个规则的置信度和支持度,这两个标准如果能够满足预算设定的阈值,那么这条规则就是强关联规则。
3.2相关规则的基本概念
在对规则进行刻画的时候,要注意规则前后的关联度,例如刻画a到b之间的相关性,就需要一个指标对这个相关度进行标示,这个指标代表着规则a到b两者的关联度,这个指标的取值区间都在区间(0,1)之间,并且指标接近于1的时候就会呈现出较强的相关度,相反则会呈现较弱。在公式中相关决策技术表中的信息值为N,这个数值表示在以往的数据中出现的次数,也就是在对某个规则的相关度进行计算的时候,只要设定好了K值,就能够在相关决策技术表中查看到。
在这个计算公式中,在原有的置信度度的计算公式分母中添加了一个参数,这个参数我们称之为k,当k值从0到100不断变化的时候,置信度也会跟随着不断变化,对规则的关联性进行挖掘也会发生变化,在不同的k值会将很多没有用的较低支持度的规则进行过滤,留下来的都是具有加强支持度和高置信度的规则。在相关性算法公式中,通过合并置信度和支持度两个指标然后对规则的关联性进行刻画,从而更好地分析关联性的强弱。通过试验证明的切实可行的做法,在实验中通过证明k值最大的时候,能够将支持度较低的一些规则进行过滤,然后直接选择一些关联度较高的规则作为相关推荐。
通过计算,当k=0的时候,相关度等于置信度,在k=10的时候,一些支持度较小的规则就被直接过滤掉了,随着k值逐渐加大,过滤掉的规则就变得越来越多,当k=50的时候,支持度较低的规则就全被过滤掉了,存在的一些规则的关联度都超过的0.5,说明其支持度非常高,两者的关联度也较高。可见k值在不断增大的过程中不断地过滤着较低支持率的规则,最终得到的都是一些具有较高支持度和置信度的规则。
在关联规则中需要对支持度和置信度进行最低闭值的设置,通过设置这个闭值来确定相关度的下界,对于两个指标的下界进行调整的方法通常都是采用调整参数k的方法,只需要对这一个参数值进行调整就能够调整这个计算公式中的置信度以及支持度,低支持度的规则会在k值得不断变化中逐渐被过滤掉。也就是说当#A很小的时候,k值越大,这个数值在分母中所起到的作用就越大,到了一定程度的时候甚至起到了决定性的作用。当k值足够大的时候,较低支持度的规则具有较低的相关度,在相关度计算公式中可以通过调整k值的大小来对规则进行过滤,过滤掉一些支持度较低的规则,这是相关度规则挖掘算法中较为先进的一项技术,通过不断地改进能够实现过滤一些具有较大偶然性的低支持度以及一些高置信度的规则,但是关联规则是不可能对这些规则进行主动筛选的,其筛选规则具有较大的偶然性。相关度的计算公式就是置信度调整以后的公式,将一个k值添加到置信度的分母上,通过调节k值大小来调节规则过滤情况,因此置信度的相关度总是很大于每一条规则的相关度。只有当一条规则的支持度和置信度都很大的时候,相关度才会变大,也就是要同时满足高支持度和高置信度两个必要的条件,当相关度存在下界,那么支持度和置信度都会存在下界。
3.3算法性能分析
本文的测试数据都是根据试验记录的真实数据,通过对cam算法的验证,判断大数据相关性分析中该算法对大数据相关性分析所产生的影响,为了方便理解,本文所用数据都是具有真实可信的数据。在本次的测试中,充分利用了cam的重要测试功能,对本文的相关性研究起到了重要的帮助作用。通过cam进行预算之后本文绘制了离散点图,离散点图是我们将抽象数据进行可视化的重要方法之一,将cam的运算结果进行可视化方便我们进行研究分析,在离散点途中横坐标和纵坐标分别代表着数学测试成绩和知识拓展测试成绩,在cam的运算中我们得到了一个相关度为0.53162455的結果,这个结果就代表着两个测试成绩之间的相关度。从运算结果中可以看出,两个测试成绩之间存在着一种正相关的关系,一个变化会带动另一个成正向变化。
启动线性回退代码如下:
线性回退在输入数据对应的变量以及相关函数拟合运算基础上得出的最佳拟合,能够对回退函数进行预测,同时可以对数据特征进行有效识别。在对数据的相关特征进行分析的时候需要运用到线性回退的结果,通过分析数据的变化特征和变化趋势实现数据目标变量的分析。在本文的研究中,利用计算机对数学成绩进行预测的时候采用了线性回退的结果,对两者的关系也实现相关性的分析。
4 结语
随着科学技术的不断进步,人们对于通信网络大数据相关性分析算法的研究还在不断地深入,相关性分析算法也在不断地改善和推进,相关性分析的速度逐步提升,效率也得到了大幅度提升。
参考文献:
[1] 安强强,李赵兴,张峰,等.基于机器学习的通信网络非结构化大数据分析算法[J].电子设计工程,2018,26(14):53-56.
[2] 李业伟.基于车联网大数据的交通路况预测研究[J].信息通信技术,2017,11(6):74-78.
[3] 徐全盛,葛林强,邹勤宜.基于大数据分析的无线通信技术研究[J].通信技术,2016,49(12):1635-1641.
[4] 亢华爱.面向机器学习的通信网络大数据相关性分析算法研究[J].激光杂志,2016,37(8):145-148.
[5] 薛禹胜,赖业宁.大能源思维与大数据思维的融合(二)应用及探索[J].电力系统自动化,2016,40(8):1-13.
【通联编辑:唐一东】