APP下载

基于云计算平台的复杂网络被动数据快速关联算法

2019-12-16丁锦华

电脑知识与技术 2019年30期
关键词:复杂网络

丁锦华

摘要:当前广泛使用的被动数据快速关联算法存在关联准确性较低的不足,为此提出了一种基于云计算平台的复杂网络被动数据快速关联算法。基于云计算平台的引入,依托复杂网络下的被动数据节点解析,确定被动数据快速关联算法核心步骤,实现了基于云计算平台的复杂网络被动数据快速关联算法设计。试验数据表明,提出的快速关联算法较常规算法,具有较高的关联准确性以及稳定性,适合复杂网络下被动数据的快速关联计算。

关键词:云计算平台;复杂网络;被动数据;关联算法

中图分类号:N37 文献标识码:A

文章编号:1009-3044(2019)30-pppp-O

目前,我国对海量数据处理方式主要有两种,一种是多处理器的服务器进行处理,一种是采用高内存处理器的服务器进行处理,但是由于技术问题,这两种处理方式均存在着一定的问题,比如处理器有限问题等等。从计算能力到存储能力均越来越无法有效的支撑网络数据的“挖掘”海量数据处理分析进人到了一个“瓶颈”期,它直接导致了网络数据的潜在利用价值实效。与此同时,Google MapReduce、Spark、Hadoop、BigTable以及GFS等一系列支持海量数据分析与储存工具出现,有效的解决了大数据的“瓶颈”问题嘲。本文在立足我国现有数据分析的基础之上,进一步设计了一种新型的研究算法——基于云计算平台的复杂网络被动数据快速关联算法。

1基于云计算平台的复杂网络被动数据快速关联算法设计

1.1云计算平台的引入

在我国现有的云计算平台和复杂网络的经典算法基础之上深入的研究,同时提出提出基于云计算平台的复杂网络被动数据快速关联算法。根据算法的特点进一步选择合适的云计算平台,以此来设计适当的数据结构。针对不同的云计算平台所具有的不同应用场景,在恰当的云计算平台上进行巧妙的算法设计以此来明显提高算法效率。

引入云计算平台,利用云计算平台的方式,进行复杂网络被动数据快速关联计算。引入云计算平台过程首先应确定复杂网络被动数据与云计算平台数据的兼容性,其数据串口与云计算平平台通信示意图如图1所示:

1.2复杂网络下的被动数据节点解析

众所周知,复杂网络中节点重要性评价方法众多,本文在研究该问题时主要是从网络的拓扑结构角度进行研究的。网络的拓扑结构主要包括网络的全局属性、网络的局部属性、随机游走、网络的位置等方向,合理的实现被动数据快速关联的计算,对复杂网络下的被动数据节点解析是十分必要的。

复杂网络下的被动数据节点解析,考虑网络的局部特性特征,如:顶点邻居信息、顶点与其邻居之间关系以及顶点自身信息等等,这些指标计算相对比较简单,且其所需时间复杂度较低,比较适用于大型复杂网络。对复杂网络下的被动数据节点解析,需要依托云计算平台下的LeaderRank算法,并以此来作为基于云计算平台的复杂网络被动数据快速关联算法的基础算法。

LeaderRank算法是在PageRank算法的基础上进行设计。并利用Hadoop和GraphLab对LeaderRank算法进行架构。在应用云计算LeaderRank算法时,首先需要建立一个GroundNode加入到网络中,将其与图中其他Ve~ex建立双向连接。为尽可能的方便,在GraphLab平台上,Ground Node顶点的加入在图加载的过程中进行;而在Hadoop中根据算法的输入,我们把Ground Node的加入放在数据预处理阶段。其次,对图中的每个顶点的初始化,Ground Node初始化为0,而网络中其他顶点初始化为1。然后根据相关数据对每个顶点进行更新操作。最后达到稳态后得到每个顶点的LeaderRank值,完成复杂网络下的被动数据节点解析。

1.3确定被动数据快速关联算法核心步骤

基于复杂网络下的被动数据节点的解析,采用云计算的LeaderRank算法,构建了被动数据快速关联算法的基本结构;利用PageRank算法建立了算法网络;使用Hadoop和GraphLab构建了数据结构,进行复杂网络被动数据快速关联计算,其整个过程共分为五个阶段,即Map阶段、Reduce阶段、迭代阶段、Gather阶段、Apply阶段,其具体被动数据快速关联算法核心步骤如表1所示:

2实验论证

为保证提出的基于云计算平台的复杂网络被动数据快速关联算法的有效性,进行实例分析,分析过程中,目前广泛使用使用的粒子群被动数据快速关联算法、阈值被动数据快速关联算法作为实验对比对象,进行算法的关联准确性验证。

2.1实验准备

本次实验环境为5台普通PC组成的集群系统,Inteli3-3.30GHz、8G内存,Hadoop版本是Hadoop-0.20,GraphLab采用2.1版本。采用數据集com-Youtube、uS Football Network、com-Orkut、twitter7、Zacharys Karate Club五种数据集形式,进行对比实验分析。

其中com-Youtube、US Football Network、com-Orkut、twit-ter7、Zacharys Karate Club数据集为实时数据集,具有统计相同性,同时因数据量不同,数据交互方式不同,为此选用了com-Youtube、US Football Network、com-Orkut、twitter7、Zacha-rys Karate Club五种数据集进行分析。

2.2实验过程与结果分析

试验过程中,分别载入五种数据集,利用粒子群被动数据快速关联算法、阈值被动数据快速关联算法,以及本文提出的基于云计算平台的复杂网络被动数据快速关联算法进行关联准确性验证。并记录验证结果。

根据基于云计算平台的复杂网络被动数据快速关联算法、粒子群被动数据快速关联算法、阈值被动数据快速关联算法,在不同试验数据集情况下,试验记录数据,形成不同关联算法验证试验结果对比表,如表2所示:

根据实验结果可以得出,粒子群被动数据快速关联算法,在USFootballNetwork、Zacharys Karate Club数据集中,具有良好的验证关联准确性,但在其他数据集中,其关联准确性较低,体现出该方法的不全面性,应用阈值被动数据快速关联算法时,其整体波动较大,准确率较低。因此,基于云计算平台的复杂网络被动数据快速关联算法具有较高的关联准确性,同时具有较高的稳定性,适合复杂网络下被动数据的快速关联计算。

3结束语

本文针对LeaderRank平台设计了一个基于云计算平台的复杂网络被动数据快速关联算法,给出了该算法的具体思路及其应用步骤,最后通过实验论证了该算法的正确性和实用性,通过实验发现,本文研究的基于云计算平台的复杂网络被动数据快速关联算法既具有较高的模块度,在处理海量网络数据又具有很大的优势。

猜你喜欢

复杂网络
基于复杂网络节点重要性的链路预测算法
基于复杂网络理论的通用机场保障网络研究
基于蚁群优化的多目标社区检测算法
基于复杂网络构建面向主题的在线评论挖掘模型