探究基于云计算的Web结构挖掘算法
2016-06-06薛娟
薛娟
摘要:云计算是基于互联网的一种超级计算模式,能够为将Web中的所有数据信息集中在一起,为其提供各种服务。数据挖掘是获取Web网页中的有用的信息,随着互联网的快速发展,Web网页中的数据信息量显著增加,传统挖掘算法已经无法满足用户的实际需求,基于云计算的Web结构挖掘算法,能够打破传统挖掘算法的桎梏,对于Web网页信息和知识的发现提供了很大的便利。文章分析了云计算的特点以及服务模式,探析了一种基于云计算的Web结构挖掘算法,即基于MapReduce的PageRank算法,以供参考。
关键词:云计算;Web;结构挖掘算法
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)06-0010-02
数据挖掘指的是对大量、复杂的数据信息进行分析,然后从中获取有用的数据信息。现如今,重要的数据信息都储存在Web网页上,由此可见研究Web数据挖掘的重要性。但是,随着互联网技术的快速发展,Web网页上的数据信息量不断地增加,网络环境也越来越复杂,想要从Web网页中挖掘出有用的信息,传统的节点计算、储存算法已经远远不能满足需求,基于云计算的Web结构挖掘算法,能够有效地解决传统算法存在的问题,例如,基于MapReduce的PageRank算法,以其强大的网络数据信息获取能力、计算能力、储存能力,能够更加快速、高效的挖掘、计算和储存Web网页的信息和知识。因此,文章针对基于云计算的Web结构挖掘算法的研究具有非常重要的现实意义。
1 云计算的特点以及服务模式分析
1.1 云计算的特点
云计算是一种基于用户需求,为用户提供主动服务的超级计算模式。云计算能够为用户提供共享的服务模式,并且能够支持多个用户的不同需求。云计算能够满足不同规模的计算需求,由信息和资源处理中心对需求进行快速的分析和调节,并进行云计算。云计算采用按量计费的方式,用户不需要对没有消费的服务买单,这样既能够降低成本,又能够避免造成浪费。
1.2 云计算的服务模式分析
云计算的服务模式主要包括以下几个方面:
1)IaaS,Infraslruelure as a Service——基础设施即服务,根据用户权限,可以直接方位云计算提供的网络宽带、分布式储存、并行运算等基础设置,同时可以根据自己的需求,搭建负荷自己需求的平台;
2)PaaS,Platform as a Service——平台即服务,云计算能够为用户提供一个平台,包括工具集与软件开发语言,其能够为用户组建一个虚拟的操作系统,用户根据自己的需求在该平台上开发以及部署相应的平台与应用;
3)SaaS,Software as a service——软件即服务,用户根据自己的需求,使用基于云计算架构的应用程序为自己服务,例如网络储存、在线表格、在线文档、电子邮件等。
2 基于MapReduce的PageRank算法分析
2.1 基于MapReduce的PageRank算法的实现
2.1.1 算法数据准备
按照链接结构文件格式将文件转换成针对每一个节点的出链接结构文件,其中预处理数据包由网页上的海量数据信息组成,在map执行的过程中,按照map方法,生成所有起始节点的目标点的
2.1.2 算法的实现
PageRank算法输出的每个节点,按照Map方法对输入每一行记录的目标节点顺序,按照每个key归类MapReduce框架采集map方法对应的value。按照reduce方法,将每一个key:页面y,对的所有项进行加和,然后带入公式:Pk+1= dATPk+(1-d)(公式1)计算,其中,PK表示第k次迭代后的PageRank向量,AT表示矩阵的转置矩阵,然后输出所有页面全新的PageRank,即获得所有key初始化的PageRank值,在HDFS中储存所有的计算结果,进行下一次迭代计算。在迭代计算过程中,Mapper对所有起点的目标点生成一个与之对应的partial,然后把所有的partial传送至Mapreduce中。
2.2 基于MapReduce的PageRank算法的改进分析
2.2.1 迭代并行PageRank改进算法分析
按照PageRank算法的传统计算公式,推算PageRank算法的向量公式,即公式1,因此按照初始向量P0进行向量Pk的递推,过程表现为:
P1= dATP0+(1-d)e (公式2)
P2= d2(AT)2P0+d(1-d)ATe+(1-d)e (公式3)
Pk=+dk(AT)kP0+ dk-1(1-d)(AT)k-1e+…d(1-d)ATe+(1-d)e (公式4)
通过上述递推过程,以跨度为2计算公式为:P2= d2(AT)2P0+d(1-d)ATe+(1-d)e
迭代并行PageRank改进算法的过程表现为以下几个方面:1)在计算之前,应该先生成和跨度相关的邻接矩阵,以k=2为例,采用MapReduce计算AT,根据MapReduce过程获得(AT)2,MapReduce在迭代的过程中,以初始PageRank向量、AT以及(AT)2为输入文件,最后生成相应的PageRank向量,按照上述步骤进行反复迭代,如图1所示。按照“移动计算比移动数据更经济”的思想,应该尽可能将被计算的数据储存在原来的位置,避免出现数据大量移动的现象,这样既能够提高系统吞吐量,又不至于造成网络的堵塞。因此,HDFS中储存的AT以及(AT)2不会随着迭代的改变而改变。当k=2时,可将算法分为三个阶段:1)输入上述阶段生成的链接构成文件G,并用G代替邻接矩阵的AT,将首列作为目标节点,第i行,第j列节点用ATi,j表示;2)使用第一阶段获得的AT,生成相应的链接结构文件,然后获得相应的矩阵,通过计算获得(AT)2;3)k=2,因此每次的迭代跨度都为2,采用迭代并行PageRank算法计算向量,输入第一阶段获得的AT,计算d(1-d)ATe+(1-d)e,输入第二阶段获得的(AT)2,计算d2(AT)2P0,获得新的PageRank向量,并保存在HDPS中,再进行下一次迭代计算。
3 基于新闻关键词的搜索统计而进行的网络传播量化之方式
现阶段,国内网民进行新闻信息搜索的最常用、最普遍的方式就是“关键字搜索”,当前众多互联网的搜索引擎当中,最具有代表性的就是谷歌和百度。这两个引擎所分别提供的两种工具——谷歌关键字以及百度指数,能够让网络用户较为直观地感知以及分析关键词的传播效果。本文选取的分析工具是百度指数,以“神舟十号”作为搜索的关键词,以开展对网络传播量化的研究和分析统计。
打开百度指数的页面(http://index.baidu.com)以后,在搜索栏中输入“神舟十号”,并进行搜索,便会呈现出百度指数在一个月以来关于这个关键词的媒体关注度、用户关注度以及这两个参数的表述趋势。在这个页面当中,百度指数会依照用户的关注度高低,把同一时期里所出现的新闻报道罗列在右侧,并附上对应的标注,这就能让使用者得知关于这新闻的网络传播情况以及量化的指标,通过分析新闻用户的关注度的量化指标,使用者就能够从某个角度获知网民当月所关注的热点。百度指数不仅可以获取以月为单位的量化指标,还可以得知以季度、年、半年或者多年为单位的量化指标,供使用者根据需要进行选择,以获取不同时期内网民对于网络热点的关注程度以及相关的变化趋势。
在同一个页面当中,百度指数还会针对同一时期里的不同区域的网民搜索该关键字的数量实施量化的统计对比,并分类为不同色彩,分别一一标注于全国的地图之上。与此同时,也会产生一个现实网民所在的城市分布的柱状图。百度指数还能根据入群的属性,对搜索了该关键词的网民进行量化分析,比如年龄分布、学历分布、性别比例、职业分布等等各方面,经过统计和分析之后,用柱状图或者饼状图的方式清晰地呈现在使用者面前。
针对上述的各个示意图开展系统化、全面化的分析和树立以后,用具备高可比性的其他关键字来进行辅助,所得出的量化结果和统计结果,能够使使用者较为客观全面地对该关键字的传播效果和现状进行总结和统计。经过对多年来新闻热点变化的规律和趋势进行总结和分析,新闻从业人员就能够更加科学地对今后网络新闻传播的规律和发展方向进行系统性客观性的预测、定位和研究,也能更好地部署、调整今后的网络新闻的宣传工作。
4结束语
通过对网络传播中的新闻关键词之重要性和作用进行定位和分析,能够对关键词的选定方法进行掌握,从而建立起科学系统的关键词库,能够发掘基于关键词的搜索和统计来进行的网络传播量化指标和规律。利用搜索引擎,对新闻关键词进行多角度、多时段的搜索、统计和研究,可以使网络传播得到有效、全面、系统化的量化评价。本文以讲述新闻网络传播中关键字的作用为切入点,对关键词如何选定进行阐述,并探讨建立关键词库的重要性与意义,进而列举以新闻关键词的搜索和统计为基础的网络传播量化之方法,期望能为现实中的新闻宣传实践提供具有借鉴价值的建议和参考。
参考文献:
[1] 化柏林.图书情报学核心期刊论文关键词计量分析研究[J].情报科学,2007(8):1176-1189.