云计算环境下对Web数据挖掘技术的分析与探究

2019-09-10古险峰王志

赤峰学院学报·自然科学版 2019年9期

古险峰　王志

摘要：Web数据挖掘技术随着互联网的发展而不断进步，并获得了广泛运用，而云计算技术则能够促进数据存储安全性与效率的提升.因此，本文将对云计算技术进行分析，并详细探究云计算环境下的Web数据挖掘技术，希望可以为相关工作者的研究提供一些帮助.

关键词：云计算环境;Web;数据挖掘;云计算技术

中图分类号：TP311.14 文献标识码：A 文章编号：1673-260X（2019）09-0056-03

进入新时代后，随着科学技术的发展，互联网数据量逐渐增加，有效提取出海量数据中蕴含的有价值数据并运用于实际生活中具有重要意义，在这一过程中，Web数据挖掘技术发挥着关键作用.因此，必须了解云计算技术与数据挖掘特点、分类，并在云计算环境下，详细分析Web数据挖掘算法，提高数据挖掘的准确性、有效性，从而为我国互联网健康发展奠定基础.

1 云计算技术分析

云计算是指以互联网为基础的服务增加、运用以及交互模式，一般会涉及通过互联网来对具有动态、虚拟化以及易扩展等特点的资源进行提供[1].通常情况下，云计算主要包含两种技术，即虚拟技术与并行编程技术.一方面，虚拟技术.对云计算而言，虚拟技术属于一种重要技术，其能够促进计算机资源抽象化逻辑与统一化表达的实现，并且有利于信息利用率的提升，即不但能够加大存储容量，还可以对资源分配流程进行简化，实现资源灵活分配.同时，这一技术还能够为单个CPU对多个CPU并行处理进行模拟提供帮助，也就是可以通过一个服务器在同时间处理众多任务，并且软件程序还能够在空间中运行，有利于计算机运行效率的提升.另一方面，并行编程技术.这一技术属于同时编程新技术，相较于串行编程，主要区别就是在实际运用过程时选择的是结构编程还是过程编程.并行编程技术就是在对程序进行编写时，开发人员在实现程序并行运行的基础上，促进各模块通讯的实现，在一定程度上能够促进Web数据挖掘效率的提高.在云计算环境下，这一技术针对的是网络信息较为密集的程序，也就是需要在各个节点中分布海量数据，促进计算机并行处理的实现，并利用众多计算机，以此来提高数据挖掘质量与效率.

2 云计算环境下的Web数据挖掘技术

2.1 Web数据挖掘特点与分类

2.1.1 特点

通过分析可知，Web数据的特点主要表现杂以下几方面：首先，异构性.Web相当于数据源，其中全部节点都可以产生数据，并且信息在结构与内容方面都存在一定不同，并最终促进数据库异构环境的形成.其次，动态灵活.对Web而言，其各节点的数据都呈现出动态灵活特点，并且节点信息的更新速度十分频繁.同时，Web数据还表现出了复杂性特点，即其数据形式十分多元，主要涉及超链接、视频、图像以及文本等多种类型信息.再次，半结构化.由于Web数据有着较大复杂性，并且不具备统一描述模型，因此，整体结构主要呈现出来的是半结构化状态.最后，分布存储.对Web而言，其是以网络为基础的，并且页面能够在各种计算机服务器中分布存储，有利于数据分布存储的实现[2].

2.1.2 分类

Web数据挖掘主要存在三种类型：首先，结构挖掘.这一挖掘是指对页面结构中价值较高的信息进行挖掘，具体能够被分成链接关系结构、内容结构以及组织结构等.总而言之，结构挖掘主要流程就是在对Web结构进行挖掘时，详细分析链接关系与页面结构，找出其中有用信息，并做好链接及关系分类工作，从而明确权威页面.其次，内容挖掘.这一挖掘就是在海量的网页或者是链接数据库中对有价值信息进行提取的一个过程.在内容类型方面，这一挖掘可以被分成两种，即多媒体挖掘与文本挖掘，而二者之间最突出的不同就是数据提取特点;而在数据挖掘方式方面，内容挖掘则可以被细分成数据库挖掘与数据抽取挖掘，其中，数据库挖掘是指在数据库中对有价值信息进行挖掘，而抽取挖掘则针对的是已经挖掘过的信息，通过抽取方式进一步挖掘价值较高的信息.最后，利用挖掘.这一挖掘主要就是挖掘分析用户登录访问，即利用数据挖掘技术，促进网络信息服务质量与效率的大幅度提升，在Web服务器的性能参数完善方面发挥着重要作用.

2.2 以云计算为基础的Web数据挖掘

2.2.1 数据挖掘体系

Web数据挖掘能够被分成众多节点，并且通过对云计算技术的利用，能够进一步加强这一体系中各节点联系，促进完善数据挖掘体系的形成.其中，主控节点主要是对各节点和客户端进行连接;数据节点的作用是存储数据;算法节点则可以将有效算法支撑提供给数据挖掘，在一定程度上，能够把其当作算法仓库;而服务节点的作用就是对主控发布的任务进行执行，并把计算结果反馈出来.基于这一挖掘体系功能，可以详细划分体系层面，即服务层、控制層、数据存储层以及业务处理层等.首先，服务层就是利用这一体系对数据进行详细挖掘，并向用户呈现具体结果;其次，控制层中的主控节点需要做好用户反馈结果的分析工作，明确最佳算法，以此来促进高效数据挖掘的实现;再次，算法与存储层主要工作就是对反馈回来的数据与算法进行存储，其存储的数据不但包含原始数据，还涉及挖掘结果，有利于避免出现算法或者是数据丢失问题，即使系统发生了故障，也能够通过对存储区的利用及时获得丢失数据，并展开数据恢复工作;最后，业务处理层的作用就是挖掘存储层中的数据，并经由主控点重新分配数据，之后再通过服务节点重新回到主控节点中[3].

2.2.2 数据挖掘算法

Web数据挖掘技术就是在连接、网页以及日志中对需要数据信息进行寻找的一种技术，而WebGraph则是重要数据结构之一，其能够有效描述Web信息，在社交网络、搜索结果排序以及网络爬虫等方面得到了广泛运用，并发挥着重要作用.因此，本文研究的重点就是Graph算法，详细探究了其数据结构，并分析了以云计算为基础的Graph数据获取方案，即加强对Hadoop这一份不是基础框架的利用.Java是这一框架主要的语言，因此，本文将通过这一语言来对挖掘算法进行描述，这也就使得必须选择相应数据模型，做好真实网络链接关系的抽象描述.同时，由于WebGraph与Web链接分析都是以图论算法为基础的，因此，把其抽象成图形分析能够为数据处理分析提供较大便利[4].

首先，算法数据结构.Webgraph算法在分析数据时，必须借助相应数据描述方法.本文研究主要采取的是矩阵法来对数据进行描述，只需要严格遵循行列方式，做好各节点数据排列工作，就能够促进网络矩阵的形成，而矩阵阶数则是网络的节点数.若这一算法是对网页的链接关系模型进行描述，那么其逻辑关系则可以通过矩阵描述出来.对矩阵而言，其元素的作用就是判断并表示出行、列标号节点之间是不是存在相应联系.在取值方面，矩阵元素可以出现差异，主要目的就是对和各个节点存在各种程度的Graph进行表述，还可以通过对Graph的利用，将社交网络中用户关系充分表现出来.通常情况下，在社交网络中，用户关系属于双向的，也就是用户只有互相认可，才能加为好友，这也就为通过对称矩阵的利用来表述用户关系数据结构提供了可能.另外，在高级语言中，还能够通过二维数组对矩阵进行表述，因此，若需要采取高级语言来促进Graph处理算法的实现，则可以把矩阵当作数据结构.

其次，数据存储方式.本文分析的GraphML属于具有稳定性、长期性特点的信息存储方案，并且以XML语言为基础的GraphML则是对图进行描述的一种通用文件格式.相较于其他专有文件格式，这一格式能够完全由XML表示出来，并且大部分开发语言都可以对GraphML进行解析.在这一背景下，其在Graph生成、处理以及存储等方面得到了广泛运用.同时，GraphML还具有简便、直观等特点，可以为开发人员理解提供便利，并且在数据修改与分析方面，其还降低了一定难度，不但可以帮助开发人员修改，还能够为程序开发奠定良好基础[5].当前，常见Graph数据结构主要有分级图、有向图、图形显示、轻量级的语法分析器、超图、有向无向共存图、特定属性数据以及无向图等，而上述数据结构都能够做好描述工作.

最后，数据抓取.以WebGraph算法为基础的数据挖掘技术主要是利用页面爬取方式来得到需要的页面信息，之后再详细分析其中的Web连接，并最终促进Graph结构的形成.运算量大是这一挖掘算法的突出特点，尤其是在对以文本为基础的页面链接任务进行分析时，必须会消耗众多计算资源，而除Web页面关联之外，还可以通过对Graph结构的利用，完成显示常见事物关联的描述，也就是社交网络用户.在当前技术快速发展情况下，多样化在线社交网络得到了人们的重视，并渗入其日常生活.以Facebook为例，其注册用户远远大于20亿，这也就使得其中蕴含着大量用户关系，与挖掘算法研究对象需求相符.因此，本文研究将把Facebook用户关系数据当作研究对象，详细分析以云计算为基础的Web数据挖掘技术.

一方面，应用程序创建.本文研究设计出了以Facebook为基础的应用，其目的就是获得相应的用户关系.这一社交网站可以对程序编程的接口进行提供，能够为研究人员程序开发提供便利，并使程序在Facebook上更好运行.而要想实现这一目的，则必须先获得相应接口密钥，即研发人员应该在Get Started这一站点得到相应开发资料，做好资料填写与申请等流程，这样，就能够获得相应的ID与密钥，而在后续程序开发中，这些密钥则占据着核心地位，发挥着重要作用.目前，Facebook官方已经不再支持Java开发接口，这使得开发人员必须选择第三方接口，但Google Code则创建了相应项目，其目的就是为失去支持的代码库提供维护与扩展，并将优秀API提供给开发人员，从而进一步开发应用程序.另一方面，用户关系获取.要想促进用户交互的实现，就必须加强对Java Servlet的利用，完成和浏览器之间的通信.这也就意味着需要对Servlet类进行自定义，通常情况下，其与常规Web项目之间没有不同，只需要将初始化的参数添加到相应的文件中.同时，为了准确获取用户关系数据，必须先得到其好友数据，当前，API将三种用户好友列表登录方式提供给了开发者，这三种方式的作用相同，仅在返回格式方式存在差异，主要有XML、JSON以及JAXB.因此，在具体研究过程中，本文只需要通过对堆栈结构的利用，做好大量用户访问工作，得到其关联并存储，就可以促进数据挖掘的实现[6].

3 结论

综上所述，做好基于云计算环境的Web数据挖掘技术分析已经成为一项重要工作.因此，必須掌握虚拟技术与并行编程技术等云计算技术，了解Web数据挖掘的异构性、动态灵活、分布存储等特点与结构、内容以及利用等类型，建立健全数据挖掘体系，并从算法数据结构、数据存储方式以及数据抓取等方面入手，促进数据挖掘质量与效率的提升.

——————————

参考文献：

〔1〕朱娜.基于云计算技术的数据挖掘平台设计与实现[J].信息记录材料，2018，19（06）：79-81.

〔2〕葛晓玢，刘杰.基于云计算的数据挖掘平台架构及其关键技术研究[J].景德镇学院学报，2017，32（03）：26-29.

〔3〕薛医贵.云计算在WEB数据挖掘技术中的应用研究[J].自动化与仪器仪表，2017（05）：156-157+161.

〔4〕张耀东，张娴静.数据加密技术在计算机网络通信安全中的应用分析[J].赤峰学院学报，2018（05）：42-43.

〔5〕葛晓玢，刘杰.基于云计算的数据挖掘平台架构及其关键技术研究[J].景德镇学院学报，2017（03）：26-29.

〔6〕陈磊.基于云计算的数据挖掘平台架构及其关键技术研究[J].电脑编程技巧与维护，2017（06）：64-65.