APP下载

云计算技术下海量数据挖掘的实现机制

2019-08-06何燕燕

无线互联科技 2019年10期
关键词:信息提取云计算数据挖掘

何燕燕

摘   要:传统的数据处理技术已经无法满足人们对信息的需求,数据挖掘技术作为一种全新的信息提取方式,可以帮助个人、企业在海量的信息内容中找到有价值、有意义的信息。首先,文章简要概述云计算在应用过程中的优缺点;其次,针对海量数据挖掘机制的实现进行分析;最后,通过实际案例进行验证分析,以供参考。

关键词:云计算;数据挖掘;信息提取

随着互联网技术不断发展,人们接触信息的渠道不断增加,获取量也随之提高,在这样的情况下,信息筛选反而成为一个难题。新时期,想要快速、高效地完成信息挖掘工作,就要对数据挖掘技术进行创新,云计算技术在处理数据挖掘技术方面有着良好的效果,因此,文章基于云计算技术,分析了海量数据挖掘实现方式。

1    云计算技术的实际应用用处

1.1  云计算技术的实际应用优点

云计算技术之所以可以在数据挖掘过程中得到广泛使用,是因为云计算技术本身具有的存储能力和分布式并行处理能力,可以最大程度提高信息经济价值和实用价值,具体的应用优势包括以下几个方面。

1.1.1  分布式并行数据挖掘能力

云计算技术的分布式并行处理能力效率高、实时性强,尤其是在当前时代背景下,云计算技术的这种性能可以帮助个人、企业更好地实现海量数据挖掘工作。

1.1.2  低成本的高质量服务功能

云计算技术在实际应用过程中,可以应用在多种不同规模的组织结构中,不仅数据挖掘的服务质量高,整体计算成本也相对较低,尤其是在大型数据的快速处理业务中,云计算技术的优势十分明显。

1.1.3  系统自动化分配调节功能

云计算技术在实现数据挖掘过程中,是一个分层实现的过程,尤其是在数据块划分、计算任务调度、加载节点等过程中,可以通过系统实现自动分配。

1.1.4  数据挖掘技术的门栏较低

很多海量数据挖掘机制的使用门栏较高,有很多中小型企业以及社会个体无法使用到数据挖掘技术。不仅如此,一部分数据挖掘机制的操作难度较高,信息挖掘模式固化,无法满足用户需求。但是云计算技术下,可以从用户的实际需求出发,为用户提供个性化信息服务,最大程度保证大众用户的利益和需求。

1.1.5  并行化动态增删改查能力

云计算技术具有并行化的特点,因此也具备动态结点功能,在这种状态下,用户只需要在原有设备上添加结点,就可以进行数据挖掘处理工作。让数据处理速度、处理能力得到有效提高,讓设备生命力和使用率得到提高。

1.2  云计算技术的实际应用缺点

云计算技术目前尚处于初级发展阶段,因此,很多地方还存在一定的问题和缺陷,具体可以从以下几个方面进行分析。

首先,用户需求问题。作为一种新型服务形式,以云计算技术为基础的海量挖掘机制的多样化、个性化水平还需要不断提升。其次,数据容量问题。随着信息技术的全面发展,在实际应用的过程中,数据分析、数据处理将要面临更大的容量,可能达到太字节(Terabyte,TB)甚至于十亿字节(Gigabyte,GB)。可能还要同时处理多种不同的数据内容,数据挖掘难度也会进一步提高,如噪音数据、动态数据、高维数据。再次,算法选择问题。数据挖掘算法会对挖掘效果产生直接的影响,此外,算法设计、参数设置等也会对数据挖掘结果产生影响。最后,不确定性问题。数据挖掘过程中不确定因素较多,经常会出现任务需求描述模糊、数据采集预处理不确定、算法选择不确定等情况。

2    海量数据挖掘机制实现对策

针对上文分析结构,在应用云计算技术实现海量数据挖掘机制的过程中,需要结合用户、企业的个性化发展需求,建立起真正合适的云计算数据挖掘系统。

2.1  海量数据挖掘模型建立

想要让云计算技术的数据存储能力和并行处理能力在海量数据挖掘机制中得到最大程度体现,首先要建立起海量数据挖掘模型。一般情况下,数据挖掘模式性主要分为3个层面:服务层、运算层、用户层,每个层面负责的功能各不相同。

服务层作为基础层次,主要功能是实现对海量数据的存储功能和并行处理功能。在建立数据挖掘模型过程中,数据实用性、安全性、可靠性,尤其是在数据存储阶段,需要充分利用云计算技术使用分布存储方式,建立起数据副本冗余存储功能,避免出现数据丢失的情况。从目前发展状态上看,云计算数据存储技术的普通使用功能有两种,分别为开源分布式文件系统(Hadoop Distributed File System,HDFS)、非开源可扩展的分布式文件系统(Google File System,GFS),另外,为了可以及时回复用户数据,实现实时性动态化的数据挖掘服务,采用多用户指令。

在运算层主要实现的是数据的预处理和挖掘算法的并行处理,是数据挖掘机制的核心。通过对海量、无规则的数据进行预先处理,结合云计算的并行运算模式进行数据挖掘工作,完成数据分类、数据转化、数据约束、数据抽调等。通过数据预处理工作,可以为后续的数据挖掘工作奠定良好的基础,提高数据挖掘质量、效率,保证数据挖掘的快速性和实时性。

用户层是整个数据挖掘机制的最顶层,主要功能是接收数据挖掘指令,并且对系统服务器中的信息进行传递,通过服务器发出的信息指令,调动数据库中的数据内容,并且结合最优算法,将最满足用户查找需求的信息传递给用户。这一阶段也是对信息的深入挖掘阶段,让挖掘结果实现可视化,便于用户查看和了解。

2.2  海量数据挖掘算法实现

在明确海量数据挖掘模型的基础上,还要进一步确定海量数据挖掘的实现算法,常见的算法为sprint,这种算法可以实现多次数据遍历,将数据的特征充分展现出来,一般使用直方图、属性表两种数据结构。基于sprint算法进行并行设计,使用多种不同的表示方式,实现算法的最优化,让函数发展工作得到有效开展。在完成以上处理工作过程中,海量数据挖掘机已经全部结束,为了验证海量数据挖掘机制的效果,使用了某数据作为训练集,验证分析该挖掘机制的有效性。在实际操作过程中,将所有的样本集分隔成了5个没有交集的小组,通过实际验证情况来看,算法的精准率达到了89.25%,精准性较高,可以实现有效分类挖掘。目前,数据量依然在不断增加的过程中,数据挖掘工作也要不断地发展,在这样的状态下,想要对数据进行有效处理,就要结合不同行业特色,设计出更具个性化的数据挖掘算法机制,让数据性和安全性得到进一步提高[1]。

3    海量数据挖掘机制实际案例

为了进一步验证上文中提出的海量数据挖掘机制实际应用效果,本文以某电商业务贸易公司为例,借助云计算技术,建立了电子商务海量数据挖掘系统。

3.1  云计算集群的搭建

考虑到云计算技术的应用环境,采用了六路四核刀片的形式,借助Linux操作系统中的Redhat 5.5系统结构,启动后台进程、相关例程以及云计算集群,从而实现整个计算过程,为海量数据挖掘控制奠定良好的基础。

3.2  数据挖掘体系架构

首先,建立起一个海量数据挖掘系统体系架构;其次,对分布式文件系统层、计算层进行全面的分析;最后,就可以通过实际应用查看具体的效果。

在Hadoop HDFS下,不仅可以实现数据分布式存储功能,还能够最大程度保证功能的高可靠性[2]。因为本文建立的是电子商务海量数据挖掘平台,电子商务的信息分布存储过程中,需要实现文件的分块存储,根据文件的主要内容,利用多台计算机进行集群处理,在保证文件有效性的基础上,对文件进行容错自动分块复制。在这一平台中HDFS主要作用在于对文件的节点进行管理,负责文件系统内的名字空间分配。不仅如此,HDFS还要在客户端文件访问数据平台时,及时处理客户端的读写请求,完成数据块的增、删、改、查功能,让数据块可以有效性创建、删除、复制。而在上层分布式计算层中,HDFS的主要作用是提供数据的输入、数据载体、中间结果,充分发挥云计算技术中的可伸缩性优势,在业务系統的联系阶段,对该电商企业的分布式文件系统进行有效的管理,保证客户端的正常访问。分布式计算层作为海量数据挖掘平台中的重要结构,主要应用的是MapReduce相关模式,在这种模式下,结合分布式并行计算模型,可以最大程度加强数据的有效性挖掘。通过MapReduce模式不仅可以对数据节点进行合理的调度计算,也能够对海量数据进行有效性处理和分析[3]。此外,在数据分析中间层,要建立起协同过滤数据挖掘算法,这种算法在应用过程中,可以根据实际情况进行扩展应用,通过Mahout算法库进行定制,从而让电商平台中的应用层业务得到更好的开展,最大限度满足电商平台的运行需求。

经过对云计算技术下海量数据挖掘系统体系结构的详细分析和实际应用,可知本文研发出来的海量数据挖掘实现机制可以根据企业的服务形式,实现智能信息检索、信息分析、客户聚焦、决策支持等多种电商平台应用层需求。不仅如此,基于云计算技术下,信息材料分析模式实现了竞价参考形式,让该企业可以进行智能分析,满足企业实际运行过程中的业务需求。

4    结语

“互联网+”时代下,社会各界对数据挖掘精准度、数据挖掘成本提出了全新的要求,建立科学的海量数据挖掘体系,让海量数据挖掘工作稳定开展,是现阶段的重点内容。通过本文的分析对海量数据挖掘实现机制有了认识,存储、变化、处理等能力都得到提高,用户数据的安全有效性也得到进一步加强。

[参考文献]

[1]崔辰.云计算技术下海量数据挖掘的实现机制[J].微型电脑应用,2019(4):129-131.

[2]朱娜.基于云计算技术的数据挖掘平台设计与实现[J].信息记录材料,2018(6):79-81.

[3]张菁.云计算技术下海量数据挖掘的实现机制[J].安徽水利水电职业技术学院学报,2018(1):62-64.

猜你喜欢

信息提取云计算数据挖掘
基于并行计算的大数据挖掘在电网中的应用
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究