APP下载

基于云计算的大数据关联规律挖掘分析方法

2021-03-27王世兴

电子元器件与信息技术 2021年1期
关键词:数据挖掘预处理模块

王世兴

(山东交通职业学院,山东 潍坊 261206)

0 引言

时代的进步和发展让互联网的应用越来越广泛,并在诸多领域展现重要优势。互联网技术的发展和进步也衍生出“云计算”技术,该技术是在互联网支撑下的相关服务的使用、交互与增加,通常情况下是利用互联网提供虚拟化、动态化、易扩展性的资源,这都让互联网技术在原有基础上得以进一步的发展,也在数据拓展方面予以不断拓展。也正是因为大数据数量及应用范围的延伸,都让数据关联规律的挖掘显得日渐重要,通过数据挖掘平台的建立以及大数据关联规律挖掘分析方法的探索,能够让云计算技术得以最大价值的提升,也让数据挖掘在现实中具有应用价值[1]。

1 云计算定义及架构

1.1 云计算定义

云计算属于计算平台的范畴。在云计算中,可以利用服务器与部分大规模的数据,通过动态的数据流动形式,将多样化的信息资料呈现出来。云计算对分布式计算、并行计算与网络计算三种计算形式,开展了相关的整理与合并活动,利用动态化与透明化的形式,将部分虚拟计算活动提供给用户,还可以存储有关的信息资源。在具体的实践活动中,关于云计算方面,利用虚拟计算互动,可以促使客户所有的具体需要得到满足,还能够将其中的资源科学的分配给与之相对应的用户,这样,所具备的存储能力非常突出,而且所花费的成本费用比较少,将其应用于具体的活动中,所取得的效果比较理想[2]。

1.2 基于云计算的数据挖掘系统架构

(1)目标系统模型。在基于云计算的数据挖掘系统架构中,所需要的硬件资源比较简洁,相关活动话费的成本费用比较低。在开展项目研发活动时,通过模块与模块间的合作,可以通过系统资源直接开展相关的研究与分析活动。

在具体的实践活动中,通过目标系统模型,可以将多样化的信息服务提供给广大客户。在目标系统中,可以开展应用程序的建设活动,促使具备开放性接口的生成。在进行实践活动的过程中,利用终端,用户还可以开展运用活动。通过对有关应用程序做出间接调用,可以对所有开放式的接口模式作出提供,在开展有关研究工作时,可以研究并分析所运用的算法种类与数量数据处理方式,关于具体的考量工作方面,无需研究计算机的存储率与系统自身的实现能力。

(2)功能层次框架设计。在功能层次框架系统的层次架构中,重点对由下而上的结构形式作出了运用,主要对一些模块做出了利用,比如:数据规约工具、云计算平台、开放接口、用户界面、氛围异构数据集合,在这些层次中,需要将透明化的服务提供给上一层次。利用底层的云计算平台,可以对云计算中的应用程序接口作出提供。关于用户与云计算的交互活动方面,在开展有关设计工作的过程中,主要在顶层的开放式接口中完成。在开放接口中,其主要作用就是,将多种多样的信息数据提供给广大用户,这样用户就可以对数据集作出获取。除此之外,还可以将所有算法提供给用户,并集成应用各种算法,在此基础上,确保平台开行特征的完成[3]。

2 基于云计算大数据挖掘的关键技术

云计算大数据挖掘技术的实现需要对其中关键技术予以深入分析,并结合其中的关键技术来深入探索大数据关联规律,进而实现数据挖掘价值呈现。其中的关键技术主要包括数据采集和储存、数据预处理、数据挖掘算法并行化等内容,本节就相关技术进行分析。

2.1 数据采集和储存

在大数据的采集技术中,可以利用多样化的方法,比如:社交网络交互数据、传感器数据、移动互联网数据 、RFID视频数据等,对所有非结构化和半结构化以及结构化的大数据信息作出获取。伴随着科学技术的日新月异,数据信息的增长速度也处于不断加快之中,尤其是非结构化数据具备飞快的增长速度。所以,在开展有关工作的过程中。所运用的基础设备,除了具备优良的性能与较大容量之外,所具备的吞吐率也应当比较突出,只有这样,才可以确保大数据存储工作的顺利实现。

2.2 数据预处理

数据预处理指的是,在开展发掘任务工作之前,针对不规则的大数据或非标准的大数据,初步开展相关的预先处理活动。倘若数据信息具备一定的真实性与高效性,可以促使处理结果的准确性与可靠性得到保障。在预处理有关数据信息的过程中,除了上述工作之外,数据的选取、转换、清洗、集成、数据规约与异常检测等内容同样居于主要地位。所以,面对大量的数据信息,在完成数据预处理工作之后,方可开展数据的挖掘活动,这样可以增强处理后数据质量,与此同时,还可以提升数据挖掘活动的可靠性与高效性,确保相关活动的顺利实现[4]。

2.3 数据挖掘算法并行化

要想促使数据挖掘算法并行化工作的顺利完成,主要运用的是基于云计算的大数据关联规律挖掘技术,该技术发挥着至关重要的作用。通过基于云计算数据挖掘这一关键技术的应用,可以最大限度实现大数据发掘适用性能的提升。在基于云计算的大数据关联规律挖掘技术中,并行关联、聚类、分类与回归算法也居于主要地位,具有非常重要的作用。运用数据挖掘的常用算法并行化的方式方法,可以有效推动与之相对应的优化工作的完成。还可以将Map Reduce计算模型,应用于云计算的平台中,进而促使在相关平台中,可以直接开展大数据挖掘活动。所以,为了提升大数据挖掘工作完成的科学性与高效性,可以进一步探究数据挖掘算法的并行化实现工作。

3 云计算技术下数据挖掘平台设计

大数据挖掘技术要想真正得以应用与渗透,就需要做好数据挖掘平台的搭建,这也成为大数据挖掘技术的重要支撑。该平台建设涵盖了云计算技术、虚拟化技术、分布式存储技术等多技术手段,并将这些技术融会贯通,实现了云计算技术挖掘平台的高质量建设,为云计算大数据挖掘技术的更好实现提供了支撑和基础。

3.1 系统总体设计

在以云计算技术为基础,开展数据挖掘平台设计工作的过程中,三层结构模式的运用居于主要地位,发挥着至关重要的作用。在该过程中,将主要层次确定为数据预处理、云计算与数据挖掘平台,以此来实现平台总体性能的提高,推动数据挖掘功能的完成。在主要的系统设计结构中,首先需要对通信资源信息与服务器端数据,开展数据预处理工作,并使有关信息进入数据仓库,然后,利用云计算技术,对有关信息的规则、模式、模型与图表作出处理。最后,进入数据挖掘平台,为决策管理与资源管理活动的开展提供重要支撑,进一步改进并优化通信性能[5]。

在开展数据挖掘系统结构设计工作时,通过数据预处理层,可以储存分布式数据文件,推动整个平台分布式管理工作的完成。在云计算层中,可以从整体上调度并控制所有数据的挖掘步骤与模块,确保原始数据预处理工作的顺利完成,并对多样化的挖掘数据做出获取。在具体的实践活动中,可以高效利用数据挖掘平台,可以对具体需要做出系统考量,科学开展设计工作[6]。

3.2 系统功能设计

在云计算技术下的数据挖掘平台中,其数据挖掘功能比较多样,是由多个模块共同组成的,如:数据预处理模块、数据收集模块、应用接口模块等。在数据收集模块中,主要负责整理平台服务器端口中的数据信息,归纳用户的所有信息材料,利用文本形式开展收集活动,并将上述信息数据返回。在数据预处理模块中,利用所返回的数据信息,去除部分不存在价值的信息数据,促使数据挖掘系统的挖掘性能得到强化。在应用接口模块中,主要负责有效对接并处理数据与数据挖掘平台。

3.3 平台数据库设计

在具体的数据库设计活动中,可以将所有数据库特征高效运用起来,这样能够高效删减冗余数据,统一开展数据的存储活动。通过主键与外键,可以促使生产动态视图的生成,为编写程序与查询检索代码创造更加优良的条件。在该平台中,通过Reduce,可以对所有模式的任务数据作出接收,任务不同,其所传输的信息数据也具备一定的顺序。在云计算下的数据挖掘平台中,倘若Reduce接收的是较少的数据信息,可以直接将其存储于内存中。在数据量不低于缓冲区比例的情况下,可以合并并处理所有信息数据。

3.4 数据挖掘平台算法实现

通过高效整合数据挖掘技术与云计算,在规模无穷的机器集群中,可以高效的开展计算机的扩散分析活动。在以Map/Reduce为基础的框架中,可以计算分析并处理所有请求活动。在进行数据挖掘时,可以划分具体的数据挖掘作业,分成为不同的任务,并在此基础上,开展分配活动,利用不同的机器完成相关任务。在完成有关任务之后进入至下一个数据挖掘步骤中,合并上述文件,并对企业开展输出活动。在数据平台系统中,利用循环应用算法,可以对所生成的Reduce任务,开展有关处理工作,使其转变成数据挖掘目标文件,满足具体的需要活动。通过数据挖掘平台算法对数据挖掘平台进行设计,可以促使数据信息变得更加灵活,提高数据挖掘效率,强化数据挖掘质量,实现工作效率的提升。

4 结论

伴随着互联网和信息技术突飞猛进的发展和进步,信息的总量更是与日俱增,世界范围内所面临的大数据挑战更加严峻。云计算的海量数据与突出的计算和数据处理能力,可以为数据发掘活动提供重要支撑。通过基于云计算的大数据关联规律发掘分析活动,可以对业务数据的发掘应用起到有效的推动作用,平台用户还可以对大量的数据信息作出获取,并开展相关储存活动,在提升数据管理效率的同时,降低有关成本费用。

猜你喜欢

数据挖掘预处理模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
探讨人工智能与数据挖掘发展趋势
基于预处理MUSIC算法的分布式阵列DOA估计
基于并行计算的大数据挖掘在电网中的应用
浅谈PLC在预处理生产线自动化改造中的应用
一种基于Hadoop的大数据挖掘云服务及应用
选修6 第三模块 International Relationships
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法