APP下载

云计算视域下数据挖掘算法探讨

2024-02-03杨小龙

信息记录材料 2024年1期
关键词:分布式计算数据挖掘聚类

杨小龙

(福州软件职业技术学院智能产业学院 福建 福州 350211)

0 引言

在现代互联网技术不断发展与智能化水平越来越高的背景下,物联网技术与人工智能技术得到了进一步创新与发展,许多智能化设备、移动终端等获得了广泛的运用,无时无刻不在产生大量的数据信息[1]。 云计算技术依托虚拟化技术、分布式计算技术以及数据存储技术等多种方式,实现对不同计算资源的科学分配与使用,从而有效解决大规模数据处理问题。 K⁃means 算法是当下应用较为普遍的聚类算法,广泛运用在数据挖掘与分析等行业。 依托云计算技术,K⁃means 算法能够有效发挥分布式计算与存储资源的优势,进一步缩短算法的处理时间[2]。 本文从云计算视角出发探究数据挖掘算法,以期研究成果能够为相关研究工作者提供帮助。

1 数据挖掘算法与云计算概述

1.1 数据挖掘算法

从20 世纪60 年代开始,数据挖掘开始慢慢进入人们视线中,属于一种级别较高的计算机数据处理算法,根本目的是从海量的、充满噪声的、模糊的以及随机的数据信息中挖掘出需要的、有较高价值的数据信息的过程性算法[3]。 在实际进行数据挖掘过程中,重点涵盖了五个流程,分别为云端大规模数据信息的获取、数据信息初步处理、数据挖掘、提炼结果科学评估和获得有价值信息。 以往的数据挖掘工作一般是建立在十分烦琐的数学逻辑运算模型基础之上,需要相关工作者投入较多时间与精力进行计算以后,才可以获得数据挖掘的准确结果,从而导致传统数据挖掘不仅具有很高的专业性,同时复杂程度也较高。 随着云计算技术的不断发展,以云计算为载体打造相应平台能够高效率地、不间断地进行分布式并行数据挖掘工作,同时因其拥有数据挖掘技术要求不高、系统智能分配计算等优势,使得数据挖掘工作速度得到显著改善[4]。

1.2 云计算

在较长一段时间内,国内外学者都没有针对云计算给出统一标准的定义,在众多解释当中最具影响力的还是美国国家标准技术研究院提出的概念,即依托互联网获取共享计算资源,同时基于最小的管理成本与最准确的计算方法得到结果的全新IT 运算方式[5]。 我国许多学者也提出了自身的看法与建议,如一些学者将云计算理解为一种计算效率高的分布式系统,将Web 2.0 技术作为重中之重,依托抽象虚拟的互联网资源,为计算机使用者带来计算机存储与计算服务等。 2014 年,中国电子技术标准化研究院在《云计算标准化白皮书》中指出:“随着云计算的不断发展,业界对云计算的定义认识已趋于统一,目前云计算的定义以ISO/IEC JTC1 和ITU⁃T 组成的联合工作组制定的国际标准 ISO/IEC17788 《 云计算词汇与概述(Information technology–Cloud Computing–Overview and vocabulary)DIS 版的定义为主。”在该标准中将云计算定义为一种可伸缩、弹性、共享的物理和虚拟资源池以按需自服务的方式供应和管理,并提供网络访问的模式。 现阶段,针对云计算支撑技术进行研究的人员越来越多,逐渐朝向多样化方向发展, 其中以Hadoop、 HDFS 以及MapReduce 编程模型为重点,依托配套设施服务、平台服务以及软件服务等达成计算功能[6]。

2 基于云计算的Hadoop 分布式系统结构

Hadoop 属于开源分布系统中的一种,建立在GFS 模型以及MapReduce 模型基础之上,重点涵盖了分布式文件系统以及分布式计算架构MapReduce、数据仓库Hive 以及数据库HBase 等部分,被广泛使用在海量数据信息处理与数据存储等方面,拥有较强的虚拟性、拓展性以及稳定性,可以基于集群节点的延伸来完成大量数据集的高效处理[7]。 一般分布式文件系统的数据放置在Hadoop 系统的底层位置,实现的主要功能是完成Client 用户机主从节点的文件储存,同时在分布式计算架构MapReduce 程序运行中提供相应的数据集。 此外,分布式文件系统还具有良好的兼容性。 HBase 数据库属于一种列存储模型,重点涵盖了Region 表、Client API 端口等,能够将键/值的不同数据类型划分到相应的RegionServer 组件中,最后完成对数据信息的处理与储存。

分布式计算架构MapReduce 模型以HBase 数据库为基础,是一种包含海量数据的数据集并行运算模型,重点负责将导入的各种等待运算的数据信息拆分为多个小数据段,之后将不同的数据段划分到相应的Map 和Reduce 任务当中,紧接着通过二元组键/值对各个任务函数进行计算,同时促使键关键值、Value 数值和Reduce 函数紧密结合到一起,打造小规模的Value 集,最后导出相应的数据信息。

在分布式计算架构MapReduce 模型当中,Pig Latin、Sqoop 以及Hive 数据库等相关数据分析的部件均位于模型上部,从而实现云计算平台的数据信息导入、运用以及导出。 在此过程中,不同数据分析部件发挥的功能各不相同。 具体来说,Hive 实现的主要功能是分布式系统结构Hadoop 的数据收集与转化等,能够使SQL 信息以及SQL查询指令等变化成MapReduce,之后再运行相关程序;Pig Latin 实现的主要功能是对大规模数据信息并行计算进行程序编写,同时提供相应的操作端口;Sqoop 实现的主要功能是完成MySQL 数据库、Oracle 数据库等中信息的输入与输出工作,能够完成多个数据库中HDFS 数据信息的发送与接收。

3 基于云计算视域的K⁃means 数据挖掘算法

在处理云计算平台中大规模异构数据信息时,选取建立在Hadoop 分布式系统架构基础之上的K⁃means 数据挖掘算法,实现对同一类型访问数据的划分,同时给出各个样本参数到聚类中心K 的长度,设定为参数粒子的最高适应度值Gbest,依托对不同聚类数组进行迭代处理,使得获取到的所有参数粒子的Gbest 位置均为最佳位置。 在实际进行算法执行过程中,一般包含以下几部分。

第一,对将要处理的各个聚类数据集X=(x1,x2,…,xn)T进行界定,公式中xn指云计算平台中众多数据信息的第n个,包含大量数据点构成的n维数据集。 公式如式(1)所示。

第三,依托极大似然评估创设目标函数,获得指定数据簇中数据目标的偏差平方和。 正常来说,P表示为数据目标的具体空间方位,mi表示wi数据簇中的数据参数均值,这时能够给出K⁃means 数据挖掘算法的评估标准如式(2)所示。

K⁃means 数据挖掘算法能够实现对多种类型数据信息的分组聚类核算,计算过程较为简便,同时有着较高的空间复杂性。 在实际使用该数据挖掘算法进行大量数据挖掘时,也存在较多问题,具体如下:

第一,K⁃means 数据挖掘算法是将导入数据的平均值当成初始聚类关键点,在这种情况下可能造成一些孤立点被极值所限制,导致最终获得的聚类结果精准性较低。

第二,该数据挖掘算法当中规划的初始聚类中心K是基于不确定方式进行选择的,从而使得结果具有较强的随意性与不稳定性。

第三,K⁃means 数据挖掘算法当中规划的数据聚类数量为K,只能够满足规模不大的数据信息聚类研究。 当数据信息规模变大,聚类运算工作量会越来越大,从而导致K⁃means 算法的数据相似度计算速度变慢、并行计算任务加重,最终获得的聚类实验分析结果的准确性也不高。

4 基于云计算视域的K⁃means 数据挖掘算法优化

从上文可知,K⁃means 数据挖掘算法在数据信息收集、初始聚类中心确定以及数据聚类数量等部分存在一定的问题。 为了进一步提高K⁃means 数据挖掘算法的性能与准确性,针对现有不足进行优化,从而不断提高数据挖掘结果的准确性与可靠性。

在确定不同数据点和初始聚类中心点的间距时,需要建立在两个非常相似的样本值不会出现在相同数据簇的理念基础之上,对数据簇收集范畴、聚类中心点以及数据分布情况等进行深入研究。

第一,对数据簇收集范畴进行确定时,需要对两个方面进行定义。 首先,选取云计算平台中的某个点P,将P点看作是空间区域的中心,半径值为r,形成的区间是P的邻域;其次,云计算平台中的某个点P,半径值为r的区间内包含的数据点数量,看成是P的数据分布密度。

第二,将云计算平台中包含的各个数据采集样本,传输到Client 用户机主从执行节点上。 再通过相应执行节点来引入Map 函数,获得多种数据信息样本的待选点。然后依托Reduce 函数对每个数据待选点进行分析,得到导出键值对。 结合上述两个定义,进一步明确初始聚类的待选中心点。

第三,构建SampleChange 变化函数,对各项数据集进行初步分析与处理之后再传输到K⁃means 进行聚类。 通过这种方式可以很好地屏蔽孤立点与噪声点。

第四,构建SampleMap 函数以及SampleReduce 函数,依托Map 函数的操作键值<key,value>(key 表示现阶段数据行和初始数据行两者的差,value 表示执行节点坐标参数),对数据点x 和聚类待选中心点存在的数值差进行核算。 当获得的结果超过r,这时将此数据点当成新聚类待选中心点, 并导出新待选点的键值。 此外, 依托SampleReduce 函数对<key,value>的数据分布情况进行分析与运算,并将获得的结果和规划的数据密度值进行比对。 如果小于0,便需要抛弃这个点;反之如果大于0,需要用该点来替换原有的聚类待选中心点,并设定为<key’,value’>。 K⁃means 数据挖掘算法优化后的实施流程如图1 所示。

图1 K⁃means 数据挖掘算法优化后的实施流程

5 实验与结果分析

5.1 实验环境

为了更好地验证优化后的K⁃means 数据挖掘算法的性能,采用实验对比的方式探讨原有K⁃means 与优化后的K⁃means 在数据挖掘上的差异。 为确保实验结果的准确性与可靠性,选用的处理器规格为Intel(R)Core(TM)i5-4590 CPU @ 3.30 GHz,运行内存为12 GB;使用固态存储硬盘,内存为515 GB;选用的系统为最新的Windows 11,并将MATLAB R2019a 作为开发环境;使用C ++以及MATLAB 计算机语言。

5.2 收集互联网实验数据

从某个互联网平台中获取经济和医疗方面的2 000个样本参数,分别基于优化前与优化后的K⁃means 数据挖掘算法进行MATLAB 实验,共计实施8 次。 优化后的K⁃means 数据挖掘算法的半径值r设为7,参数分布密度数值F 为4,所有数据点样本均存在4 类属性,从而将2 000个数据样本划分成7 种类型。

5.3 实验结果

分别采用两种数据挖掘算法对数据样本进行初步处理,得到两者的聚类分析结果,具体如表1 所示。

表1 不同算法聚类分析结果

从表1 中可以看出,与未优化的K⁃means 数据挖掘算法相比,优化后的算法在处理各个数据簇样本时,不管是数据收集覆盖率,还是数据中心点确定准确率都更好,同时优化的K⁃means 数据挖掘算法在不正确数据数量上要更低。 由此证明,优化的K⁃means 数据挖掘算法具有良好的应用效果。

6 结语

综上所述,基于云计算背景的数据挖掘算法经过大量科研人员的不懈努力,已经获得了较多优异的研究成果,许多数据挖掘算法已经被深入使用到科研以及工业等领域。 随着数据规模的不断增长,需求的更加多样化以及企业业务的更加复杂化,以往的K⁃means 数据挖掘算法显得较为落后,在数据处理效率以及算法性能等方面都不尽如人意,而本次提出的优化的K⁃means 数据挖掘算法能够很好地弥补不足,表现出较高的应用价值。

猜你喜欢

分布式计算数据挖掘聚类
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于云计算的移动学习平台设计与实现
云计算中MapReduce分布式并行处理框架的研究与搭建
面向异构分布式计算环境的并行任务调度优化方法
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例