云环境下基于群智能算法的大数据聚类挖掘技术

2019-09-02刘云恒

现代电子技术 2019年9期

刘云恒

摘要：云计算从分布式存储和分布式计算两个方面为大数据处理提供了强力的支持，并逐渐成为大数据挖掘的主流平台。但是在处理云平台中的大规模数据集时典型聚类挖掘算法存在一定不足，因此，提出一种基于群智能算法的大数据K?means聚类挖掘算法。首先对云计算Hadoop框架的存储数据能力和采用的Map Reduce计算模型进行分析，然后采用群智能算法对传统数据挖掘K?means聚类算法进行改进，解决其容易陷入局部最优问题。实验结果表明，相比加权K?means聚类算法，提出的改进算法表现出更好的聚类精度和运行速度，可以适用于大规模数据的聚类挖掘。

关键词：大数据聚类挖掘; 云计算模型分析; 聚类分析; 聚类算法设计; 算法优化; 聚类算法改进

中图分类号： TN911.1?34; TP393 文献标识码： A 文章编号： 1004?373X（2019）09?0065?03

Cloud environment big data clustering mining technology

based on swarm intelligence algorithm

LIU Yunheng

（Nanjing Forest Police College， Nanjing 210023， China）

Abstract： Cloud computing provides strong support for big data processing in the aspects of distributed storage and distributed computing， and gradually becomes the mainstream platform of big data mining. However， the typical clustering mining algorithm has some shortcomings while dealing with the large?scale datasets in cloud platform. Therefore， a mining algorithm based on swarm intelligence algorithm is proposed for big data K?means clustering. The data storage capability of the cloud computing Hadoop framework and Map Reduce computing model are analyzed. The swarm intelligence algorithm is used to improve the traditional data mining K?means clustering algorithm to solve the problem that the algorithm is easy to fall into the local optimum. The experimental results show that， in comparison with the traditional weighing K?means clustering algorithm， the improved algorithm has higher clustering accuracy and faster running speed， and is suitable for clustering mining of large?scale data.

Keywords： big data clustering mining; cloud computing model analysis; clustering analysis; clustering algorithm design; algorithm optimization; clustering algorithm improvement

0 引言

云计算（Cloud Computing）是大型计算机到客户端?服务器的大转变之后的又一种巨变，并被社会各界所认可。由于出众的计算性能，云计算得到了计算机领域的广泛认同，其接受程度和应用范围不断扩大[1?2]。近几年来，云计算已经对许多行业产生了巨大的革命性影响，并会完全改变IT产业的模型和运行机制。随着成本的不断降低，低功耗和高性价比的云计算将逐渐替代众多的传统服务器硬件市场。具有高计算性能机、高存储速度和大存储空间的云计算数据中心将迅速大规模普及[3]。不久的将来，大部分应用软件将以服务的形式展现在人们面前，甚至大型的3D游戏也会在远程的云服务器中运行。

伴随着Internet网络的飞速进步及不断普及，如今社会正以十分惊人的速度生成大量的数据。移动通信、网页浏览、办公自动化、在线购物等，极度便利的网络社交和商业活动持续不断地生成各类数据，意味着世界已经迈入了一个崭新的时代，即爆炸性扩张的大数据时代。数据挖掘（Data Mining）技术按照众多事件的相关性，发掘解释数据的一般规则集合，并利用训练和自学习，抽取隐含在数据中的新关系。上述数据的一般规则或相互关系能够为数据管理、信息查询、决策判断和优化控制等应用提供技术支撑。这些数据对于企业来说具有巨大的经济价值，可以视为一个信息金库[4?5]。云环境上的大数据分析已经逐渐成为一个全新的商业模式。但是要实现云环境下的数据挖掘，首先要在云计算环境中实现传统数据挖掘算法，其次需要解决现有传统的数据挖掘算法无法适应大规模数据的问题。文献[6]对基于粒子群算法的智能搜索引擎进行研究，将粒子群算法引入智能搜索引擎中，以實现公安大数据的关联搜索。文献[7]采用的群体协同智能聚类方法在粒子群算法中融入多种群协同进化的方案，避免出现局部最优解问题，提高了数据聚类的效率和精度，最终增强了大数据存储性能，但是仍存在一定的局限性且不能较好地适用于云计算模型。

因此，为了进一步提高云环境下聚类算法的准确率，本文提出一种基于群智能算法的大数据K?means聚类挖掘算法。实验结果表明，相比加权K?means聚类算法，本文提出的改进算法表现出更好的聚类效果。

1 云计算模型分析

1.1 云平台体系

目前，云计算平台主要具有基础设施Server、平台Server和软件Server三种服务内容[8]。云平台典型体系如图1所示。

图1 云平台典型体系

1.2 HDFS架构及Map Reduce计算模型

作为Apache中的一个开源项目，Hadoop分布式框架HDFS是现阶段最流行的云计算服务架构。HDFS主要由一个主从结构构成，完整的集群包含唯一的Name Node和2个以上的Data Node，如图2所示[8]。

Hadoop分布式框架HDFS采用Map Reduce计算模型进行Map阶段和Reduce阶段的执行，从而把大数据集划分成若干个小数据集。完整的Map Reduce作业步骤分为作业提交、作业初始化、任务分配、任务执行和作业完成五个阶段。

图2 HDFS架构

2 基于群智能的聚類算法设计

2.1 聚类分析基本模型

作为一种基于距离的划分聚类算法，K?means聚类算法具有算法结构简单、运行效率高且适用范围广等优点[9]。基于K?means聚类算法的聚类分析过程如图3所示。

图3 聚类分析示意模型

可以看出，式（1）所示的目标函数是一个误差平方和计算过程。其中：E为聚类准则函数;K为聚类的总数;[Cj，j=1，2，…，K]为聚类中的簇;[x]为簇[Cj]中的一个聚类目标;[mj]为簇[Cj]的平均大小。K?means聚类算法的输入参数为数值K和数据集X中聚类目标的数量n，输出为使聚类准则函数E达到最小的K个聚类。

2.2 狼群算法优化设计

面对大数据环境下的复杂优化问题，传统K?means聚类算法在处理大规模数据时存在寻找全局最优解较为困难的难题：在处理大规模数据集的挖掘任务时，K?means算法的聚类效果对初始中心敏感，常常出现陷入局部最优的问题。

因此，基于混合聚类的思路，本文引入智能群体算法中的狼群算法，辅以鲁棒性更强的K?means算法优化混合聚类方法的聚集效果。设狼群中狼的总数为N，待寻优的变量数为[D]。探狼在第d维空间中的位置更新方式如下[10]：

图4 群智优化的K?means聚类算法流程

3 实验结果与分析

3.1 实验环境配置

为了验证所提算法的性能，本文搭建Hadoop云计算平台，在Linux操作系统上进行测试与分析。Hadoop集群所用软件版本信息如表1所示。3个Hadoop集群实验根据不同IP分配设立3个主机节点，各节点配置信息如表2所示。在HDFS分布式文件系统中，集群包含唯一的Name Node和2个Data Node，其中Name Node实现数据管理功能，Data Node实现数据存储功能。

使用一组人工数据集Dataset1对加权K?means聚类算法[9]和提出的群智优化K?means聚类算法进行仿真实验。该数据集Dataset1包含200个样本，类别数为3。实验中狼群算法误差目标值为0.000 1，人工狼的数目为50，最大进化次数为100，更新比例因子为4。

表1 Hadoop集群所用软件版本

表2 Hadoop集群中各节点配置信息

3.2 聚类效果比较

采用聚类正确率和聚类错误率两个指标对不同算法的聚类效果进行量化评估，计算公式如下：

加权K?means聚类算法和本文提出的群智优化K?means聚类算法的聚类精度比较结果如表3所示。从表3中可以看出，群智优化K?means聚类算法具有较好的全局优化稳定性，聚类划分更明确，获得了更好的聚类效果。

表3 聚类精度比较

4 结语

本文提出一种基于群智能算法的大数据K?means聚类挖掘算法。在云计算环境下采用群智能算法中的狼群算法对传统数据挖掘K?means聚类算法进行改进。得出如下结论：本文提出的混合聚类算法解决了传统聚类算法对初始中心敏感、容易出現陷入局部最优的问题，获得了较好的全局最优解;相比加权K?means聚类算法，提出的改进算法表现出更好的聚类效果，但是算法的迭代时间还有待改善和研究。

参考文献

[1] BERA S， MISRA S， RODRIGUES J J P C. Cloud computing applications for smart grid： a survey [J]. IEEE transactions on parallel & distributed systems， 2015， 26（5）： 1477?1494.

[2] WHAIDUZZAMAN M， SOOKHAK M， GANI A， et al. A survey on vehicular cloud computing [J]. Journal of network & computer applications， 2014， 40（1）： 325?344.

[3] JULA A， SUNDARARAJAN E， OTHMAN Z. Cloud computing service composition： a systematic literature review [J]. Expert systems with applications， 2014， 41（8）： 3809?3824.

[4] LU H， SETIONO R， LIU H. Effective data mining using neural networks [J]. IEEE transactions on knowledge & data engineering， 2016， 8（6）： 957?961.

[5] LINDEN A， YARNOLD P R. Using data mining techniques to characterize participation in observational studies [J]. Journal of evaluation in clinical practice， 2016， 22（6）： 835?843.

[6] 胡存刚，程莹.基于粒子群算法的大数据智能搜索引擎的研究[J].计算机技术与发展，2015，25（12）：14?17.

HU Cungang， CHENG Ying. Research on big data intelligent search engine based on particle swarm optimization algorithm [J]. Computer technology and development， 2015， 25（12）： 14?17.

[7] 刘先花.基于群体协同智能聚类的大数据存储系统设计[J].现代电子技术，2017，40（23）：138?141.

LIU Xianhua. Design of big data storage system based on group collaborative intelligent clustering [J]. Modern electronics technique， 2017， 40（23）： 138?141.

[8] KHAN M， JIN Y， LI M， et al. Hadoop performance modeling for job estimation and resource provisioning [J]. IEEE transactions on parallel & distributed systems， 2016， 27（2）： 441?454.

[9] AMORIM R C D， MAKARENKOV V. Applying subclustering and Lp distance in weighted K?means with distributed centroids [J]. Neurocomputing， 2016， 173（3）： 700?707.

[10] YI T， LI H， WANG C. Multiaxial sensor placement optimization in structural health monitoring using distributed wolf algorithm [J]. Structural control & health monitoring， 2016， 23（4）： 719?734.