APP下载

云计算环境下的数据挖掘算法探究

2019-06-05◆张

网络安全技术与应用 2019年5期
关键词:计算环境海量数据挖掘

◆张 珍

云计算环境下的数据挖掘算法探究

◆张 珍

(四川托普信息技术职业学院四川611743)

随着计算机技术的飞速发展,对数据挖掘的精度和速度要求也原来越高,传统的数据挖掘算法已难以满足要求,基于此探究了云计算环境下的几种数据挖掘算法内涵。首先对云计算和数据挖掘算法的内涵进行了概述;其次重点探究了云计算环境下基于Hadoop的海量数据挖掘算法、基于MapReduce的协同过滤数据挖掘算法及基于概率回归模型的异常数据挖掘算法内涵及应用;最后展望了云计算环境下数据挖掘算法的发展中存在的问题和趋势。

云计算;数据挖掘算法;Hadoop;MapReduce

1 云计算及数据挖掘算法

1.1 云计算概述

关于云计算的理论概念,国内外学术界尚未形成统一观点,以NIST(美国国家标准技术研究院)具有代表性:通过网络搜集共享计算资源,并以最低的管理代价和最精准的计算方式获取结果的新型IT运算模式。学者徐浙君(2018)[1]认为:云计算是一种高速计算的分布式系统,它以Web2.0技术为核心,通过抽象虚拟的网络资源池为用户提供计算机存储和计算服务。目前,对云计算支撑技术的研究已形成多元化发展态势,其中以Hadoop、分布式文件系统HDFS和MapReduce编程模型为核心,通过基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)实现计算功能。

1.2 数据挖掘算法

数据挖掘是20世纪60年代以来逐渐发展起来的一种高级计算机数据处理算法,它的内涵为:从大量、有噪声、模糊且随机的数据中提炼出有潜在应有价值信息的过程性算法。它主要包括收集云端海量数据、前期数据处理、数据挖掘、挖掘结果表达评估及提取有效信息五个过程。传统模式下的数据挖掘算法通常基于复杂的数学逻辑运算模型,需要研究人员在经过大量运算后才能够得出针对挖掘数据的精确结果,整个过程专业性强且异常复杂。云计算技术出现后,大量的研究表明:依托云计算构建的高效平台可提供实时高效的分布式并行数据挖掘服务,并体现出挖掘门槛低、系统自动分配运算等特点,大大提升了针对海量数据挖掘处理的效率。

2 云计算环境下数据挖掘算法分析

2.1 基于Hadoop的海量数据挖掘算法

Hadoop是云计算技术中的核心技术,它以HDFS为系统管理存储,并以MapReduce为模型进行云计算操作,基于此构建针对海量数据挖掘、分析和共享的平台。Hadoop支持海量密集型数据的挖掘运算,通过Apache 2.0许可协议发布开源算法软件框架。以Hadoop为核心构建海量数据挖掘算法的系统已成为近年来数据挖掘技术发展的新趋势,本文在综合已有研究的基础上提出基于Hadoop的海量数据挖掘算法模型如图1。

图1 Hadoop的海量数据挖掘算法模型

如图1所示,Hadoop的海量数据挖掘算法模型由三层构成,分别是云计算处理层、数据挖掘处理层和数据应用展示层。首先,云计算处理层位于最底层,是数据挖掘及分布式并行处理的核心层,通常基于HDFS数据存储技术,实际运行中平台可自动调用数据挖掘各节点的模型维持这对数据运算的正常操作,达到分布式处理数据的基本目标。其次,数据挖掘处理层位于中间层,由数据挖掘算法数据处理加载两个子系统构成,其功能为依托具体的数据挖掘算法,如:关联类算法Apriori、FP-growth等,或聚类算法EM、DBSCAN等,对底层提供的数据进行挖掘计算。最后,数据应用展示层位于最顶层,是一个面向用户的系统层,它负责将前期预处理后的数据流通过挖掘算法系统植入应用程序中,建立起实现用户交互功能的展示界面,解决了云计算环境下数据从挖掘到应用的问题。

2.2 基于MapReduce的协同过滤数据挖掘算法

协同过滤算法是传统数据挖掘的主流算法,其目标为[2]:以用户的兴趣需求为依据通过协同过滤的算法系统生成最符合用户要求的项目,并将该项目推荐给用户使用。由此可见,协同过滤算法基于用户需求,体现了数据挖掘算法中的人性化特色,传统的协同过滤算法涵盖M项用户集合U,以及N项的项集I,主要通过求相似值的方法得到推荐项目。云计算环境下基于MapReduce可实现系统过滤算法对数据挖掘的植入功能,具体来说,可将原有协同过滤算法中项计算分为4个MapReduce步骤,首先,求解数据项的平均值。面对大量的数据,在Map-I阶段提取项目号、评分号,将相同键值的输入进行求和运算,在此基础上在Reduce-I阶段中运用Combiner合成器输入带求的和值。其次,求解数据项的相似值。在Map-II阶段分析Mapper的个数,并判断每个Mapper的复杂度系数,并在Reduce-II阶段中进一步计算各个Reducer的复杂度。再次,求解用户项预测评分。在Map-III和Reduce-III阶段继续通过预测计算法构建预测值矩阵求解各用户项的预测评分。最后,构建MapReduce体系预测数据评分。将上述I、II和III三个阶段的预测值整合起来构建系统过滤模型,按照用户的标识需要输入预测值,通过并行化算法得到数据挖掘的结果。

2.3 基于概率回归模型的异常数据挖掘算法

传统数据挖掘算法执行中常常会产生异常数据,异常数据的产生与系统算法的精准度和可靠度有密切关系,且难以完全消除,它会影响到针对数据挖掘的有效性和准确度。基于云计算环境下可通过构建概率回归模型的形式,对异常数据进行精准的发掘识别,为数据的高效处理提供依据。本文在综合前人研究成果[3]的基础上,提出通过在云计算环境下引入混沌算法构建异常数据挖掘算法概率回归模型的思路,具体的模型算式为:

本式中*和*指代云计算环境下数据挖掘算法的线性回归系数,异常数据的时间序列则以Xl、X2和X表示,上述概率回归方程算式提供了云计算环境下针对异常数据的挖掘思路,在此基础上进一步引入混沌算法构建如下算式可实现对异常数据的精准挖掘:

本式中的、和均来源于概率回归方程式中针对待分析数据的挖掘,具体的算法判断标准为:如分子项结果成立,则表明是异常数据,且出现频度较高;如分母项成立,则表明不是异常数据。通过引入混沌算法和云计算环境构建的式(1)和式(2),可实现对海量数据挖掘过程中异常数据的精准识别。

3 结语

本文对云计算环境下的数据挖掘算法进行了细致研究,通过对前人研究成果的梳理总结出三种应用推广性较强的具体算法,并进行了详细的解读,希望能够了为数据挖掘算法的发展提供理论参考。目前,针对云计算环境下的数据挖掘算法研究和应用已逐渐成为学术界研究的焦点,通过对已有文献的查阅发现,现阶段该领域的发展呈现“算法多元化,但应用局限化”的问题,即:很多学者在传统数据挖掘算法的基础上,通过引入云计算思想创设了多种全新的数据算法,但真正能够将这些算法推广并用于实践项目的案例十分稀缺。此外,在算法的实践中还有一些云计算配套环境搭建的问题有待解决,希望能够通过更进一步的研究尽快解决。

[1]徐浙君.云计算下的一种数据挖掘算法的研究[J].科技通报,2018(11):209.

[2]耿德志.云计算环境下海量信息故障数据挖掘算法[J].计算机产品与流通,2018(11):103.

[3]马宁,廖慧惠.云计算环境下频繁出现异常数据挖掘方法研究[J].赤峰学院学报(自然科学版),2017,33(03):31-32.

猜你喜欢

计算环境海量数据挖掘
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
海量GNSS数据产品的一站式快速获取方法
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
云计算环境下的信息安全风险评估
海量快递垃圾正在“围城”——“绿色快递”势在必行
分布式计算环境下网络数据加密技术研究