基于云计算的云数据挖掘引擎研究
2018-04-03
(兰州文理学院数字媒体学院 甘肃 兰州 730000)
0.引言
在21世纪,科学技术的快速发展,使物联网、云计算等新型技术相继诞生,与此同时,互联网技术的迅速普及与推广,使计算机的应用变得越来越深入,数据量也呈现出几何倍数的增长,人们对计算机的数据处理能力也有了更高的要求。面对海量的数据,如何提高计算机的数据挖掘与处理能力,已经成为现下非常重要的热门话题之一,通过对海量数据的充分挖掘,能够帮助人们更加快速的找到所需信息,进而提高数据的利用价值,促进各个领域的发展。由于这些海量数据广泛的分布于互联网中,这也使数据的挖掘变得较为困难,特别是在云计算环境中,不同的数据挖掘技术都有着独特的特点。以下便对云计算环境中不同模式的分布式数据挖掘方式进行探讨,以此研发出基于云计算的云数据挖掘引擎,以便于更好的提高计算机对海量数据的存储、管理与计算能力。
1.基于云计算下的分布式数据挖掘研究
在网络环境中,海量数据的存储位置是不同的,而分布式数据挖掘,便是根据用户的需求来对这些数据进行提取的。通过分布式数据挖掘的有效应用,能够为基于云计算的数据挖掘引擎开发提供有力的理论支撑,从而更好的提高数据挖掘引擎的性能,使数据挖掘引擎的优势得以最大程度的发挥。为此,以下便对分布式数据挖掘的三种不同模式进行分别阐述。
1.1 Agent模式下的分布式数据挖掘
Agent模式又被称之为主体形式的分布式数据挖掘模式,该模式具备较强的自适应性、自主性、协作性与自治性,其通过多个Agent的利用来弥被分布式数据挖掘引擎在数据挖掘过程中存在的不足之处。在Agent中设置有相应的数据本地访问机制,这使Agent能够对数据进行读写操作,并且也使本地数据的安全性大大提高,有效保护了用户的隐私。用户在对Agent进行初始化以后,Agent会根据分布式数据挖掘引擎的运行情况来实施调整,进而降低了数据挖掘中的干预,当数据源改变时,Agent还能对数据源进行动态选择,从而利用静态数据挖掘方式来实现动态数据处理。Agent协作性特点能够更好的发挥分布式数据挖掘的并行、分布挖掘优势。现阶段,Agent模式在进行数据挖掘时,主要是采用“叶脉状”的结构框架,该结构是从一个基础点向若干个分系统进行逐步拓展的,在数据挖掘系统中,不同的分系统之间是存在内部联系的,并且这些系统还能互相影响。利用这种“叶脉状”的体系结构,能够使Agent成为整个挖掘引擎中的唯一语言,进而使云数据挖掘引擎所具备的服务能力得到极大提高,使其更能满足用户的数据挖掘需求。
1.2 Foster模式下的分布式数据挖掘
Foster模式又被称之为基于网格的分布式数据挖掘模式,Foster模式对电力网络的概念及其特点进行了充分的借鉴,并依据网格理论对数据挖掘模式进行了具体的设置,从而使数据挖掘引擎对网络的使用变得更加便捷,使用户对网络的使用要求得到了最大满足。Foster模式和以往的分布式计算模式进行比较,Foster模式利用网格来进行设计,其优势将更加明显,该模式不仅能够实现海量资源的大规模共享,而且也为人们在数据挖掘中提供了全新的服务方式,使数据挖掘引擎的服务范围得到了极大拓展,进而提高了数据挖掘引擎在网络中的信息服务能力。此外,网格分布式数据挖掘模式,在功能上更加适用于具备高性能的计算机系统,它能够为计算机提供大量的远程资源、软件资源与储存资源。Foster模式与Agent模式相比,其在应用优势上各有不同,这也使其能够为基于云计算的云数据挖掘引擎的设计与研发提供科学的理论依据。
1.3 云平台模式下的分布式数据挖掘
云平台模式下的分布式数据挖掘也是非常重要的海量数据挖掘方式,该模式主要是利用虚拟化技术来实现数据挖掘的,该模式和网格模式下的分布式数据挖掘存在许多共同点,不过云平台模式更加注重于数据安全、商业模型、模型计算及模型编程,并且能够支持抽象化的数据应用,这也使其在功能上更加强大,同时可以依据规模经济效益原则,使其能够根据用户的自身需求来提供数据存储、数据计算等云服务,进而使用户在数据存储与计算等方面的需求得到有效满足。可以说,云平台模式下的分布式数据挖掘在实用性上要更高,更能充分发挥数据挖掘引擎的应用优势。
2.基于云计算的云数据挖掘引擎
为了使云数据挖掘引擎的应用优势得以充分发挥,本文便对基于云计算的云数据挖掘引擎下的CLOUDDM框架设计及其主要功能模块的研发进行了深入的分析,以此更好的满足各个领域的数据挖掘与利用需求。
2.1 云数据挖掘引擎的信息服务模块
基于云计算的云数据挖掘引擎采用了CLOUDDM框架,从该框架的功能进行分析,云数据挖掘引擎 能够适用于不同种类的数据信息挖掘。比如,CPU资源数据、网络数据、计算数据资源、数据工具资源等,其中,CPU资源数据与数据存储资源为一般的资源信息,对这些资源数据进行管理主要是利用g-Lite等相关软件来实现的,而计算数据资源以及数据工具资源,则属于一种较为特殊的数据,这也使云数据挖掘引擎在框架设计、应用及运行都是以特殊数据资源管理需求来实现的。在云数据挖掘引擎中,设计人员需要明确云数据挖掘引擎框架中具体的数据资源信息的类别,并对这些不同类别的数据资源信息进行区分,了解哪些种类的数据资源信息能够即时即用,又有哪些种类的数据资源信息需要通过相应的技术处理方可使用,以分析结果作为依据,然后对云数据挖掘引擎的运行模式采取科学的设计,以此更好的满足各个领域的数据挖掘需求。在信息服务模块中,应依据WSRF标准进行设计,需要确保信息服务模块能够对数据计算资源、网络数据以及CPU数据进行高效的管理,并以外服务理论来对其进行设计,以此确保信息服务模块能够满足相关要求及服务需要。在信息服务模块中,应对Publish和Search操作接口进行重点设计,其中,Publish接口的功能在于对用户的所需元数据进行接收,并对框架中的底层服务模式进行调用,并利用数据库对元数据进行存储,当用户需要挖掘某些数据时,用户只需输入具体的查询条件,Search接口便可对相关数据信息进行查询,同时与数据库进行自动连接,并根据用户所提供的元数据来进行数据挖掘。
2.2 云数据挖掘引擎的资源配置服务模块
对于不同领域来说,其对信息服务的要求也是有很大差异的,如何更好的满足不同领域、不同用户的数据需求,就必须要对云数据挖掘引擎中的数据采集机制进行科学的建立,以此确保不同领域的用户能够利用相同平台来挖掘到自身所需信息。而要想达到这一目的,就必须要对云数据挖掘引擎中的资源配置服务模块进行科学的设计。在资源配置服务模块设计中,应完成两个方面的任务,其一是抽象执行计划的实例化任务,其二是概念模型的转换设计任务,两者缺一不可。在抽象执行计划的实例化任务中,主要是为了使云数据挖掘引擎的抽象执行性能得以进一步提高,资源配置服务模块便是依据抽象执行计划转化后所形成的执行方案来进行工作的。概念模型的转换设计任务则是依据用户提供的具体概念,由云数据挖掘引擎来对这些概念进行实例化执行或抽象执行。
2.3 数据挖掘服务
在CLOUDDM框架中,云数据挖掘引擎的数据挖掘服务主要是依据相应的数据挖掘算法来实现的,数据挖掘算法一般都采用的MapReduce,由框架自身对各个算法提供一个与之相匹配的Web Services,并利用HTTP协议来对其进行调用,从而实现算法在计算过程中的聚类、分类、协同过滤及关联规则等。比如,其将EM、K-Means等算法封装到Web Services中,并向用户提供EM()与Kme-ans()等操作,然后通过系统中所配置的算法输入输出路径及参数等,来实现云数据挖掘引擎的数据挖掘服务。
3.结语
总而言之,对海量数据进行高效的挖掘与利用仍旧是当下挑战性较高的一大研究难题,这也使其深受广大专家学者的关注。云计算发展形势下,使新型计算模型得以逐步兴起,从而为海量数据的挖掘与利用问题提供了可靠的设计思路,使基于云计算的云数据挖掘引擎在海量数据挖掘方面更具优势。本文通过探讨不同模式下的数据挖掘方式,在此基础上提出了一种基于云计算的云数据挖掘引擎框架,它能够更好的发挥分布式数据挖掘优势,更好的适应海量数据的挖掘任务,从而在很大程度上满足了不同领域的海量数据处理需求。