基于云计算的大数据挖掘平台设计
2017-08-08王小燕
王小燕
(陕西广播电视大学 陕西 西安 710119)
基于云计算的大数据挖掘平台设计
王小燕
(陕西广播电视大学 陕西 西安 710119)
随着网络技术的迅速发展,人们接收的数据日益增多,如何能够在较短时间内提取出大量有用的信息成为现阶段计算机处理信息的研究热点。针对该问题,文中提出了一种基于云计算的数据挖掘技术,该挖掘系统的实现,从理论上拓展了数据规约功能,同时在此基础上提出并解决了数据访问及数据类型的难题。最后,通过实验验证了该系统的高效性及可行性。
云计算;数据挖掘;数据规约;数据访问
随着信息化技术的快速发展,人们接收的数据日益增多,这些数据具有量大、异构、复杂等特点,研究者难以发现这些数据中蕴含的模式和知识[1],但对其进行分析能发现和预测科研与商业领域上未来的发展趋势,具有不可估量的研究价值与商业价值。因此,各界研究者连在一起,提出了数据挖掘技术[2]。数据挖掘指从大量的数据中通过算法搜索隐藏于其中信息的过程,其包含了统计学知识、人工智能、模式识别、各种建模技术以及算法等知识[3]。
近年来,针对数据挖掘人们提出了各种分布式并行数据挖掘平台框架,包括基于集群的、基于三层C/S的以及基于Agent等框架结构[4]。然而这些框架因结构复杂,适应能力差,只能针对某一种应用而去开发,且成本过高故未被广泛应用。云计算作为网格计算的升级,其具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务和易用等优点,在搭建数据挖掘平台上具有较大的优势。为此,本文设计了基于云计算的大数据挖掘平台,其既体现了强大的网络计算能力,并在继承原有体系的基础上又解决了其的不足。此外,可满足中小企业、科研单位及个人用户等小型系统由于资金问题的局限性,且还可提供较高的效率。
1 云计算定义及架构
1.1 云计算定义
云计算是一种计算平台,该平台能够通过服务器以大规模数据,动态数据流动为电子商务及科研项目等提供资源[5]。云计算集分布式计算、并行计算和网络计算于一体。为了能动态、透明的为用户提供所需的虚拟计算与存储资源,云计算应用傲拟化技术来满足用户的小同需求,且当该用户不使用时,还可将资源分配给其他用户,其廉价高效的计算及存储能力使得越来越多的资源被广泛应用[6]。
1.2 云计算架构
如图1所示为云计算框架,该框架的优点是硬件资源简单,消耗成本低,其各个模块之间相互配合,开发人员在开发项目时,可直接通过调用系统资源来实现。对于数据挖掘技术的实现,可先通过算法研究,然后将算法部署到云计算中去实现[7]。
图1 云计算框架
2 基于云计算的数据挖掘系统架构
2.1 目标系统模型
如图2所示,该系统能够为用户提供各种服务,并可为在此系统上建立的应用程序提供对开放式接口的支持[8]。用户对系统的使用一方面可通过终端,另一方面可以通过间接调用其他应用程序提供的开放式接口。而研究者只需关心所需选择的算法种类或是数据处理方式,无需考虑计算机的存储能力或系统实现等问题[9]。
图2 目标系统模型
2.2 功能层次框架设计
如图3所示,该系统的层次架构采用自底向上结构,分别为异构数据集、数据规约工具、云计算平台以及用户界面与开放接口,自底向上每层均透明的为其上层服务[10]。云计算中需要的应用程序接口,由最底层的云计算平台提供,用户与云计算的交互在顶层开放式接口中得到设计。对于开放接口的功能,其既能为用户获取数据集,又能使用户便于调用各种算法,将其集成到应用中能够实现平台的开放性。
图3 基于云计算的大数据挖掘平台分层架构
3 基于云计算的数据挖掘系统实现
基于以上系统平台架构,本文实现了该平台的数据挖掘原型,其中两种经典算法ID3决策树和K-means[11]聚类以插件形式实现,并通过数据集来验证数据规约工具在云计算中的高效率及可实现等特性。
3.1 挖掘系统开发环境
本系统所采用的开发工具为Eclipse3.4[12],其为一个跨平台的集成开发环境。该集成开发环境主要由Java语言开发,其灵活性强,且是开源免费的。系统开发语言为Python[13],其可移植性与可嵌入性均可为系统的协同开发提供便利。
3.2 算法模块实现
文中在OSGi的标准下设计了插件系统的结构,平台的动态扩展通过模块的动态加载算法来实现,与此同时平台的系统资源消耗也大幅降低[14],因为只有在用户调用时算法模块才被加载,之后系统自动回收资源,其原理类似于虚拟机机制,具体实现方式为,当plugins为所有算法模块插件文件的目录文件时,每当通过调用GET方法调用algorithms REST接口时,get-algorithms被自动调出,并以该格式命名的所有文件将会被遍历,而算法模块的调用主要通过访问算法的地址而获得,且在每个算法模块中均至少含有表1中的函数。
除此以上函数外,将算法以及与该算法相关的测试用例相关函数统称为算法插件模块,测试人员在进行开发时,在遵循上述函数模块的基础上,根据开发实际需求即可将上述算法打包成算法插件模块,并将该插件动态嵌入到动态数据挖掘系统中以实现大数据的各种计算[15]。
表1 算法插件模块内部公有函数
4 实验结果与分析
为了验证该系统的可行性,文中选取了国外一所大学的机器学习数据集,并将数据集分为4个数量不同的分组,采用两种不同的算法分别在本地及云计算平台上运行,其结果如表2所示。通过比较表2中四组本地执行时间和系统执行时间可得出以下结论,基于云计算的数据挖掘系统执行效率比单机系统高,且当数据量越大时,这种优越性体现的则更为明显。
表2 执行时间对比
5 结束语
为解决传统数据挖掘平台框架存在的结构复杂、适应能力差、成本过高的问题,本文设计了基于云计算的大数据挖掘平台,其通过数据规约功能解决了数据异构问题,同时在此基础上提出并解决了数据访问及数据类型的难题。最后,通过实验验证了该系统的高效性及可行性。未来该技术会在原有平台的基础上不断拓展和加深,持续完善原有系统的框架结构及规范,使大数据挖掘系统的平台面向更广阔的使用者。
[1]王孝周,马永晨.大数据时代的挑战价值与应对策略研究[J].信息通信,2015(1):236-236.
[2]赵春雷.“大数据”时代的计算机信息处理技术[J].世界科学,2012(2):30-31.
[3]易鲜红,朱成.用Delphi5开发多层应用系统处理大数据集的方法研究[J].计算机应用研究,2001,18(12):126-128.
[4]黎宏剑,刘恒,黄广文,等.基于Hadoop的海量电信数据云计算平台研究[J].电信科学,2012,28(8):80-85.
[5]成静静.基于Hadoop的分布式云计算/云存储方案的研究与设计[J].数据通信,2012(5):14-18.
[6]顾芳,刘旭峰,左超.大数据背景下运营商移动互联网发展策略研究 [J].邮电设计技术,2012(8):21-24.
[7]覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[8]朱盛凯.基于MapReduce的科学计算应用性能分析与优化[D].上海:复旦大学,2010.
[9]孙红,郝泽明.大数据处理流程及存储模式的改进[J].电子科技,2015,28(12):167-172.
[10]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
[12]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].电子科技,2015,28(2):127-130.
[13]罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21.
[14]朱志军,佘丛国,闫蕾,等.大数据:大价值、大机遇、大变革[M].北京:电子工业出版社,2012.
[15]姚宏宇.大数据与云计算[J].信息技术与标准化,2013(5):114-116.
[16]吴毛毛.基于云计算的智能电网中智能营销系统架构研究及实现[D].北京:华北电力大学,2013.
Design of large data mining platform based on cloud computing
WANG Xiao-yan
(Shaanxi Radio and TV University,Xi'an 710119,China)
With the rapid development of network technology,can in a relatively short period of time,extract a lot of useful information has become a difficult problem in the stage of computer information processing,aiming at the problem,this paper presents a cloud based data mining technology.The technique on the development platform to achieve data protocol functions,so as to solve the data access and data type,then the development platform design data mining system and verified by experiments.It is proved that the protocol of the data validity and data mining system efficiency.optimization.
Cloud computing;data mining;data reduction;data access
TN99
:A
:1674-6236(2017)13-0025-03
2016-07-17稿件编号:201607127
陕西省教育科学“十二五”规划(SGH12532);陕西广播电视大学2014-2015年度教学改革研究课题(15DJ-A05)
王小燕(1982—),女,陕西西安人,硕士,工程师。研究方向:软件工程。