云计算在流数据挖掘技术中的应用设计
2013-08-07闫巧梅
□闫巧梅,袁 峰
(1.山西经贸职业学院信息工程系,山西 太原 030024;2.晋城市公安局网络警察支队,山西 晋城 048000)
流数据聚类技术,作为一种重要的挖掘手段,已被广泛应用于流数据挖掘环境下的各领域中。而流式数据的聚类研究也伴随着各种问题及需求而不断发展。而如何解决传统聚类算法对内在单元、处理效率这一对相互矛盾的问题是现今研究的重点内容之一。
云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)是实时动态的、可伸缩的而且被虚拟化的,并以服务的方式提供。因此,云计算为海量、复杂的流式数据挖掘提供了技术支持,并为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
本文基于原有的流式数据聚类算法模型之上,将云计算技术原理应用于其聚类过程,通过模型高效实时地分析流数据的聚类过程,从而降低了海量流式数据处理过程中对内存的占用量,增加了数据的处理维度,提高了数据分析及算法的可移植能力,拓宽了流数据聚类技术的应用领域。
1 云计算
作为信息产业下一代领军技术,云计算是一种大规模资源整合的思想,它的出现给处于信息大爆炸时代的高效率流数据处理及资源的整合提出了新的课题。
1.1 云计算(Cloud Computing)
云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,将大量用网络连接的计算资源统一分配调度,将数据中心的资源构成一个计算资源池向用户提供按需服务。
云计算集成了各类计算资源,以服务的形式提供资源的使用和繁衍。同时也是物联网、“感知中国”和“智慧地球”等前沿理念的技术支撑,代表了信息技术及其基础架构的发展方向,因此受到了社会各界的高度重视。
1.2 云技术提供的服务
在云计算中将云计算中心提供的服务分为三个层次。当用户加入云计算不需要安装服务器或任何客户端软件,可在任何时间、任何地点、任何设备(前提是接入互联网)上通过浏览器随时随意访问,云计算的典型服务模式有三类:“软件即服务(Software as a Service,SaaS)”,“平台即服务(Platform asa Service,PaaS)”和“基础设施即服务(Infrastructure as aService,IaaS)”。
基于云技术的优点,将其引入流数据挖掘算法模型中,不仅可通过资源的共享及虚拟应用节约内存,而且可通过其所提供的服务方式针对流式数据处理特点及过程提高流数据挖掘的实时及快速处理数据的能力,在此过程中,资源的调度及分配对挖掘专家是透明的,从而节约内存资源,提高挖掘质量及其效率。
2 流数据挖掘现状
2.1 流数据挖掘现状
基于滑动窗口的进化数据流聚类算法CluWin(见图1),依据实际应用需求,对一个滑动窗口内的数据流进行聚类分析采用纳伪或拒真两种聚类特征指数直方图作为流式数据的概要数据结构。而它所设计的在线消除旧记录机制,用于保存数据流当前时间线内所分布数据的数据特征,包括分布状况,用户据此可分析出较高质量的聚类结果。
图1 滑动窗口模型下的流数据处理
2.2 存在问题
因特网是一个巨大的、分布广泛的信息服务中心,其产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,用已有的集中式数据挖掘方法已不能满足应用的要求。为了解决这些问题,提出了一种基于云计算的流数据挖掘方法。
2.3 计算与存储整合
在流数据挖掘算法中,内存单元的大小是有限的,而数据的存在是有时效性的,这就要求在设计挖掘算法过程中既要考虑内存空间的使用,同时需要对数据进行实时处理。
通过对云技术的分析,可借助于其所提供的云端服务技术,将一部分固定的处理过程分布于云端,不仅可减轻数据流处理负荷,同时可节约内存资源的占用。
2.4 基于云技术的流数据挖掘架构
针对当前流数据聚类技术的发展及云技术的不断成熟及其广泛应用,本文通过在流数据处理模型中引入新型的云计算平台,使用其提供的各项服务模式,从而在滑动窗口技术下设计出一种基于云技术的流式数据聚类模型,如图2 所示。
图2 数据处理模型
该模型分四个模块:数据流预处理模块,流数据管理平台,云技术服务模块及查询模块。通过使用云技术,可以将数据流数据模块DSMS“瘦身”,即将其一部分数据的查询及验证通过云计算平台分布于其他模块,从而提高DSMS 在处理海量实时数据时的高效性,同时也为数据流处理模块节约了内存资源。
2.4.1 L1 中间资源池模块
在有限的内存空间上,当数据中心的海量流式数据流过滑动窗口进行预处理时,可以借助于中间资源池将操作相似简单的过程交付中间资源池,从而将数据处理预处理过程并行处理。
2.4.2 L2 软件即服务模块
使用互联网向数据挖掘专家提供常用软件的模式,L2 为云端模式可提高运算速度及服务模式。在使用过程中,用户可根据实际需求向云端申请注册,申请成功后即可通过向云计算中心支付相应费用,获取软件的使用服务。
2.4.3 L1/L2 平台即服务模块
平台层为用户提供服务平台、中间件平台和硬件平台,用户通过这些平台上进行应用程序并为其提供服务。通过该平台可以将固有的操作过程分布于云端,挖掘专家可通过因特网申请并使用该平台提供的服务。
2.4.4 L2 基础设施即服务模块
基于该层,可将挖掘过程中所需要的基本资源如内存等设备,集成为一个资源池,为用户提供高效、节约能源的过程,从而避免了因内存资源有限而导致对数据处理能力的影响,提高了数据处理效率。
3 流数据挖掘实施过程
图3 流数据处理过程
在该模型下,可采用实际应用需求,根据数据运营中心对网络资源的需求及其分析,将一些处理简单、使用频度较高、资源占用空间较小以及容易在局域网内实现的中间件部分从云端分布于局域网内,而将使用频度一般,但还经常使用的软件资源、硬件资源以及占用空间较大、技术较复杂的模块借助于云技术实现,从而对流式数据进行分布式的实时处理,节省内存,提高处理效率。
在某个时间段内,基于云技术的流数据处理过程,如图3 所示。
4 结束语
通过理论分析及验证可知,将云计算技术应用于进化数据流挖掘双层聚类算法,从而可达到对数据中心海量流式数据的实时处理,节约内存资源,依据聚类算法所设定的规则,预估用户拐点数据及其可能行为,提高算法的预处理能力及其数据信息分析的准确性。
[1]常建龙,曹 锋,周傲英.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4).
[2]Hey Trefethen A E Cyberinfrastructure for e- Science[J].Science,2005,308(5723).
[3]金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8).
[4]俞华锋.基于云计算的三维虚拟学习环境的设计与应用[J].计算机仿真,2010,27(9).
[5]王 鹏,董静宜.一种云计算架构的实现方法研究[J].计算机工程与科学,2009,31(A01).
[6]陈 康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5).