云计算物联网体系的数据挖掘模式设计
2015-12-20曹建春
曹建春,曾 赟
(黄河水利职业技术学院,河南 开封475004)
0 引 言
随着海洋运输及海底开发业务的发展,基于海上各种应用的电子信息系统越来越多,如用于海底开发的目标探测系统,在海运业务中发挥重要作用的气象传感网络,现有的这些应用大多是基于物联网的体系结构,其利用各种类型的传感器对目标物采集数据,然后发送至各自系统的信息处理中心进行数据处理及挖掘。随着业务的增加,传统的信息处理系统无论在数据挖掘的处理效率,还是数据存储容量都无法满足日益扩张的应用服务。
云计算是一种分布式﹑并行化的计算架构[1],它利用虚拟化技术把分布在不同地方的计算资源按照一定的逻辑进行组合,同一处理任务可以通过进程的划分运行在云系统不同的计算节点,有效的增加了系统的信息处理速率。同时,基于云的数据挖掘算法可以避免传统算法中收敛速率过慢,时效性过低的缺点,有效提高了海上海量数据挖掘的效率。
本文在研究现有的云计算架构及数据挖掘技术的基础上,改造Apriori 算法,提出一种基于云计算的高性能数据挖掘算法,并进行仿真,同时和传统的算法进行比较分析。
1 基于云的数据挖掘原理
1.1 云计算架构
云计算是最新的信息科学研究方向,利用虚拟化的技术将分布在不同地方的计算机硬件进行统一,对所有硬件资源进行抽象,并按照一定的逻辑进行资源划分。
对于用户端,云架构是一种透明的[2]﹑安全可靠并且可扩展的架构。用户无需知道具体的硬件资源,只需提交作业,则云服务器自动进行资源分配。
图1 为云计算平台架构图。
图1 云计算平台架构Fig.1 The cloud computing platform architecture
云计算服务平台根据用户申请的任务所需要资源动态的进行平台中计算及存储资源的分配。当前可利用资源不能满足用户所需资源时,云计算平台通过监控服务控制程序从可用资源池中调用新的可用资源放入当前资源池中。
1.2 数据挖掘原理
在云计算平台中,不同应用程序所得到的数据是按照一定的逻辑关系进行编排,组成一个数据队列。然后利用云处理平台统一进行处理,根据不同的用户需求来分配相应的资源。
具体步骤如下:
假设海上不同应用程序所得到的数据集合为{b1,b2,…bp},应用程序的个数为p,数据之间的复杂度设为λ。云计算平台首先将数据集合{b1,b2,…,bp}进行融合,属性相同的数据进行合并,转化为结构化的数据队列{e1,e2,…,cq},其中属性个数为q。
首先需要求得数据bi与需求之间的耦合性[3]:
则针对特性需求数据bi进行数据挖据,所需要的耗时公式如下:
式(1)分析可知,数据之间复杂系数λ 与数据挖掘需求之间呈现线性关系,随着应用系数数据复杂度的提升而提升。式(2)分析可知对不同的应用系统,其数据挖据之间的耦合性增强,则最终的处理时间随之增加。
在海上各种数据处理系统有可能处于不同的地点,并且各种信息处理系统架构也可能不同,随着应用的增多,无论从复杂度还是处理信息量都有了指数级增长。传统的集中式数据挖掘处理平台的计算性能以及存储容量已经越来越不能满足业务的扩展,并且传统算法在处理多属性数据挖掘算法时,容易陷入局部最优点。
2 基于云计算的数据挖掘模式设计
2.1 云计算对数据挖据的优化处理
如上节所示,利用统一的信息处理平台对不同应用的海量数据进行数据挖掘处理时,其算法的收敛效果较差,并且计算资源和存储资源并不能满足客户需求的增长,从而导致信息系统的效率降低。本文利用分布式的云架构对数据挖掘算法进行改进,提出一种分布式架构及网格处理的Apriori 数据挖掘[4]算法,有效提升了计算效率。
首先在初始化阶段,云计算服务器需要对各种需要处理的数据,根据属性进行判断、排序、优化等操作,下面详细描述其步骤:
1)对不同应用程序所得到的数据集合的属性进行统计,并将随机的数据集合按照不同的数据属性重新进行排序。
2)对排序后的序列进行简化处理,相同属性的数据删除冗余数据。并且云服务器端需要构建各数据之间的关联系数。
①首先得到不同属性数据的逻辑关系集。
②假设用户所需的数据集的属性为B,经过云服务器端逻辑处理后的逻辑属性为D,则需要计算用户需求E 与原始数据及属性B 及处理后的逻辑属性D 之间的关系:η(D,E)及η(D - {B},E)。
3)计算原始属性B 与用户需求E 之间的关联系数,公式如下:
若计算的该关联系数大于0,则表示原始属性B与用户需求E 之间相关,则在云存储端保存原始数据;否则,则说明原始属性B 代表的数据集与用户需求没有关系,不保存数据。
4)最后将经过上述步骤处理的有效数据保存在云数据库端。
数据冗余判断及关联性处理如图2 所示。
图2 数据关联处理模型Fig.2 Data processing model
通过上面预处理后,能有效降低数据的复杂性,并且去除冗余数据,为接下来的数据挖掘提供有效数据。
2.2 云数据挖掘算法
本文利用Apriori 算法对云数据挖掘进行计算。首先统计经过云计算服务器预处理的数据属性个数,得到针对每个不同属性的业务数据集。然后对每个属性的数据逐次进行计算。首先计算得出属性种类为1 的需要挖掘的数据集,记为M1。然后根据与属性为1 的关联系数,计算属性种类为2 的需要挖掘的数据集,记为M2,同理依次计算属性为3,4,…,L的数据集,并记录为M3,M4,…,ML。为了有效地进行计算的资源分配[5],按照如下步骤进行:
1)对集合进行关联
对每个属性的信息集ML-1做自相关运算,得到相关矩阵集Di,假设m1,m2∈ML-1,则mj(k)为包含所有属性的信息集M1,M2,…,ML中排序为j 的向量中的第k 元素,云计算服务器端把信息集合中的每个向量按照升序排列,有:
同时,本文假设在信息集M1,M2,…,ML相邻向量之间互相关,则每个矩阵向量中元素m1,m2也具有相关性,数据之间进行连接操作可以简化数据挖掘算法的复杂度,具体公式如下所示:
最终经过关联处理后的数据表达式如下:
2)冗余数据裁剪
数据挖掘是从海量的信息中提取出用户所需数据,而原始数据中包含大量的数据冗余信息,需要进行裁剪。若原始数据集为Di,包含所有属性的数据集,则D 为数据集Ml,Ml超集,也即Ml∈Dl,同时根据Dl所包含的数据属性数目来推断出ML-1,则推断过程中由于原始数据集Dl数目信息量过于庞大,其算法复杂度很高,所以需要对Dl作冗余裁剪及压缩数据信息含量。若属性i 的数据集Mi与属性j 的数据集Mj之间信息存在交叉数据,则对交叉数据进行裁剪,最终实现对原始数据集Dl的简化。
3 算法仿真
本仿真平台为Visual c ++6.0,构建的云计算平台原始数据集为所有信息数据总量P,数据属性的个数为l,没有经过处理后的信息集为{b1,b2,…,bp},经过云服务器端处理后的信息集为{c1,c2,…c3},那么原始数据集中的向量bj与经过逻辑处理后的向量ck之间可以进行关系描述。
对上述数据可以计算基于云计算的数据挖掘算法耗时,公式如下:
上述耗时是衡量算法最重要的性能指标。
在本次实验中数据属性设为15,每个属性的数据样本量为1 000。
第1 个实验假设数据属性不同的数据之间的没有相关性,也即数据的复杂度较低,图3 为利用传统的算法与本算法的比较曲线图。
图3 复杂度小的数据处理耗时曲线图Fig.3 The time curve of the small complexity data processing
数据属性不同的数据之间的有相关性,也即数据的复杂度较高,图4 同样为利用传统的算法与本算法的比较曲线图。
图4 复杂度大的数据处理耗时曲线图Fig.4 The time curve of the big complexity data processing
4 结 语
现代海洋业务的信息处理系统业务越来越多,传统的对多业务的数据挖据算法的时效性已经越来越不能满足客户的需求;同时,随着计算机科学的发展,基于云计算集分布式架构在处理多数据信息处理中的应用越来越成熟。
本文在研究现有的云计算架构及数据挖掘技术的基础上,改造Apriori 算法,提出了一种基于云计算的高性能数据挖掘算法,并进行仿真。
[1]GOETHALS B.Memory issues in frequent itemset mining[C]//Proc of ACM Symposium on Applied Computing.New York,NY:ACM,2004:530 -534.
[2]BARALIS E,CERQUITELLI T,CHIUSANO S.Index support for frequent itemset mining in a relational DBMS[C]//Proc of Data Engineering 2005.ICDE 2005.Los Alamitos,CA:IEEE Computer Society,2005:754-765.
[3]WILLIAM A M,MOHAMMED J Z.Systems support for scalable data mining[J].ACM SIGKDD Explorations Newsletter,2000,2(2):56 -65.
[4]臧丽娜,郑艳娟,张宇敬.面向云计算的船舶生产信息平台建设[J].舰船科学技术,2014,36(12):107 -111.ZANG Li-na,ZHENG Yan-juan,ZHANG Yu-jing.Research on ship production information platform based on cloud computing[J].Ship Science and Technology,2014,36(12):107 -111.
[5]曹强,潘维光.数据挖掘技术在舰载信息系统中的应用研究[J].舰船科学技术,2005,27(8):62 -65.CAO Qiang,PAN Wei-guang.A study of DM technique using in warship C4ISR[J].Ship Science and Technology,2005,27(8):62 -65.