物联网数据挖掘中Apriori算法的实践应用研究
2017-01-30黄鑫
黄 鑫
德宏师范高等专科学校,云南 芒市 678400
物联网数据挖掘中Apriori算法的实践应用研究
黄 鑫*
德宏师范高等专科学校,云南 芒市 678400
近年来,由于物联网概念的出现,在给人们日常生活来带便利的同时,也在产生的海量的数据存储,物联网数据的不断增多,加大了用户在庞大的数据中获取想要的信息的难度。因此,对于物联网中数据挖掘能力的研究成为当下最热门的话题。
Apriori算法;物联网;数据挖掘
一、数据挖掘的概况
随着物联网概念的不断发展,通过物联网的农业、交通、物流等方面进行的活动都愈发广泛,在不少领域中物联网都有着良好的发挥。物联网可以通过对数据的存储和分析,解决物联网过程中产生的海量数据,在此之中数据挖掘的意义就显现了出来。由于物联网数据的零散性和无规律性,在物联网数据挖掘之前,必须先对物联网数据进行量化整理,导致了数据挖掘难度增大。而Apriori算法由于其在规则关联运算中的优势,常被用于物联网的数据挖掘,通过Apriori运算,可以更好的关联用户数据,完成对于物联网海量数据的挖掘。
(一)物联网数据挖掘的特点
物联网技术和互联网技术的不断发展,在用户收集和使用数据等方面取得了巨大的成功,但在此过程中,会产生海量的数据,难以被归纳和整理。在物联网的使用过程中,通过传感设备,将采集到的信息数据向物联网数据中心传输。为了满足用户对于数据的使用,数据中心会对所产生的数据进行保留,而随着历史数据的不断积压,数据中心的负荷也不断增加。又由于物联网的涉及范围的广泛,在使用过程中所产生的数据种类也更加复杂。由于传感器的不同类型,如GPS传感、RFID传感等传感终端都可以构成物联网,而不同传感终端所使用的语言、格式也不相同。
(二)物联网海量数据挖掘
在物联网海量数据的研究过程当中,RFID信息数据占有主体地位。通过对研究对象的数据挖掘,可以在海量数据中获得有价值的信息。如在RFID传感终端中,可以得到EPC既标签的标识码、标签的地点和时间等数据。由于物联网的海量数据在多方面存在着局限性,对于物联网海量数据的挖掘具有巨大的难度。而通过RFID数据分析,对于物联网商业的决策方式有着非常重要的影响。
二、数据挖掘系统的建立
(一)数据挖掘的系统整体结构
数据挖掘系统是由数据存储、数据挖掘算法、数据挖掘的任务处理等层面构成的,数据挖掘系统以Master为主控节点,通过与用户进行交互、管理整个系统。而存储在同一个部分的节点中的Map/Reduce化数据挖掘算法可以更好的实现数据挖掘的高效性。通过NameNdoe接受用户的相关请求,将用于返回存储数据的DataNode的IP传送给用户,并将信息通知通过网络渠道发送给其他接受副本信息的DataNote。
(二)数据挖掘的算法层面
Map/Reduce化深入到了数据挖掘的常用算法中,将Apriori算法进行Map/Reduce化可以获得分布式并行的关联规则算法。在系统数据挖掘算法层中,常用算法都集中在该层面的算法节点里,通过相应的平台,通过Msater主控程序节点进行相关的管理与使用,并根据不同的客户需求,对相关节点进行传送算法。
(三)数据挖掘的任务处理
数据挖掘的任务处理层面,是整体系统的核心层面。Master可以通过调动空闲的DataNode节点,将其导入空闲节点列表中,通过用户的不同请求,获取DataNote各个数据模块的存储信息,通过采取相应的算法,将数据进行挖掘计算,再将挖掘计算后的成果传送给DataNode节点,根据计算任务,通过HDFS服务器传送给Master,再反馈给用户。这个过程中因为取消了数据重组与传送的过程,所以在整个系统的运行过程中,效率都会大大提高。
三、物联网数据挖掘中Apriori的运用
Apriori算法是一种挖掘布尔关联规则频繁项集的算法,在物联网数据挖掘领域中是最常用也是最有效的算法。所谓的关联规则挖掘,就是指在关联数据当中,针对用户个人的资源检索,根据某一特定因素进行判断和分析,保证系统整体的行为模式正常进行。在此之间,从许多看似无关的项里分析其内在关联性,在物联网的数据挖掘中具有重大意义,而在事物中找出频繁项集和项集之间的关联性,就需要运用到关联规则运算。Apriori算法通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,让Apriori算法在数据的关联过程中,向数据库中存入内存,将其实现在数据硬盘之中。使用逐层替代的方法,通过K项集进行(K+1)项集的探索,对数据集进行第一层扫描,并生成L1项集,利用L1项集再对深层次的L2项集进行探索,直到频繁项集为空集。由于任意子集都是频繁项集,可以将其用来压缩并处理搜索空间,加快频繁项集的生成速度,经过K次循环搜索,数据挖掘通过操作连接项,使LK-1产生候选集CK,在此基础上进行连接操作,让CK产生频繁项集LK,从而按照Apriori的性质进行操作。这种算法固然具有其优越性,但却需要进行多次扫描,才能将所有频繁项集进行逐层筛选,由于物联网的海量数据特性,这种算法在物联网方面的运用有其局限性,无法在物联网数据挖掘领域发挥作用。
四、结语
通过对于物联网数据挖掘的研究,可以优化物联网所存在的弊端,提升物联网的实际运用能力,通过Apriori算法的进一步使用,可以对用户的个人信息、学历、搜索偏好等进行预估,并给用户补充其可能想要的相关资源。
[1]何清.物联网与数据挖掘云服务[J].智能系统学报,2013,3(8):182-183.
[2]周芳.基于关联规则Apriori算法的物联网海量数据挖掘系统研究[J].河北北方学院学报·自然科学版,2015,31(1):15-16.
[3]彭春燕.基于物联网的安全架构[J].网络安全技术与应用,2011,5(2):13-14.
黄鑫(1981-),男,汉族,湖北武汉人,研究生,德宏师范高等专科学校,讲师,研究方向:数据挖掘及物联网。
TP
A
1006-0049-(2017)15-0245-01