APP下载

基于RFID复杂数据预处理方法综述

2014-12-05田春瑾

电脑知识与技术 2014年31期
关键词:数据挖掘

田春瑾

摘要:射频识别技术(RFID)是近年来发展很快的一种非接触式的自动识别技术,无接触、能穿透非金属介质、识别距离大、使用寿命长以及信息收集处理快捷等优点。近几年,为提高我国物流的效率,国家加大了RFID相关技术领域的投资。如何将RFID产生的海量数据进行有效预处理,提高数据的利用效率,该文对RFID数据的特点进行阐述分析,对RFID数据清理技术及数据挖掘技术做了介绍。

关键词:RFID;数据挖掘;数据清洗

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)31-7502-02

无限射频识别(Radio Frequency Identification)技术是一种非接触式的自动识别技术,这种技术可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学接触。RFID与传统的识别技术相比,具有无接触、能穿透非金属介质、识别距离大、使用寿命长以及信息收集处理快捷等优点。目前应用非常广泛,尤其对零售及物流等产业带来了革命性的变化。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用信息的过程,是一种从大型数据库或者数据仓库中提取隐藏预测信息的技术。数据挖掘通过聚类、OLAP等多种方式提取信息,以便决策者对未来活动进行预测与计划。目前在各种商业领域都有广泛的应用。比如:应用RDIF技术的供应商沃尔玛在三天内所收集的数据量就相当于整个美国国会电子图书馆的数据量[1]。面对海量的数据,在应用环境中如何处理并进行有效的分析是摆在当前RFID数据挖掘技术上的难题。

1 RFID数据特点

RFID数据的产生是伴随着物品的运动而来的。当带有标签的物品进入磁场时会发送自身的EPC(Electronic ProductCode)编码等信息,部署在不同位置的RFID阅读器通过天线向周围发送某一频率的射频信号,读取标签中的信息并解码后将数据送至中央信息系统,并形成一个三元组(EPC,Location,Time)插入到生产数据中。RFID数据不仅具有传统数据相同的特征,还有自己的特点。对这些特点的研究正是对RFID数据进行数据挖掘的起点。其主要特点如下:

①原始数据元组结构简单:RFID所产生的数据是一个三元组,EPC是电子标签的编码,它唯一代表了一个物品。Location是 EPC被阅读器读出的位置,最初可能是阅读器的编码,通过处理后会变成部署该阅读器的位置。Time是EPC被读取时的时间。这些数据结构简单,元组组成的语义明确。

②数据量大:随着物品频繁的移动,大量的RFID数据自动快速的产生。即便是最先进的RFID系统,每天也会产生几个GB的记录[2]。这将是对目前数据挖掘方法的挑战。

③数据不准确:由于阅读器在读取数据的过程中,可能会没有读取到需要的标签或者误读了工作范围内的标签在实际应用中,甚至可能会将停留在同一地点的一段时间再次读取一次,造成数据的冗余。在实际应用中,阅读器出现这种现象的概率大概有60%-70%。

2 RFID数据清洗

由于在RFID阅读器的原始数据中存在着大量数据漏读、误读以及在密集阅读器的环境下还会产生大量的冗余数据。因此,为了获取高质量的RFID数据,对原始的数据进行清洗是目前采用的普遍的方法。目前,在RFID数据清洗领域已经取得了一定的研究成果,但很多问题亟待解决。

2.1 针对漏读与误读问题

RFID数据清理针对漏读与误读问题,很多学者提出了若干方案,最常用的方法就是平滑过滤。Jeffery等人提出了一种统计平滑处理算法SMURF,它将RFID数据流当作统计学中的随机事件,通过概论统计方法对漏读的数据进行填补。该方法可以根据标签阅读率的大小,自适应决定窗口的大小。文献[4]提出了一种改进的算法。另外,还有一些研究机构根据特定领域的应用语义和完整性约束规则来清洗RFID数据。例如H.Gonzalez[5]提出了一种基于动态贝叶斯网络的清洗方法DBNs,该方法考虑了它的观测值和估计值,与滑动窗口不同,它给最近数据更高的权重。另外,还有ESP机制,卡尔曼滤波算法等等。

2.2 针对数据冗余问题

RFID数据清理针对数据冗余问题,也有很多学者提出了软若干方案,Y.Bai[6]提出了用max_distance来确定RFID数据是否是冗余数据。Metwally等提出利用Bloom Filters检测数据流中的冗余,但当数据流是长时间持续产生的,那么Bloom Filters将失效但,随后,Deng利用Stable Bloom Filter解决了问题。为了去除流环境中旧数据,Stable Bloom Filter设置单元数为对应输入数据的最大值,无论何时数据到达,减少随机选取的单元数。文献[7]提出了基于MBF(Matrix Bloom Filter)的清洗算法TIMBF(Time Interval MBF),是一种改进的Bloom Filter,支持动态数据集。不会产生消极错误。另外,还有Wang[8]等提出的一种解决分布式数据流的冗余数据清洗方法等。

3 RFID数据挖掘

由于RFID数据有着特殊的数据结构,它不仅包括物品的编码,而且还包括位置以及时间,分析物品的移动可以得到路径痕迹信息,这些信息仅有助于提高商业的效率。但是经过清洗的数据仍然是海量的,采用数据挖掘技术可以从海量的RFID路径数据中挖掘出用户所需要的信息,这将对RFID应用领域有非常大的价值。

对于RFID的数据挖掘主要集中在数据类聚和频繁路径的挖掘中。在RFID应用中,粒度的选择更为困难,不仅要考虑传统的维度的抽象级别,还要从路径或者路径段出现的不同抽象级别或误读的抽象角度出发。RFID路径中主要有空间位置和时间两个属性,这就需要聚类方法能够处理位置信息、时间信息,以获时空相关的、有用的、潜在的信息模式。聚类的目标是在给定的时间周期内,将对应的流数据划分成不同的簇。其中,最常用的CluStream算法及其各种改进算法。

针对数据流的频繁模式挖掘,有许多学者研究各种挖掘的算法。BarjeshKochar[9] 提出了一种RFID数据频繁模式的挖掘方法,该方法从RFID原始数据库汇总产生中间数据集。在挖掘频繁模式的过程汇总,产生模糊规则,用来描述不同的RFID标签特征。Yunhao Liu[10] 提出RFID技术在活动监视中应用的便捷性,主要致力于频繁模式的挖掘,提出了RFID数据的收集和处理方法,利用RF array对频繁路径挖掘。

RFID数据挖掘的主要工作是挖掘RFID数据库中的频繁路径,用户需要通过频繁路径信息作出决策。对频繁路径的算法有滑动窗口频繁闭路径挖掘算法,频繁封闭路径挖掘算法,频繁图的路径挖掘算法等等。RFID的路径数据是由若干路径段组成的序列,基本定义为:

① 子路径:假设有路径P1((l1,t1)……(lm,tm)),P2((l1,t1)……(ln,tn)),如果P1的所有元素都包含在P2中,即P1为P2的一个子集,则P1是P2的子路径,即P1 ?P2。

② 频繁路径:假设有路径P1,count(p)为路径P的支持数,定义一个最小支持度阀值为min,如果count (p)≥min 则P为频繁路径模式。

③ 封闭路径:假设有频繁路径P,P的真超集为Q,不存在路径Q,使得等式count(P)=count(Q)成立,则P是封闭路径模式,反之等式成立,则P不是封闭路径模式。

挖掘频繁路径比挖掘频繁闭合路径要简单一些,不用检查得到的频繁路径是否为封闭,但有时候挖掘出来的频繁路径数量过大,而频繁闭合路径的挖掘可以压缩冗余信息,不会丢失频繁路径的信息。

4 结束语

RFID数据研究除了数据的清理,数据的挖掘,还包括数据的存储压缩,RFID数据的检测等等。随着RFID技术的不断发展,应用的范围不断扩大,RFID数据的处理将不断细化,这些复杂数据的处理方面都提供了可供继续研究的内容。

参考文献:

[1] 赵卫东.RFID数据挖掘的的发展[J]. 石油石化物资采购,2010(5).

[2] 李力振.基于复合编码的RFID数据仓储模型的研究[D]. 华南理工大学,2010.

[3] 杨泽如.浅议数据仓库技术对RFID数据的应用[J].企业技术开发, 2012(4).

[4] LingyongMengFengqiYu.RFID Data Cleaning Based on Adaptive Window [C].Proc of the 2nd International Conference on Future Computer and Communication. Wuhan,China 2010

[5] H.Gonzalez,J.Han,andX.Shen.Cost-Consious Cleaning of Massive RFID Data Sets [C].In ICDE,2007

[6] BAI Y,WANG F,LIU P.Efficiently Filtering RFID Data Streams [C]Proceedings of Very Large Data Bascs Workshop on Clean Database. Seoul:CleanDB,2006

[7] 付文秀,李星.基于MBF的RFID冗余数据清洗[J].铁道学报, 2013(7):85-89.

[8] X. Wang,Q.Zhang,Y.Jia. Efficiently filtering duplicates over distributed data streams. International Conference on Computer Science and Software Engineering(CSSE)[C].2008

[9] KocharB,Rjajender S C.A Novel RFID Data Mining System: Integration of Effective Sequential Pattern Mining and Fuzzy Rules Generation Techniques[J].International Journal of Wireless Information Networks,2011.

[10] Liu Y H,Zhao Y Y.Mining Frequent Trajectory Patterns for Activity Monitoring Using Radio Frequency Tag Arrays[J].IEEE Transactions on Parallel and Distributed System,2012.

[11] 陈竹西,胡孔法.现代物流系统中的频繁封闭路径挖掘算法[J].计算机集成制造系统,2009,15(4):809-816.

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究