基于图像映射的关联规则数据挖掘方法研究
2018-09-25王飞
王 飞
(太原科技大学,太原 030024)
1 研究背景
目前阶段关于关联规则数据挖掘算法的研究相对较多,人们逐渐发现数据结构的差异会大导致数据挖掘效率出现较大差异,现阶段关于关联规则数据挖掘的算法也相对较多,如FP-tree算法、SFP-Max算法等,但如何通过数据结构的改进来实现挖掘效率的提升,还存在较大研究空白。基于此种情况,在本文中探索了一种基于图像映射的关联规则数据挖掘方法。该方法可以有效在线性空间中实现数据挖掘过程,并有利于事务数据库的更新及增加。
2 问题描述
现阶段,大部分基于关联规则的数据挖掘方法都并不会保留中间项目集,这种做法的主要目的在于降低计算机内存使用率,从而使算法的整体效率得到有效拓展,但这也在一定程度上阻碍了算法效率的提升。例如:事务数据集更新、事务数据集增加、支持度改变。在计算机处理器速度、内存和硬盘速度及容量成倍增长的前提下,利用硬件性能提高软件适应性的方法是可取的。
但操作系统本身就已经具备了图像现实的基本功能,尤其是在一些标准图像中由于采用了完全相同的格式,因此,具有一定的普适性。现阶段,所有图像都是基于计算机系统通过像素矩阵的方式来展示,像素被认为定义为24bit或36bit的真彩色,同时,可以通过计算机系统直接在数据系统中进行调取处理,这就为基于图像映射的关键规则数据挖掘方法提供了必要途径。
3 图像映射定义
定义一:关联规则用W(P,PT,O)进行描述,其具体定义如下所示。P:项目模式集合;TP:子模式;O:对应模式的子操作。定义二:某一项目模式集合A与图像Spi之间存在映射关系:A Spi.
性质:由于项目集合与图像之间存在明显的映射对应关系,因此,关联规则可以转化为另外一种元素集合W(A,S,P),其具体定义如下。
A:可能的项目模式;S:事务模式以及对应的子模式;P:像素色值的变化。
4 基于图像映射的关联规则数据挖掘算法
在图像映射中所有项目均会按照数据库中的相关数据采用自然序列直接映射到对应的图像中,同时生成子映射。根据图像映射的具体模式,其实现算法如下所示:
Sum=1;a(0)=2
Rfid=1 to d do
Ai=m1;
Rioe=1 to d-1 do
Sum+=C(m,i)
Forj=1 to d do
Forjd=1 to d-1 do
X=Sum%M
Y=Sum/M
5 算法优化策略
根据以上算法可以实现基于图像映射的关联规则数据挖掘,其实,该算法仅仅是针对Pix—DM算法的改进,在该算法当中为使图像清晰度得到进一步提升,需要将每个像素点设置为6,其中,大多数像素点代表频繁模式,只有很少的像素点代表非频繁模式,例如,每次挖掘结果如图1所示。
图1 Pix—DM改进算法数据挖掘演示
算法优化具体策略主要体现在以下几方面:算法优化的目的在于得到最大频繁模式,同时根据ArPiori的优化策略,不同子模式的频繁状态并不是完全相同的,因此,必须根据定义二的性质按照从大到小的方式得到最大频繁模式。但是如果模式已经是频繁的则并不需要对其进行进一步分解;对新事物的模式进行判定,明确其是否已经为最大频繁模式,在每次得到频繁模式时,把该频繁模式及其子模式对应映射的颜色值设为某一定值。每次只需验证模式的对应映射颜色值是否为该设定值,即可知其是否已为频繁的,通过一次比较即可得知模式的频繁性;为提升算法的普适性,所有图像的像素原点值都必须全面保留。
6 结语
基于图像影射的关联规则数据挖掘方法改变了传统的数据挖掘算法结构,有效提升了数据挖掘的有效性。本文中笔者分析了基于图像映射的关联规则数据挖掘的基本概念,并以Pix—DM算法为基础对算法进行了改进处理,从而满足了实际应用要求。