关联规则挖掘算法研究
2016-02-05刘明昌
刘明昌
河北大学管理学院,河北 保定 071000
关联规则挖掘算法研究
刘明昌*
河北大学管理学院,河北保定071000
在信息时代,大量的数据中蕴含着丰富的信息、知识,人们通过分析数据获取信息。数据挖掘算法是一种有效的针对数据的分析方法,可以在大量的数据中挖掘、分析潜在的规律和联系以方便人们使用。数据挖掘技术中的关联规则挖掘算法是根据各种方法从目标数据中挖掘出数据间的潜在关联。本文首先针对关联规则的挖掘步骤,常用的挖掘算法进行了简单的介绍。其次,就目前关联规则存在的各种问题进行分析。最后对关联规则挖掘算法未来的研究发展方向提出了建议和意见。
数据挖掘;关联规则;Apriori算法
人类进入信息社会以来,随着信息技术的飞速发展,人类社会产生的数据量也与日剧增,知识应用领域的扩展也使人们对所获知识的需求越来越高。在信息过载时代,数据挖掘可以帮助人们从多种视角对数据进行挖掘分析,得出潜在的、用户可能需要的情报。它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的发展趋势。因此,数据挖掘是当今数据分析领域中的热点研究方向。
关联规则是数据中潜在的重要的关联,是数据挖掘算法中的核心部分。关联规则的挖掘就是在目标数据中发现共同发生或存在的关系。自上世纪九十年代以来,关联规则就引起了大量的关注和研究。
一、关联规则挖掘的步骤
(一)发现所有的频繁项集
首先需要设定最小支持度。之后在数据集中遍历所有支持度满足用户设定的最小值支持度阈值的项目集合。一般来说,这些频繁的项目集合可能存在包含和被包含的关系。一般情况下,只需要找到最大的频繁项目集合。整个关联规则挖掘的第一步,也是最重要的一步就是发现所有的频繁项集。
(二)生成关联规则
对在第一步中遍历得到的项目集,利用用户设定的最小置信度阈值进行筛选,筛选得到所需的关联规则。可以把频繁项集N分解为两个项集n和N-n,符合置信度要求的规则n⟹N-n就是我们所需要的关联规则。
二、关联规则挖掘的经典算法
(一)Apriori算法
Apriori算法对数据集多次遍历的过程借助了如下规则:所有的频繁项集的子集也都是频繁项集;所有的非频繁项集的母集合都是非频繁的。在首次扫描后取得1-频繁项集,经历第n轮扫描前利用上轮扫描的结果项目集,构造n项集的候选频繁项集,通过遍历数据库,确定对候选频繁项集中每一候选n项集的支持度,最后在该轮结束时求出n-频繁项集,算法在n-频繁项集或n-候选频繁项集为空时终止。Apriori算法是关联规则算法中最重要的算法之一,有很大一部分关联规则挖掘算法都是它的变种或改进。
(二)FPGrowth算法
利用FPGrowth算法对数据集进行关联规则挖掘的核心思想是首先构造一棵频繁模式树,然后将数据库的数据及数据之间存在的关系映射到频繁模式树中;然后对创建好的频繁模式树进行扫描,得到数据集中潜在的所有关联规则。FPGrowth算法的优点在于挖掘过程节约了大量的时间,提高了算法的计算效率。
(三)增量更新算法
增量更新算法有FUP和FUP2算法以及IUA算法等。增量更新算法一般针对以下三种问题进行处理:第一,当两个数据库A和a合并形成新的数据库之后,怎么生成A∪a中的关联规则;第二,当数据库A去除了部分数据,缩减成新的数据库a,如何获得数据库a的关联规则。第三,对于数据库A,当用户对支持度和置信度的阈值进行调整后,怎么生成调整后的数据库A的关联规则。
三、关联规则挖掘算法存在的问题
(一)算法运行效率的问题
关联规则的挖掘一般所应对的数据都是海量的复杂的。数据库中的数据对象甚至有可能达到成百上千万条,而数据对象的属性经常有几千种,这使项集的数据量异常庞大。目前常用的数据挖掘算法的挖掘效率对数据量较为敏感,极易受到影响。经典的Apriori算法每一遍遍历数据库都是针对全数据库的遍历。之后出现了一系列对Apriori算法的改进,但挖掘的效率依然没有较大的改进。因此,依然需要研究如何高效、准确地从大量数据中搜索、发现频繁项集。
(二)挖掘算法的交互性
当前的关联规则挖掘算法与用户的交互很差,首先用户设定了最小支持度和置信度阈值。之后的数据挖掘过程是完全与用户分离的。而事实情况上,用户在数据挖掘过程中的参与会极大程度的改善推荐的效果。在数据挖掘过程中改善与用户的交互性,有效的利用用户的知识经验和行为偏好,将会有效缩小数据挖掘的数据空间,针对之前的结果,对数据挖掘算法进行改进,可以大幅度提高关联规则挖掘的效率和精度。
(三)数据杂乱问题
现实数据往往具有很多的重复,冗余、错误、无关现象。这些数据对挖掘的结果存在较大的干扰,可能在准确性、实时性方面有明显影响。如何处理数据中存在的各种问题,及时有效的发现数据中存在的异常非常重要和必需。
四、对关联规则挖掘算法的展望
关联规则挖掘算法作为一高效的数据分析方法已经在诸如投资理财、保险推销、个性化教育、电子商务等领域得到广泛的应用和推广,目前关联规则挖掘算法的应用范围还在不断扩大。当今网络世界数据量在飞速膨胀,数据中潜在的规则也在不断更新换代,关联规则算法的研究改进是一个非常难以解决的问题。本文认为针对关联规则挖掘算法的研究应该在以下几点继续开展和深入:(1)改善提高挖掘算法的效率、准确性以及实时性;(2)继续对关联规则挖掘算法结构进行修正和改善;(3)扩大关联规则挖掘算法的实际应用领域,寻找新的应用领域;(4)在关联规则挖掘的过程中,提高用户的参与度,积极有效的利用用户的经验知识,生成可视化的信息。
[1]袁万莲,郑诚.一种改进的Apriori算法[J].计算机技术与发展,2008,5:51-53.
[2]刘维晓,陈俊丽.一种改进的Apriori算法[J].计算机工程与应用,2011,47:149-151.
[3]胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与发展,2006,4:99-104.
[4]张瑞雪.数据挖掘中关联规则算法研究及应用[D].哈尔滨工程大学,2006,4:1-59.
刘明昌(1991-),男,汉族,河北保定人,河北大学管理学院,管理科学与工程专业硕士研究生在读。
TP311
A
1006-0049-(2016)15-0098-01