数据挖掘算法基于关联规则的分析和应用
2017-04-17刘小燕
刘小燕
【摘要】本文主要对数据挖掘算法及关联法则基础上针對Apriori算法特点进行分析,并提出了Apriori算法及关联规则算法思路,通过改进Apriori算法可效避免产生冗余规则,确保挖掘所得数据简洁完备。
【关键词】数据挖掘算法 关联规则 Apriori算法
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2017)11-0240-01
数据挖掘另可称之为数据库中知识的发现,是指在大量模糊的、不完全的、随机的数据中,提取部分人们事先不知道的却存在一定潜在应用价值的信息及知识的整体过程,是发现知识挖掘知识的重要步骤。
1.关联规则
关联规则挖掘属于数据挖掘算法中应用最为广发的算法之一,关联规则挖掘值得是在大型数据集内寻找存在有趣关联的关系,进而从数据集内进行相应识别,也可称为频繁集,通过应用频繁集创造及描述关联规则的一个过程。当前Apriori 算法在数据分析、高层决策以及商业情报等多个领域得到应用,经典Apriori 算法需要借助数据库进行多次扫描生成大量候选集,因此经典化算法挖掘能力一般产生较多冗余规则,因此通过数据挖掘算法基于关联规则分析提出改进Apriori 算法十分重要,可更好进行关联规则提取。
2.Apriori 算法
Apriori 算法应用的突出特点,即应用时需通过多次数据库扫描才能发现所有频繁集。如果将最长频繁集长度设为K,即应用Apriori 算法是经多次扫描得出的结果记为K,第1次实施扫描时Apriori 算法可计算得出数据库单项目支持度,并满足最小支持度1-强度集,集合L1。后续通过L1可陆续挖掘得出L2(2-强项集),依次循环,通过反复N次扫描,可以N-1次扫描所得的N-1强项集集合LN-1为种子集,利用种子集生成N-强项集集合(候选集CN),通过计算候选集指出度,确定可满足最小支持度N的强项集集合LN。通过上述过程的不断重读可不断产生新强项集,直至无强项集产生。经典Apriori 算法在应用中存在较多不足,需要对数据库进行多次扫描,对计算机资源进行大量消耗。
3.改进Apriori 算法
3.1 改进思路
改进Apriori 算法是在应用可拓理论基础上开展的Apriori 算法,可拓性主要是指事物进行拓展的可能性,因事物可拓性属于其本身特有性质,主要包括相关性、发散性及蕴含性方面,从自身向外、变通、平行以及组合、分解等角度提供多种变换途径的可能性。将给定事物名称设置为N,与其相关特征C量值定位V,将有序三元组R作为事物描述的基本元(物元),事物名称主要包括三大要素,即名称(N)、特征(C)及量值(V)。基于可拓理论应用改进Apriori 算法主要包括两个步骤,第一,大征集交运算,以X1及X2为大征集,交运算后将生成所得的征集描述为X,X为X1及X2包含子句的合取范式。第二,征集删除运算,将K元征集内每个征集XK中k-1元子句实施检查,若发现k-1元子句确定征集不属于大征集,则需将其删除。
3.2 改进算法描述及性能验证
改进Apriori 算法,首先需对数据库(D)进行扫描,将每条记录内元素均进行统计记录,得到元素集合(S),以S内元素构成单独集合形成元候选集(H1),设置元计数单位(k,k=1),概念描述(Y)依次对Hk内各征集XkyY支持度(s)及置信度(cEc0)进行计算,输出规则XkyY,若果Xk的cEc0可将其存入大征集Lk内,若Lk元素数量低于2,需停止。Lk内选择2个不同征集Xki及Xkj,逐一进行元素对比,若符合k-1 个元素,第k元素不同需将Xki元素与Xki第k个元素组成新元征集(k+1),将其存入Hk+1内。针对Lk内所有征集,两两进行上述操作生成k+1候选集,确保k=k+1。为进一步对改进Apriori 算法进行验证需采取VC++确保上述算法实现,并借助SQL Server2005数据库内相关模拟实验数据进行验证。借助改进Apriori 算法进行挖掘所得规则无冗余规则及遗漏规则,但最小支持度加大或数据库内数据量增加时,改进算法运行速度与Apriori 算法相比有所下降。
4.结束语
Apriori 算法应用中仍存在一定不足之处,通过相应改进,发现经典Apriori 挖掘算法所得关联规则内包含较多冗余规则,基于挖掘算法进行改进后Apriori算法计算结果内无冗余规则产生且无规则遗漏,简单且明了,通过实验数据分析发现,改进后Apriori算法执行效率与经典Apriori算法相比有所下降。
参考文献:
[1]方蓉.基于关联规则的数据挖掘算法的分析及应用[J].电子测试,2016,(1):36-38,16.