加权关联规则的相关研究
2020-03-13刘洋
刘洋
摘 要:为解决在挖掘关联规则过程中,因忽略项目间的重要程度不同以及项目在数据库中分布不均匀而导致的挖掘有效性低的问题,研究者提出了加权关联规则挖掘。文章对基于Apriori算法的加权关联规则挖掘的研究现状进行了分析,比较了相关方法的优缺点。
关键词:关联规则;频繁项集;加权规则
中图分类号:TP311.1 文献标志码:A 文章编号:2095-2945(2020)08-0017-02
Abstract: In order to solve the problem of low mining effectiveness caused by ignoring the different degrees of importance between items and the uneven distribution of items in the database in the process of mining association rules, the researchers proposed weighted association rules mining. In this paper, the research status of weighted association rules mining based on Apriori algorithm is analyzed, and the advantages and disadvantages of related methods are compared.
Keywords: association rules; frequent itemsets; weighted rules
引言
關联规则挖掘是数据挖掘的研究中有一个重要的方向,主要用于挖掘数据集中各项目之间所蕴含的关系。
其中最经典的算法是Apriori算法。Apriori算法的核心内容是利用逐层迭代产生候选集,通过最小支持度筛选出频繁项集的方法,最终挖掘出项目之间的关联规则。该算法使用了根据支持度判断的剪枝技术,通过剪枝有效地控制候选项集的增长。
Aprior算法有两个前提假设:数据库中各项目重要性相同并且各项目的分布是均匀的。[1]然而,在现实中数据库中的项目具有差异性。当数据库中项目分布不均匀时,会使在运算过程中最小支持度的设置偏低偏高都会出现问题[2]。
针对这些问题,有学者提出了加权关联规则。加权关联规则的思想是根据需要为数据集中的项目赋予合适的权重,体现出不同项目的重要程度。本文介绍了典型的基于Apriori算法的加权关联规则,并对其进行分析、对比。
1 加权关联规则
1.1 水平加权
2 结束语
加权关联规则挖掘的核心思想是通过赋予权重挖掘出用户感兴趣的关联规则,或者挖掘出关于不常出现却十分重要的项目的关联规则。相对于一般的关联规则挖掘,加权关联规则在实际应用中更有意义。加权关联规则挖掘过程中,加权的方式和权重的取值标准是研究的重要方向。文章对加权关联规则挖掘目前的研究现状进行了分析,为加权关联规则挖掘相关领域的研究提供了参考。
参考文献:
[1]亓文娟.基于水平加权关联规则挖掘算法的研究[J].哈尔滨师范大学自然科学学报,2015,31(01):45-48.
[2]欧阳为民,郑诚,蔡庆生.数据库中加权关联规则的发现[J].软件学报,2001(04):612-619.
[3]欧阳继红,王仲佳,刘大有.具有动态加权特性的关联规则算法[J].吉林大学学报(理学版),2005(03):314-319.
[4]尹群,王丽珍,田启明.一种基于概率的加权关联规则挖掘算法[J].计算机应用,2005(04):805-807.
[5] Cai, C.H., Fu, A.W.C., Cheng, C.H., Kwong, W.W.. Mining association rules with weighted items[P]. Database Engineering and Applications Symposium, 1998. Proceedings. IDEAS'98. International,1998.