关于数据挖掘中关联规则算法的相关问题研究
2017-11-16李艳
李艳
摘 要:经济的发展带动了信息技术的发展,数据挖掘技术的应用愈加广泛,无论是生产还是生活都离不开这一技术的支持。关联规则算法是数据挖掘技术中应用最为活跃的一种算法,能够有效处理规模较大的信息与数据,并在数据库中挖掘价值较高的信息。文章将对数据挖掘技术的内容与表现进行阐述,分析关联规则算法的含义与相关内容,最后对关联规则算法中的Apriori算法进行探究与讨论。
关键词:数据挖掘;关联规则算法;相关问题;研究
中图分类号:G250.74 文献标志码:A 文章编号:2095-2945(2017)33-0161-02
互联网上涵盖的信息数量是巨大的,且信息的数量与规模呈现出了明显的上升趋势,如何在海量的数据中找到有用的信息是人们需要重点思考的问题。传统的数据搜索方法作用有限,只能将表层信息收集起来,但是深层次的信息却无法被挖掘出来,这对信息的有效应用来说是极为不利的。为了提高数据的适应价值,数据挖掘技术产生并得到广泛应用。关联规则算法在数据挖掘方面显现出了极大的优势,对此展开探究有着重要的现实意义。
1 数据挖掘技术的内容与表现
1.1 内容
数据挖掘技术属于重要的信息处理技术,其商业价值极为明显,在该技术的帮助下,人们对技术的获取与了解将会从联机查询这种较为低层次的方式转化为较高层次的数据对策支持分析预测。根据知识类型的差异,数据挖掘技术可以分为:关联范围、预测范围、差异范围、广义范围这几种。使用较为广泛的数据挖掘方法有数据分析法、数据集成法、证据理论法、近似推理法以及元模式法等。而从对象的角度来分析,数据挖掘技术可以分为以下几类,即时态数据库、空间数据库、多媒体数据库、异质数据库、遗产数据库以及文本数据库等。
1.2 主要表现
数据挖掘技术的主要表现有四种,第一是规则归纳,即统计数据,在这个过程中系统会对数据项中的某些属性以及集合予以反映,AQ算法就是归纳算法的一种,利用数据挖掘技术,人们可以找出数据库中潜藏的某些位置信息。第二是支持向量机,它是一种结构风险,其建立基础为数学理论,在应用时,它会利用处于高空多维空间的超平面隔离开两类不同的数据,以便于将最小分类错误率降到最低,显性问题是其显著的优势。第三是模糊集,在处理数据时,模糊集表现为两点,一是不完整数据,二是不确定数据,其针对性不强,应用模糊集对数据进行处理能够提高处理的简便性与有效性。第四是统计方法,即统计并分析事物数量,这样能够及时找出其中的规律,当发现数据线索后,就可以以此为基础展开假设,分析可行性,统计方法的优点在于精确性高。
2 关联规则算法的含义与相关问题
数据挖掘中的关联规则算法即指在数据集中找到相关关系或者特殊的关联,找到频繁项集(出现频率较高的属性值
集),然后再依据频繁项集将关联规则描述出来的整个过程。其中涉及到的数据集具有较大的规模,涵盖的数据信息、属性较多,具有寻找的价值。在关联规则算法中,规则兴趣度的度量依据为置信度与支持度,这两个度量依据能够对规则所具有的简洁性、新颖性、确定性以及有用性予以准确的反映。在实际应用的过程中,信任度与支持度的门限通常用最小支持度与最小置信度来表示。数据挖掘中关联规则算法的相关问题可以归纳为两点,首先,要将不小于用户指定的支持度最小的存在于事务数据库中的数据项集全部找出,即找出强项集。其次,要对最大数据项对应的关联规则予以利用,以用户所指定的置信度规则最小值的取舍情况为依据,获得最终需要的强关联规则。
3 Apriori算法研究
3.1 基本操作步骤
Apriori算法为关联规则中的经典算法,具有重要的研究意义。Apriori算法认为若M属于频繁项目集,则M中包含的子集都在其中;相反,如果M不是频繁项目集,那么M的全部超集都在其中。为了将所有的频繁项集都找出来,Apriori算法会应用逐层迭代法搜集相关内容,即逐层扫描各集合。其具体操作步骤如下:首先要全面了解用户的实际需求,然后依次为依据确定最小支持度与最小置信度,并逐步找出频繁相;其次要将最小支持度作为操作的参考依据,如候选集规模较大,那么就可以将其作为频繁项集合中的某一个项,当反复扫描频繁项集后,所需要的数据就可以被准确的挖掘出来。然后就可以根据实际情况执行算法,要先将数据项完整的录入到数据库当中,继而将关键项挖掘出来,再将集合与候选2项有效结合到一起。此时再次扫描数据库,并重复上述操作,最终挖掘出最高层次的频繁项集,使数据得到有效优化。
3.2 局限性
虽然在以往的应用过程中,Apriori算法显现出了较为明显的优势,如应用便捷、结构简单等,但是在实际执行的过程中,Apriori算法仍然具有局限性。首先虽然其推导过程相对简便,但是却具有较高的重复率,系统需要多次扫描数据库,且每次都需要全面搜索候选项集,当产生最小置信度与最小支持度后,若频繁项集对应的最大程度为M,那么扫描的次数则为K。在此情况下,如果事务数据库的规模较大,那么扫描的次数会相应增多,而工作效率则会极大的下降。其次,Apriori算法采取逐层迭代法搜索,虽然可以适时对步骤进行必要的优化,删减了部分候选项集,但是中间项集的数量仍然极大,算法效率相对较低。最后,从理论方面来看,当频繁项集增加长度后,相关的支持事务会明显的减少,而计算时间不会发生变化;但是从实际来看,事务开销会明显的增加,此时运算时间必然会提升。
3.3 优化方法
Apriori算法的优化方法有三种,第一是应用Partition算法中的数据分割法,由于Apriori算法的扫描过程繁琐,次数较多,此时为了提高工作效率就可以应用数据分割法进行操作,在逻辑的基础上将数据库合理分割成不相交的模块,在此情况下,系统就能够分别扫描各个模块,然后生产对应的频集,在计算时再将各个分散的频集合并到一起,最终挖掘出有效的频集;第二是应用Sampling算法中的采样技术,組合分析扫描获得的数据库信息,这项工作的工作量是极为巨大的,而在第一次扫描的过程中,系统能够对相关规则予以总结,继而在第二次扫描中直接采样,在反复扫描与总结的过程中,算法可以得到必要的改进,如果采样中获得的规律是合理的,其余的扫描过程就可以得到简化;第三是利用DHP算法删减候选项集,这能够有效提升系统的运行效率,并降低计算的成本投入。
3.4 改进措施
要对Apriori算法进行简化,减少扫描的次数,使系统通过一次扫描就可以找到项目频集,让LK-1自链接对应的项集CK在数据库中生成,在简化的过程中要关注支持度的变化,将比最小支持度还小的项集删减掉,提升算法的实际效率。在性能改进方面,算法的计算量能够极大的降低,第一次扫描中就可以产生候选项集,然后统计相应事务,计算时间将有效缩短。
4 结束语
Apriori算法是数据挖掘关联规则算法中应用最为广泛的一种算法,其应用优势较为明显,能够帮助用户深入挖掘信息价值,并简化推导过程。但是Apriori算法也存在一定的不足与局限,在使用的过程中应当对其进行必要的优化与改进。
参考文献:
[1]李仕琼.数据挖掘中关联规则挖掘算法的分析研究[J].电子技术与软件工程,2015(04).
[2]杨帆,杜玮,陈经优.数据挖掘中关联规则算法的研究[J].电子技术与软件工程,2014(21).
[3]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11).
[4]杨艳,韩卫媛,李文成.改进的关联规则算法在数据挖掘中的探讨[J].制造业自动化,2012(12).
[5]芦海燕.数据挖掘中关联规则算法的研究[J].电脑知识与技术,2011(26).endprint