数据挖掘中关联规则算法的研究与应用
2016-12-31孙慧强沈阳市信息工程学校
孙慧强沈阳市信息工程学校
数据挖掘中关联规则算法的研究与应用
孙慧强
沈阳市信息工程学校
随着“互联网+”技术的不断发展,人们在大数据时代所产生的数据量也呈现出急速发展的趋势,面对如此复杂的、海量的数据,如何进行有用信息和数据的提取成为重要的问题,数据挖掘便成为关键,而关联规则则是数据挖掘中的重要组成部分,主要用于对数据集中项等之间联系的发现,对于从大数据中通过关联规则来进行挖掘已是最成熟且最活跃的研究方向之一。
数据挖掘 关联规则 算法研究
1 关于数据挖掘
1.1数据挖掘的涵义
数据挖掘是一门交叉学科,涵盖了数据库技术、统计学、可视化与信息科学,同时,又是一种决策支持过程,从不同角度看具有不同含义,数据库的观点认为数据挖掘就是从存储在数据库、数据仓库或其它信息仓库中的大量数据中发现有趣的知识的过程;统计学的观点则认为数据挖掘就是分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。
1.2数据挖掘的过程
(1)确定挖掘对象,主要是要清晰定义挖掘对象,认清挖掘目的,(2)数据准备,这对于数据挖掘是至关重要的,如果单纯的进行数据挖掘会毫无意义,主要包括数据的选择、预处理与转换,(3)数据知识与信息,要确定挖掘的任务类型,且要选择合适的挖掘技术,根据算法进行挖掘,(4)模式的解释与评价,要过滤出有用知识,将无关的、多余的模式进行过滤。
1.3数据挖掘的任务
数据挖掘就是要通过其解决实际问题需求,发现之间的相互关联,一般来说,数据挖掘的任务主要是:(1)数据总结,对数据进行浓缩给出紧凑描述,(2)分类,主要目的就是建立分类函数或模型,将数据库中的数据进行映射,(3)聚类,就是将个体相似的进行分类,与同类缩小距离,不同类增大距离,(4)关联规则,决定哪些事情是可以一起发生的。
2 关联规则挖掘
2.1关联规则的描述
在数据挖掘的模式中,关联规则是最为活跃的分支,关联规则要处理在数据集中的不同属性之间的必然存在的某种隐藏的规律,这种规律既可能是群体法则,又可能是自然法则,而将这种隐藏规律通过数学的方式进行挖掘,就是称为规则。
2.2关联规则的分类
一般研究的关联规则是不带约束的关联规则,主要可以分为四类:即基于规则中处理的变凉的类别,关联规则可以分为布尔型与数值型;基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则;基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的;基于关联规则带约束条件与否,可以分为不带约束的关联规则和约束性关联规则。
3 关联规则算法的研究与创新
3.1Apriori算法研究
对于数据挖掘关联规则本质就是要在频繁集中去发现符合最小置信度的规则,要找出所有的频繁集和所有的强关联规则。对于Apriori算法的缺点就是需要对数据进行多次扫描,使读写操作的时间增多,数据挖掘算法的时间成本就上升,而且会产生大量的候选频率集,算法在广度与深度上适应性差。
3.2FT-tree 算法
这种算法就是对数据集进行数据挖掘的时候首先对一颗频繁模式树进行创建,将事物数据库的数据与数据之间的关系进行映射到频繁模式树,进行遍历最终独处关联规则,FT-tree 算法的优点是可以将这些事务数据库中的数据一一对应共同构造频繁模式数,对频繁模式树进行遍历可以对于数据库多次的读写操作节省大量的时间,从而提高了效率。
3.3开源数据挖掘工具weka对算法验证
Weka作为一种开源的数据挖掘软件工具,可以将多种主流的数据挖掘算法进行整合,具有强大的功能,可以对数据进行预处理、分类与聚类、关联规则数据挖掘,且可以在新的交互式界面进行可视化等。通过对Apriori算法和FP-tree算法进行验证,可以看出两种算法对大数据量进行关联规则挖掘会有明显不同,也验证了Apriori算法对大量候选项集对此I/O操作花费的长时间,FP-tree算法进行关联规则挖掘的时间基本稳定。
3.4对关联规则挖掘结果的创新思考
通过对两种主流算法的实验和研究,看出两种算法事实上只能对布尔型离散数据进行关联规则挖掘,挖掘的结果可能是一维也可能是多维,可以通过对一维关联规则进行创新,便可获得更有意义的关联规则结果,可以通过互相置信度,就是说当在规则A B中,A、B都是两个事务集合,则该条规则的互相置信度可以用confidence (A B) =confidence(A=>B)*confidence ( B=>A)表示,通过在Apriori算法增加对互相置信度的约束,就可以挖掘出如“A B”的规则,这样就可以使结果更有意义。
4 总结
总之,人类社会已经随着信息技术的发展进入到了大数据的时代,数据挖掘可以帮助我们在海量的数据之中将与我们息息相关的信息进行分析,而在对关联规则的数据挖掘理论的工作中,更是要对不同的算法进行优缺点的验证,并要结合数据挖掘的流程与并联规则的相关理论,来获得更加有意义的结果,使其在实际的运用中可以发挥出更大的作用。
孙慧强(1965-)、男,汉族,辽宁省沈阳市人,学历:本科;高级讲师;研究方向:计算机教学,工作单位:沈阳市信息工程学校。