APP下载

浅议数据挖掘技术及应用

2015-03-24何正玲

电子测试 2015年8期
关键词:项集数据挖掘数据库

何正玲

(西安文理学院 ,陕西西安,710065)

0 引言

随着信息通信技术的发展,人类社会已经进入了“网络大数据时代”,各种数据体量巨大、数据类型繁多、价值密度低。如何从海量 的数据中探寻数据规律,发现有意义的信息是迫切解决的难题。作为信息技术自然进化的结果,数据挖掘这一研究领域应运而生。关联规则( Association Rules)的挖掘在数据挖掘中扮演着一个重要的角色,对于关联规则的挖掘算法已经进行了很多研究。阀值筛选、删除候选项集,然后进行下一次的合成并生成该层的频繁项集。筛选之后,候选项集数减少,提高其挖掘速度。

1 算法描述

1.1 Apriori 算法

Apriori算法是一种寻找频繁项集的基本算法, 其基本原理是使用一种称作逐层搜索的迭代方法,即用k项集去探索(k+1)项集。Apriori算法使用频繁项集性质的先验知识,该集合记作L1。Apriori算法的基本思想如下:先找出所有的频繁1项集的集合L1,然后利用L1找L2(频繁2项集的集合),利用L2找L3(频繁3项集的集合),以此类推,直至不能找出的频繁K项集的集合,结束。找出全部项集之后利用预先设定的最小支持度

1.2 FP-Growth 算法

Mining Frequent Patterns without Candidate Generation 一文中提出了一种新型的模式增长算法FP-growth。FP-growth算法是基于FP-tree结构,不会生成候选项集,挖掘频繁项集采用模式增长的方法。它是一种关联规则挖掘的新思路。

基本思路:不断地迭代FP-tree的构造和投影过程

算法描述如下:

1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。

2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径。

3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

FP-Growth 算法输入: 对数据库DB 进行最小支持度约束后得到的FP-tree。 输出: 全部频繁项的集合。

首先, DB的FP-tree 包含了DB 中为了完成支持度阈值为N的挖掘所需的完整信息。其次, 如果FP-tree包含单一路径,它可以进行频繁模式集的生成工作。否则,对头表中的每个项,产生它的条件模式基,将其与目前的模式合并,并构造新模式下的条件模式树。如果树不为空,则继续调用新模式下的函数;否则, 函数在此结束。

综上所述可知,两种算法中,FP-Growth 算法的表现更好。

2 评价指标和性能分析

我们不直接比较算法的绝对运行时间,因为,不同的机器结构可能有很大的不同。我们实现自己的算法,最好将不同的算法在同一台机器上、同一环境下运行,运行时间这里指总的执行时间,即输入和输出之间的期间,而不是CPU。此外,在FP增长的运行时的所有报告,包括从原始构建FP树的时间数据库。

通过对Apriori和FP- Growth算法进行测试,可以看出,随着最小支持度的逐渐减小,Apriori算法性能急剧降低,而FPGrowth算法性能相对稳定,所需时间没有发生突变的增加。经过多次测试,结果显示,FP- Growth 算法比Apriori算法快一个数量级,且FP-Growth算法对不同长度的规则都有很好的适应性。

FP-Growth和Apriori算法显示线性可扩展性与交易从10K到100K的数量。然而,FP-Growth增长比Apriori算法更具扩展性。由于交易的数量增长时,两种方法之间差距变得越来越大。总体而言,FP-Growth在同一个数量级比Apriori算法在大型数据库速度更快,而且这种差距变宽当最小支持度阈值降低。

3 数据挖掘技术的应用前景

3.1 数据挖掘技术在营销领域中的应用

数据挖掘也是进行商业决策的辅助工具,数据挖掘可一充大岭的商业数据之中,对各种数据进行抽样、转换、分析以及进行模型化处理,进而从中的出关键性数据。就此而言,数据挖掘在商业领域有着十分广阔的应用前景,特别是在市场营销中的有着十分广阔的应用空间。通过系统的数据局分析,我们可以发现用户的消费特点,在此基础上,作出合理的营销策略,促进商品的销售。目前,数据挖掘技术在营销领域的应用以及涉及到了各个领域,如,金融领域、电子商务等诸多方面。利用数据挖掘技术发现顾客的潜在需求,对于促进营销的发展意义重大[2]。

3.2 数据挖掘技术在教育中的应用

学校的教学系统的是由不同的元素想和配合构成的,充分发挥数据挖掘技术来挖掘数据库中的知识,发现教学系统中个不同的要素之间的关系,可以为师实现学校管理的科学化以及合理化提供科学的根据[3]。除此之外,通过数据挖掘技术,我们可以发现教师的教学质量与教师的经验、教学的职龄以及专业等因素之间的内在关联用于提高教师的教学水平。同时,通过数据挖掘我们也可以发现,不同年段的学生的学习认知特点,根据学生的学习特点和学习特征,制定教学过程中,为实现了个性化教学体提供了技术支持[4]。

3.3 在农业领域中的应用

在我国,农业是基础产业,农业数据信息多而繁杂,具体可能涉及农作物生长情况、土地使用情况、水设施情况、收成情况等等。然而,由于地域性、时效性的限制,对这些农业数据信息要进行及时、准确的进行整合、提取,需要借助于数据挖掘技术,这样才能够提高农业数据信息处理的实时性,充分发挥其预测、指导作用。数据挖掘技术的在农业数据信息中的应用的最大优势就是在保证信息质量的前提下,深入挖掘其中作为有效的农业信息,从而为我国农业发展提供有力的数据支持,实现农业部门的科学决策与管理,保证了我国农业的快速、有效、健康发展[5]。

4 结束语

近年来,社会进入快速发展时期,大数据所带来的海量信息,对于数据挖掘技术来说既是机遇也是挑战,数据挖掘技术的更新发展需要依靠高科技,需要改进处理数据的工具进行数据挖掘分析、以提高有预测性和决策力,从而保证数据信息的及时性、准确性、。数据挖掘技术因其自身优势,其应用前景广阔,必将推动我国经济的快速发展,实现社会的信息化发展。

参考文献

[1] Jiawei Han, Jian Pei, and Yiwen Yin. Mining Frequent Patterns without Candidate Generation[J].In Data Mining And Knowledge Discovery,8.53-87,2004

[2] 李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014.3(3):45-47

[3] 魏萍萍等.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程, 2003,29(11):87 -89.

[4] 李汪丽等.数据挖掘在中国教育领域的应用研究综述[J].湖北第二师范学院学报,2012.2(27):55-58

[5] 罗凤娥等. 数据挖掘在农业领域中的应用研究[J]. 农业网络信息,2009.1(1)55-58

猜你喜欢

项集数据挖掘数据库
探讨人工智能与数据挖掘发展趋势
不确定数据的约束频繁闭项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
数据库
数据库
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议
一种新的改进Apriori算法*