APP下载

关联规则下的数据挖掘算法分析

2018-02-19

信息记录材料 2018年7期
关键词:项集项目组数据挖掘

潘 燕

(福建农业职业技术学院 福建 福州 350007)

1 引言

随着“互联网+”在全球的不断普及,计算机信息技术的应用范围也变得越来越广阔。尤其是在数据库里信息分析、处理领域里面,数据挖掘技术当中的数据挖掘算法发挥了其独一无二的作用。大量研究中,关联规则下的数据挖掘算法作为数据挖掘技术的集中体现,便是其重要研究成果之一,本文将对此做出详细探讨。

2 关联规则下数据挖掘技术(Apriori算法)分析及应用

数据挖掘技术在进行信息处理的时候,相比于传统技术,它是一种比较新型的信息处理技术,无论是从商业价值还是从经济价值上来看,它都能从根本上对传统数据处理技术提出挑战[1]。

在关联规则下,数据挖掘的在进行的过程当中,主要有两个步骤。首先,相关工作人员需要从复杂的数据库当中筛选出比较集中的一部分高频项目组。其次,要将选好的高频项目组进行一定的分类、归纳,并且找到其中的某些关联。在归纳的过程当中,要对各种各样的数据进行统一的统计,并且对于数据库中一些相关的属性进行集中的反应,进而实现实时统计,这种方法被称为 AQ 法[2]。

在进行实际高频组筛选的时候,需要注意的是高频的概率指的是一个项目组在所有数据当中出现的概率达到一定的水平,而不是单个的数据信息。而从专业的角度上来说,此概率可以被称之为支持度。在第二阶段当中,相关高频项目组,在进行关联规则,获取的时候也需要注意信赖度的问题,而这里的信赖度是指相关项目组当中所有的数据真实度达到一定的水平。在关联规则下,必须要信赖度达到一定标准的项目组才能被举例出来。

在关联规则下,原创Apriori算法主要是用于对频繁项数据的挖掘。在进行Apriori算法使用的时候,主要应用的是迭代方法。并且,此算法的应用过程分为两个步骤。第一个步骤是连接步,通过把自身与kl-1连接起来,从而快速的找到频繁k项集,进而在一定程度上产生候选k项集Ck,在此过程当中,kl-1当中的元素都可以被直接连接起来。第二个步骤是剪枝步,这之后,Ck就作为Lk的超集,需要注意的是,在Ck当中的元素,它可以是具有频繁性的,也可以是不具有频繁性的。在Ck当中,包含了所有的频繁项集,因此,在对数据库进行实际扫描的时候,可以具体到确定每一个数值。从而使得Lk在一定程度上被确认,但是在此期间需要注意的是,Ck项集里面如果数值很大的话,就容易引起相对的偏差。所以通常情况下都会对Ck项集做压缩处理。具体过程如下。

输入:首先在事物数据库中输入D;并且获得最小的支持度阈值为min-sup

输出:然后在D中的频繁项集设置为L

(1)L1=find_frequent_1_etemsets(D);

(2)for(k=2;k++){

(3)Ck=aproiri_gen(Lk-1;min_sup);

(4)for each transaction t D{//对D进行扫描并获取计数

(5)Ct=subset(Ck,t);//这样能够获得t的一些候选子集

(6)for each candidate 错误!未找到引用源。Ct

(7)c.count++;

(8))}

(9)Lk={Ck|c.count≥min_sup}

(10)return L=错误!未找到引用源.Lk;procedure_apriori_gen(Lk_1;frequent(k-1)-itemsets)重复,返回Ck

这就是进行Apriori算法,在操作执行中经历的各个阶段流程。

3 关联规则下数据挖掘算法应用

3.1 数据挖掘算法在数据交互上的应用

为了有效避免数据重复这一情况,相关关联规则下的数据研究人员往往会对数据挖掘技术的研究过程进行整体上的改革,进一步加大研究力度,刷新挖掘目标,科学的完善整体的挖掘计算机制。比如,相关研究人员在进行实际研发的时候,要对数据挖掘计划做一个详细的数据总结,并且对整个系统当中的工作控制具体到任务分配环节上来。使得每一位研究人员都能够在一个理想的挖掘数据信息环境当中来指定挖掘算法的约束。进而从不同的阶段上面,来对数据挖掘技术基本形式进行实时的数据交互。

3.2 数据挖掘算法在反馈机制下的应用

在进行实际数据挖掘算法研究的过程当中往往会受到很多不可测因素的影响,所以在其间建立有效的反馈机制和负反馈机制是非常有必要的。针对于计算结果,要及时的进行验证,防止由于错误导向导致的算法数据修正。因为在数据修正的过程当中会消耗大量的人力、物力以及时间。建立约束机制是必不可少的,数据挖掘算法当中的各个阶段都需要约束机制的作用。确保逻辑上的正确性,并且根据客户的侧重面来进行实际主观改良。数据挖掘算法的约束是不变的,像数学上的逻辑性一样。在研究的过程当中一定要满足各方面的实际需求,符合逻辑性。

3.3 数据挖掘算法在约束条件下的线性应用

在进行约束类型选择的过程当中,一定要遵守相关的关联规则:在时态的约束条件之下。数据量的上升以及计算机的内存是呈线性关系的,倘若在一个数据库中,对数据挖掘算法进行扫描的时候,发现少了I/O个数的话,在关联规则之下,数据挖掘算法就有其必要性,此内容就是ISS的容量控制。ISS容量控制如果非常科学、合理的话,能够在一定程度上减少CPU的占用量,提升性能。

4 数据挖掘算法的其他类应用

在我们的日常生活当中,常使用数据挖掘算法来进行各种问题的求解,数据挖掘算法转化成现实应用有多种类型。其中,C4.5算法是比较常见的,在运用C4.5的算法方式时,主要利用决策树来创建完整的分类器,其主要指的是和流程图比较相似,能够对各种新数据展开合理分配,从而构建了完整的决策树。同时,在对数据展开挖掘操作时,应用比较普遍的工具就是分类器,通过对各种数据进行明确划分种类,而且能够及时对一些新数据种类进行预测。在运用C4.5算法来进行计算时,必须充分结合C4.5来提供的相关表达内容,这样才能按照所给的数据性质,来分别组成不同的数据集合,并且展开数据分类。如果在数据集中含有的病人信息非常庞大,那么在已知病人的年龄、脉搏、血压、最大摄氧量以及家族病史等等信息之后,需要充分应用病人的数据属性集合与病人所反馈的相关类型保持对应,只有充分运用C4.5算法,才能针对病人的需求,充分结合病人的属性因素,构建科学、合理的决策树图形,实现数据挖掘应用。

5 结语

在关联规则之下,数据挖掘算法是在数据挖掘技术当中所引发出来的非常重要的数据处理方法,它的合理应用能够使得数据库在进行大范围内的数据处理时,能够高效,及时并且容错率低地进行数据统计、分析、计算、预测。所以,本文中的主体主要是介绍数据挖掘技术以及数据挖掘算法,以供相关读者参考。

[1] 吐尔逊江•托合提.基于关联规则映射的生物信息网络多维数据挖掘算法分析[J].无线互联科技,2015(19):35-36.

[2] 杨泽民,郭显娥,王文军.数据挖掘中关联弱化问题的解决方法分析[J].计算机科学,2013,40(08):220-222.

猜你喜欢

项集项目组数据挖掘
CSCO生物统计学专家委员会RWE项目组简介
Association between estradiol levels and clinical outcomes of IVF cycles with single blastocyst embryo transfer
探讨人工智能与数据挖掘发展趋势
基于数字化平台的项目组管理实践
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
项目组研究式教学对社会主义学院教师能力素质的要求及培养
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议