APP下载

大型数据库的关联挖掘算法设计分析

2018-11-20霍英哲王群尹晓华于海李峰

世界家苑 2018年11期
关键词:关联规则

霍英哲 王群 尹晓华 于海 李峰

摘 要:当今,数据容量规模的扩大,导致数据规模扩大、复杂化,人们无法快速找到感兴趣的数据,对于此类爆炸式增长的数据,人们进行数据处理以及数据分析的能力非常有限。因此,数据挖掘技术得到了广泛重视及深入研究,逐步成为重要研究领域。

关键词:大型数据库;关联规则;挖掘算法;关联挖掘

数据挖掘即从大量不完全、有噪声、模糊随机数据中获取包含有人们事先不知道又潜在有用信息及知识处理进程。该方法之所以被称为未来信息处理重要技术之一,关键是它以一种全新概念转变着人类使用数据的模式。但数据库技术作为一种最基础的信息储存及管理形式,依旧以联机事务处理为重点使用,对决策、解析、预测等高级性能的支持技术较少。关联规则挖掘是数据挖掘的一个重要分支,广泛应用在多个领域,如数据分析、数据库设计、仓储规划、网络故障解析等,导致已有的数据库规模迅速扩大,对大规模数据库关联规则挖掘的研究成为了该领域具备关键理论价值及现实意义事件。对此,提出并设计了基于贝叶斯信息标准BIC评分函数的大型数据库关联挖掘算法。

1数据库关联数据分析

在对大型数据库进行关联挖掘过程中,其数据库的获取及数据预处理是影响关联挖掘的关键步骤。对此,在数据库获取后,对数据进行预处理过程中,采用自适应函数对其进行分析,提高大型数据库数据性能,为进行关联挖掘提供基础依据。

1.1数据库获取分析

数据库还原模块在运行时,首先将运行环境初始化,包括环境变量初始化、配置文件初始化、公共变量和数据缓存初始化。然后进行网络设备初始化,最后创建数据库还原模块的工作线程,包括数据流还原线程、拦截数据包线程和数据包处理分析调度线程。拦截数据包线程的主要功能是拦截网上的数据包,数据流还原线程的主要功能是还原网络数据包,并将还原结果存入数据库还原模块的数据库中。数据包处理分析调度线程主要对不同的数据包进行调度。数据获取中主要获取内容是相关数据来源记录信息、具体数据特征、获取数据所需时间等。实现这一目标的方式有很多种,其主要依据是借助各种途径,对数据进行采集。

1.2数据库关联

数据预处理数据库数据量较大,若要增加挖掘效率,实现挖掘的目的,要对数据提前进行一定处理,即预处理,重点包括数据采集、整理、选择、转存等流程。在数据整理方面,重点是对具有冗余特征的数据删除、对类似数据项进行合并、筛查修正数据信息等。在此之后进行集体的筛选处理,把来自不同源点的数据汇集起来,对数据进行筛查,找出适合搜寻需求的数据种类。最后对数据进行转换,把最终得到的数据对应地进行适应度函数调整、转变成更适合使用的格式,方便进行关联挖掘解析。在进行关联数据预处理过程中,把网络结构学习作为最优化问题,对挖掘目标进行搜索评分。

对此采用较为常用的评分函数有贝叶斯信息标准BIC评分函数,对数据进行预处理。该评分函数具备以下几个优点[9]:一是不依附先验概率,不对先验概率分布情况进行估计;二是在样本集合过大时,能够近似地对后验概率进行验证;三是在没有规定多项式分布及Dirichlet先驗概率情况下,和MDL测度取负号的结果近似相等。因此,在本算法中使用BIC评分函数作为适应度函数,并认为BIC的得分越高,适应度越好,为后续的关联挖掘提供基础。在数据关联挖掘中,若每个部分均要给出相应的挖掘规则、频繁集等,则需对选取范围进行确认,并建立对应向量,采用普通的安全多方循环协议进行集合的合并。为了增加预处理的安全性能,采用基于可交换密钥顺序方法进行安全加密处理。在共享的状况下,能够采用其余方式进行可交换加密。

2关联挖掘算法优化研究

在进行大数据关联挖掘算法优化过程中,首先对数据进行一次扫描,搜出整体的频繁1_项集;然后对搜出的频繁1_项集进行组合,依次产生频繁2_项集、频繁3_项集等。关联挖掘算法优化流程图如图1所示。

3系统性能测试

3.1系统性能评估方法

实验采用系统仿真的方式对算法有效性进行验证,实验环境如下。系统硬件采用4核1.66GHz的CPU;RAM10GB。系统操作系统采用Windows2010Server;源数据库使用默认.dat二进制的数据;输出文件为.txt文本文件;以VC++6.0sp6编制为实验程序;实验期间断开网络连接,防止出现误差;每一次实验后对系统内存进行整理,让每一次程序运行环境尽量统一。准确率在算法验证过程中,将某一兴趣类别产生的数据进行正确的判定,而得到的总和百分比才是最终的准确率。准确率与出错率成反比,即当错误率降低时,准确率提高,表示用户的挖掘效率越高。

3.2结果分析

准确率对比结果如图2所示。

图2 准确率对比结果分析

由图2可知,采用传统挖掘算法进行数据库挖掘时,在时间不定的情况下,其挖掘准确率随着时间的增加出现下降的趋势,准确率最高达到73.4%,最低为50.8%,平均准确率约为56.4%;采用改进方法时,随着时间的增加,其挖掘准确率具有上升趋势,准确率最高达到99.4%,最低为80.1%,平均值约为91.3%,相比传统挖掘算法提高了约34.9%,具有一定的优势。

4结论

针对传统挖掘算法一直存在挖掘准确率低、效率差的问题,提出基于贝叶斯信息标准BIC评分函数的大型数据库关联挖掘算法。实验结果表明,采用改进算法相比传统挖掘算法准确率提高了约34.9%,具有显著优势。

参考文献

[1] 何佩佩. 云环境下数据挖掘算法的研究与设计[D]. 东华大学,2016.

[2] 谢笑盈,徐应涛,张莹. 基于抽样学习的关联挖掘算法设计[J]. 浙江师范大学学报(自然科学版),2018(1).

[3] 张全红. 面向大数据的关联规则算法研究[D]. 西安科技大学,2017.

(作者单位:国网辽宁省电力有限公司信息通信分公司)

猜你喜欢

关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究
数据挖掘在超市大数据中的应用