APP下载

基于布尔关联规则的数据挖掘技术在数字档案馆应用研究

2014-09-03刘大宁

档案管理 2014年5期
关键词:数据挖掘档案馆关联

刘大宁

1 引言

在信息社会的大背景下,档案馆社会化也将随之而发展,数字档案馆访问者将具有来源广泛性、背景多样性的特征,信息需求的个性化发展也会随之而增强,数据挖掘将会成为档案工作者全面掌握和准确理解档案用户的信息需求和心理行为最为便捷的方式。关联规则作为数据挖掘的主要技术之一,也是在无指导学习系统中挖掘本地模式的最普遍形式。可使我们获得一些存在于数据库中的关联模式,为数字档案馆的建设提供科学依据。来档案馆查资料的人有不同目的,当第一次通过数字档案馆阅览时,可使用关联规则由其注册信息将他划分为相关联的用户群。使用登录账号登录数据库阅览时,数字档案馆数据库已根据其个人关联进行相对应检索,显现在用户面前网页就有可能是其最需要的资料,从而减少访问者检索所需时间。即是根据各位访问者经常使用的信息进行一定的关联分析,就可整理出数据库中不同种类用户群。

2 数据挖掘技术流程

2.1 确定对象。明确给出服务对象的业务需求,认清进行数据挖掘达到的目的是数据挖掘的重要一步,进行挖掘技术的最后结果是不可预知的,但要探索的问题却是可以预见的,为了数据挖掘而进行数据挖掘则带有一定的盲目性,成功率必然偏低。

2.2 前期准备。一是数据的选择:搜索数据库中与业务对象有关的各种数据信息,并从中挑选出适用于开展数据挖掘应用的数据。二是数据的预处理:通过研究数据的质量,为下一步的数据分析做准备,并选定将要进行的数据挖掘操作类型。三是数据转换:将搜集的数据转换成一个分析模型,是针对采用的挖掘算法而建立的。而建立一个真正与挖掘算法匹配的分析模型则是进行数据挖掘成功的重要环节。

2.3 开始挖掘。对前期经过筛选所得并经过转换的数据进行挖掘。在选择合适的挖掘算法后,剩下的所有工作都能自动地完成。

2.4 挖掘分析。对挖掘结果进行解释并作出评估,在此过程中使用的分析方法应根据数据挖掘操作而定,一般采用可视化技术。

2.5 进行知识同化。将挖掘结果分析所得到知识进行集成,并以此建立完善业务信息系统的组织结构。

3 基于关联规则的数据挖掘方法

关联分析(Association analysis)就是通过对数据库中的各数据项之间存在的相关特性按照一定规则进行比对分析,寻找出隐藏在数据项之间的相互联系,如果数据库中有两项或以上数据存在着某种联系,就能根据这种联系通过其相关联数据对某一数据

进行预测。关联分析就能通过访问用户查阅各种档案信息间存在的关联性,进而分析发现用户使用模式。关联规则分析就是通过寻找数据库中数据之间相关性。如果两项或以上属性之间存在有此关联性的话,通过这种方式就可依据其他属性值预测其中某项的属性值。即通过数据挖掘技术就可找出数据库中藏匿的关联网,进而对下一步的决策提供指导。

一方面,对原有的档案数据库中的显性知识和隐性知识进行搜集和整理,根据其概念描述归纳出便于提取的相关特征,通过基于布尔关联规则的分析,按照相似性与差异性构建不同的需求分析模型,然后利用Apriori算法进行迭代分析,将数据放入不同的分类中,便于提取。另一方面,要对用户确定的主题进行定义,明确挖掘要求和目的。通过需求分析模型与用户指定信息进行结合,进行差异分析和偏差检测,排除其他不相关数据,得到挖掘结果。最后要对挖掘结果开展评价,得到的挖掘结果可能有没有关联的数据,也可能没有达到需求,如果出现这种情况,整个数据挖掘过程就要返回到数据收集阶段,并重新开始挖掘过程,这可以用“if not…then”规则来描述,反之即满足数据挖掘要求,可为数字档案馆所用,并就将其充实到原有数据库中,进行档案馆知识创新。

4 存在问题及对策

基于布尔关联规则的数据挖掘技术使数字档案馆从理论走向实践成为可能,它主要提供技术支撑,而数据挖掘的基础是对各种数据的识别,也就是针对不同的数据库都要能够识别,就需要数据标准统一起来。当前我国档案信息化工作在标准体系建设方面相对延后,各种档案管理软件与档案信息管理平台尤其是档案信息元数据、档案数据库结构存在着无法兼容的情况,并且数据质量标准多样,无法满足数据挖掘所需要的高质量数据库要求。需要对档案信息整理统一标准体系,按照标准清理优化数据,完善数据库结构。需要借鉴数据挖掘在其他行业取得的成功做法,在数字档案馆建设中扩大数据挖掘在各个环节的应用,进一步推动数字档案馆建设和发展。数据挖掘技术的精度仍需提高,即如何使得迭代算法能够在进行关联规则分析时稳定收敛是仍需要进一步深入探讨的问题,建议采用数理分析方法,提出一种基于参数的优化模型,以此进一步优化提高算法性能。

*本文为2013年河南省档案局科技项目,编号:13-X-18

(作者单位:河南牧业经济学院人文与社会科学系 来稿日期:2014-06-16)

猜你喜欢

数据挖掘档案馆关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
全省部分档案馆新馆掠影
智趣
一种基于Hadoop的大数据挖掘云服务及应用
太仓市数字档案馆成为“全国示范数字档案馆”
基于GPGPU的离散数据挖掘研究