APP下载

数据挖掘技术在档案管理系统中的应用

2020-01-02王仡捷

梧州学院学报 2020年3期
关键词:数据挖掘数据库档案管理

王仡捷

(安徽广播电视大学 信息技术与网络管理中心,安徽 合肥 230041)

以大数据为基础的计算机数据挖掘技术给传统的档案管理带来巨大的冲击,也在很大层面上影响和改变了传统档案管理的理念和方式。应用大数据挖掘技术,能提高档案管理中的数据检索、查询性能,并构建自动化、数字化相结合的档案信息管理机制。

1 基于大数据的计算机数据挖掘技术

1.1 以计算机技术为基础的数据挖掘

数据挖掘指的是从海量的、不规则的随机数据中提取出满足人们信息、知识需求的数据,挖掘出来的知识往往具有潜在的、隐性特征。计算机的普及应用为数据挖掘技术提供了技术和平台保障,基于计算机的数据挖掘将人工智能、统计学知识和技能进行有机结合,利用计算机检索的自动化功能,对原有的海量数据进行高度分析,推理和挖掘出数据信息的潜在性能,从而为人们决策提供信息支撑。数据挖掘技术是随着信息技术的发展而不断改进和普及的,起初在20世纪末,数据挖掘技术主要应用在较小范围内的研究阶段,后来随着信息技术创新和人工智能发展逐步应用到各行各业。数据挖掘技术常用方法为分类法、关联法、序列模式法和聚类分析法等,对采集的数据进行多维度的整合分析,挖掘数据中的信息、知识和模式等,为决策者提供参考依据。

1.1.1 分类形式。该形式是数据挖掘技术的核心,更是计算机数据挖掘技术在实务应用中的重要组成部分,其核心理念是分析数据属性,将不同的元祖数据划分到不同类别中,分类是数据挖掘的起始部分,更关系到数据收集的整体质量[1]。在应用过程中,分类所体现的是对数据的归纳、提炼,从而确定同类事物的划分依据即同种数据的共性。具体操作中,操作人员要挖掘数据的共同特征,利用相关程序进行最终检测,核定数据的共同特性,从而进行具体分类。

1.1.2 关联形式。关联原则是数据挖掘技术中较为简单的操作形式,是通过对相关数据的准确描述,实现对同类数据的分析、归纳和提炼。具体应用中,要对某一类数据对象进行描述和分析,将同种属性糅合起来,然后通过总结和归纳,得出对象的共有属性或机制。关联形式可以直接应用到数据分析过程中,将不同事物产生的海量数据进行统一的记录整合,减少分散数据的存储量,实现系统的良好运行。

1.1.3 粗糙集法。粗糙集法相当于数据挖掘技术中的数学工具,能研究数据队形中的不确定知识、规则,其运算过程相对简单容易操作,不需要确定相应的研究信息,因而能为大多数用户提供便利[2]。粗糙集法的应用范围较广,由于客观世界规则都具有不明确性,因而都可以用粗糙集法进行研究,同时粗糙集法可以排除数据库中的干扰信息,发现数据中的共性,并以表格的形式进行整理,形成可供决策者直观的决策表格。

1.2 大数据背景下的档案管理工作内涵

大数据的发展推动了档案管理的改革和发展,信息技术和数据库的应用促使档案管理在统一的平台进行数据收集、分析和处理,并以信息技术为动力推动档案管理的效率提升。在大数据背景下,传统的档案管理模式显现出滞后性,档案的信息载体也从最原始的纸质文件向电子文件、数字文件转变。结合大数据和云计算的共同作用,现代化档案管理以大数据技术为支撑,对纸质文档进行数字化存档,并借助数据平台的开放性、交互性,为档案用户提供便捷、快速、高效和人性化的档案服务。

2 计算机挖掘技术在档案信息系统中应用的积极意义

2.1 提高档案信息的安全性和准确性

其一是通过对纸质档案实现电子化,有效减少对纸质档案的二次损坏,并能确保对纸质档案的规范化录入、保存和检索,达到保护纸质档案的目的。

其二是需要通过使用计算机技术提升电子档案的保密性、安全性,以及实现对电子档案的智能化管理,提高电子档案的应用效率,充分发挥数据信息的应用价值。

其三是通过使用计算机技术,把涉密的数据处理过程严格控制在内部实现,从而解决涉密数据的有效管控,严防数据泄密,达到提升档案安全性的目的。

2.2 提高档案的使用效率,放大档案的功能价值

档案的重要性和应用价值在于存储信息可以为决策者和信息需求者提供服务,而大部分档案信息具有一定的保密要求,不同类别、集体的档案是不可能向全社会进行公开的,档案的保护、管理、查阅都有一定的权限,这就导致档案管理工作和查阅使用之间存在一定的矛盾冲突,引发两方的沟通难题。如一旦沟通不畅,档案查阅的需求和档案管理的调取结果不一定完全对等,就会增大档案管理的工作量,增加管理和查阅两方的沟通次数。而计算机数据挖掘技术则可以通过对档案数据的分类、关联帮助管理者明确查阅者的信息需求,或者构建专门的档案信息供应渠道,减少传统档案查阅中的查询、检索环节,提高档案利用效率,增强档案的信息服务功能。

2.3 提高档案管理的自动化、智能化和数字化水平

信息技术时代,档案管理和信息技术的融合是必然趋势,更是创新档案管理理念、模式,提高档案管理效率和质量的必然途径。基于大数据的计算机数据挖掘技术的应用首先要有大量的数据信息、档案信息为前提,继而应用计算机数据挖掘技术对档案进行筛选、分析和整合,从而得到想要的结果。数据挖掘技术可以在档案管理的过程控制、信息控制、数据整合、查询检索、分析决策等多个方面进行具体应用,涵盖范围广泛。同时,计算机数据挖掘技术是一个跨学科的信息技术,是计算机、人工智能、数据库和统计学原理的综合应用,并涉及到神经网络、遗传算法等学科[3]。数据挖掘技术的应用不仅提高了档案管理的效率,更从某个层面为档案管理系统的改革和创新提供技术动力,促使档案管理系统进行全方位改革,在具体的档案管理工作中,推动工作人员创新工作理念,树立信息化的档案管理意识。

2.4 提高档案管理的服务性,增强用户体验

将计算机挖掘技术应用到档案管理系统中,可以在很大程度上提高档案管理的效率,相较于传统的档案管理技术,数据挖掘可以实现档案管理的人性化、智能化,以数据挖掘为基础设计的档案数据挖掘体系,可以以用户的使用体验为出发点,强调最大限度地满足用户的真实需求,这种人性化设计是传统的档案管理技术所欠缺的。首先它可以以多元用户的个性化需求为特点进行针对性的数据收集和处理,不仅能提高档案数据的搜集、整合效率,还能实现档案数据处理的针对性和个性化,增强用户的体验满意度。其次,多元用户的信息需求也是有关联的,档案数据挖掘技术可以以全网用户的信息检索数据为依据,挖掘和分析不同用户之间的联系、共性和工作内容,从而为档案管理系统的再次升级、更新提供数据支撑,推进档案管理的持续发展。而且数据挖掘系统可以将相似信息汇总起来,构架大数据仓库,便于档案管理技术人员对数据进行分析、归纳和整合,以加强对档案用户群体的了解。

3 数据挖掘技术在档案信息化管理的应用技法

3.1 分类法在档案管理中的应用

档案分类是对档案进行现代化、智能化管理的前提和基础,数据挖掘技术中的决策树算法以一定规则将不同特性种类的档案进行快速区分,并将同一种类的档案进行归类,能快速提高档案检索的效率。

其应用过程主要是根据分类形式将大量的档案分门别类。将具有相似属性的档案划归到一个类别中,增强档案数据的规范性和标准性,让现代化档案管理具有更加高的效率,档案管理人员可以按照不同的标准实现对档案的快速检索和查询。

3.2 收集法在档案收集中的应用

收集法以神经网络、大数据库为基础。首先分析大数据库中的既有数据,并以该数据为对象构建概念模型,以该模型为标准对比分析每个测试样本,如果该模型和数据样本的主要特征相吻合,即该数据模型通过检测测试,能够对数据样本进行正确的描述和分析,那么就以该模型对未来的数据对象进行分类。如,档案管理人员以1 000名档案会员为样本进行数据统计,以用户的年龄、性别、学历、浏览或借阅记录等数据为训练集,创建针对该档案馆用户的借阅模型,并将该模型应用到对新用户群体分析中。如果有新用户的相关信息输入到该模型中,则该模型会根据新用户的年龄、性别、学历推断出符合他们爱好、需求的借阅偏好,继而进行针对性推荐,实现档案服务的个性化和差异化。

(三)保留法在档案保管中的应用

保留法是保留住既有用户,控制老客户档案流失的高效应用技法。尤其对企业发展而言,保留老用户的成本要远远低于开发新用户的成本,因此进行客户保留是企业发展中必不可少的档案信息处理环节。

企业可以根据收集到的老用户信息进行数据挖掘,分析引起老用户流失的主要原因,继而采取针对性措施,保留老用户,防止老用户档案流失。

4 计算机数据挖掘技术在档案管理系统中的应用展望

4.1 实现数据来源的多样性

数据挖掘的前提和基础是数据,只有收集大量的数据才能确保数据挖掘结果的准确性。从当前的情况来看,档案信息化管理中数据私密化、历史数据积累等还有很多不足,这些都是数据挖掘技术在档案信息化管理应用中亟待解决的问题。同时,对于数据挖掘技术而言,最基本的要求是处理好多种类型的数据库,但是目前多样化的数据库包含了多元化、复杂化的数据类型,如多媒体数据、文本数据、时态数据、空间数据等,而不同的数据类型中对数据记录的标准也不一样,如何协调好不同来源的数据,使多元类型数据能够实现快速转化、对接,也是未来数据挖掘技术中要重点解决的问题[3]。从目前的数据挖掘技术来看,通过一个系统实现对所有类型的数据的挖掘、处理和分析是不现实的,因此要挖掘特定类型数据,则要创建与之相适应的数据挖掘系统。

4.2 数据挖掘算法的研究

数据挖掘算法是数据挖掘技术的核心,好的算法会直接影响数据挖掘的效率和质量。尤其是随着数据库的建立,不同的数据库中包含有海量的数据属性和数据记录,而不同的数据表中又包含复杂的关联,这就会导致数据挖掘过程中的搜索空间和搜索维度激增。因此为从不同的数据库中发掘信息,应当开发更加有效的数据算法,剔除其中的不确定和病态数据。

4.3 数据可视化和人机交互的发展方向

数据挖掘的过程比较复杂,每一个环节都需要工作人员的参与。因此未来的数据挖掘技术在档案信息化管理中的应用有可能朝向人机交互、数据可视化的方向发展。一方面,数据可视化可以将抽象的、复杂的数据转变为人们可以直接理解的数据,进而通过简单的方法操作系统,满足用户的检索、查询等需求。另一方面,人机交互可以通过界面将数据的生成结果直接提供给用户,友好界面能有效提升用户体验,让用户通过可视化界面直观地看到数据挖掘的成果。

总之,计算机数据挖掘技术涉及到较多学科,是计算机技术、云计算、神经网络、遗传算法、统计技能和大数据库有机结合的科学技术。将数据挖掘应用到具体工作中,探究和创建新的工作理念和工作模式有助于实现服务的差异化、个性化,从而提高工作效率。数据挖掘技术对档案管理的冲击是巨大的,也从根本上创建和缔造了全新的档案管理和服务体系,为大数据背景下的档案信息化、智能化和数字化提供了技术和平台支撑,实现档案服务的个性化特征,缩减档案管理成本,提高档案的安全性、准确性。当然在数据挖掘技术的应用过程中,由于所涉及的数据巨大,任何一点细微误差都可能造成重大漏洞,因此需要技术人员对数据挖掘技术进行深入研究,掌握相关技术知识,提高技术服务和管理能力,从而提高档案信息的自动化管理水平。

猜你喜欢

数据挖掘数据库档案管理
改进支持向量机在特征数据挖掘中的智能应用
事业单位档案管理的难点及对策实践
探讨人工智能与数据挖掘发展趋势
如何规范档案管理
基于事故数据挖掘的AEB路口测试场景
档案管理与企业内部控制关系的思考
数据库
软件工程领域中的异常数据挖掘算法
数据库
数据库