APP下载

大数据时代企业档案信息资源整合与利用

2022-05-03麦迪闫润中齐宏远

陕西档案 2022年2期
关键词:数据挖掘数据库利用

文/麦迪 闫润中 齐宏远

当今世界,大数据时代降临并渗透到各个领域,档案部门又将如何应对?本文对大数据的涵义进行了阐释,将大数据和档案的关系进行了分析,深入剖析了企业档案信息资源的整合与利用手段等问题

“大数据”这一名词伴随着庞大数据群自20世纪90年代悄然出现后,逐渐声名大噪。随着云计算、物联网等技术的产生和发展,随着各种信息发布、信息存储和信息传播方式的兴起,全球的数据都在以前所未有的速度飞速增加和积累。凡此,无不给档案事业的信息资源累积、整合与利用带来巨大的影响,进而对全世界经济社会发展产生轰动效应。

一、大数据时代的到来

(一)大数据概念与含义

大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

(二)大数据与档案的关系

1.档案大数据是大数据的有效组成部分。随着大数据时代的来临,大数据已经几乎渗透到了全球各个领域,档案领域的大数据也随之逐渐蓬勃发展起来,档案的来源更广、数据更新、平台更多、技术更过硬,使得档案大数据的数据量和数据类型都呈直线上升的增长趋势。

2.档案大数据的价值一般高于整体大数据的水平。档案的性质就决定了档案领域的大数据价值势必高于其他领域大数据的价值。档案是一种原始记录,档案工作有其深厚的理论和实践基础,因此档案领域的大数据在系统性、完整性和准确性方面将更具价值优势。

3.档案大数据的有效利用将高于其他数据。档案工作长久以来的最根本目的就是为了提供利用,大众对档案已经形成一种利用习惯。而档案的价值高于普通数据,使得档案大数据的利用价值也将高于普通数据。档案涉及的行业领域十分广泛,从政府公文到公司账目,从建筑图纸到获奖证书,从专利证明到照片视频,档案数据的利用延伸到了工作生活的多个方面,这也是其他数据所无法比拟的。

二、企业档案信息资源的整合

海量的数据充斥世界,如何将这些信息迅速转化为可利用的信息资源,无异于掌握了一把能打开另一个世界的钥匙,越来越多的政府、企业,正逐步意识到这隐藏在数据山脉中的金矿。档案管理需要从简单的数据收集、整理、存储,转变为档案信息资源的有机整合、加工,从而形成高价值的可利用信息资源。

(一)扩展档案范围,记录即档案

大数据时代,记录即档案,档案不应该再局限于事件结束后经过整理归档的文件,信息化环境下,很多记录一旦形成,就应该成为可供利用的档案。

(二)从数据库到大数据的飞跃

大数据的出现势必会颠覆以往数据管理的模式,传统数据库的处理规模较小,大数据难以通过数据库来进行处理;大数据环境下的档案类型将日新月异,传统数据库中的档案类型单一,往往集中于某几类档案;数据库中的档案仅仅作为档案本身而存在,大数据则是一种可以被利用的资源,与其他资源的可联性较强;传统数据库的扩展性较差,而大数据则需要能够适应数据增加速度的新数据库。建立能够适应档案大数据的新数据库,是企业档案信息资源整合的前提。

(三)数据挖掘和数据挖掘的应用

数据挖掘是在探讨用以解析大数据的方法。大数据时代的档案信息冗杂、价值高低不一,利用起来尤其不便,许多低价值甚至没有价值的档案与重要价值的档案掺杂在一起,难以从中分辨,这就需要数据挖掘,去粗取精、去冗分类,从中提取高价值的档案,整合低价值的档案,最终获得更高的效益。

档案的价值不再仅仅局限于表面,大数据的关键在于其潜在价值,档案工作不仅仅局限于收集保存,还需要挖掘数据的潜在价值,激活隐性信息。数据的重要价值在于其使用,而不再是数据本身。档案也不再是越多越好,有量又有质才是今后的发展趋势。只要拥有良好的数字资源基础,计算机快速处理海量的不同类型信息的能力就能够高效地挖掘出档案信息资源的潜在价值。

(四)注重档案数据的前端控制

除了扩大收集范围、建立新型数据库、数据挖掘以外,还要做好档案数据的前端控制,以确保档案管理工作的规范,从源头上做好档案信息资源整合的准备。企业的办公系统、财务系统、合同管理系统、PDM系统等,以及各项业务流程,都应该将档案管理工作融入其中,做好文件的前端控制。

(五)应该将大数据融入到数字档案馆建设中去

目前多数企业都在进行或完成数字档案馆建设,大数据以及大数据技术都应该有选择地与数字档案馆建设相结合,为下一步建设智慧型档案馆做好基础。

三、企业档案信息资源的利用

(一)海量数据的查询能力是档案利用首先需要解决的问题

随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。但是在大数据时代,档案数量急剧增长,传统档案数据库的性能难以支撑其快速增长的数量。在进行档案查询时,往往需要的信息会被埋没在大量不需要的数据中,并且检索性能急剧下降,甚至无法响应。因此,如何在大量的档案中快速而准确地找到所需的信息,是档案提供利用要解决的首要问题。其中,基于音视频的检索、基于语义的检索和档案智能辅助分类都是档案大数据目前急需的检索技术。

(二)信息载体、信息技术、档案设备等的先进性和智能性直接决定档案信息资源的利用效果

大数据时代的来临,各种新媒介新载体新领域的档案不断涌现,同时技术更新换代越来越频繁,不仅使整个社会走向智能化,档案工作也需要走向智能化,用智能化的技术手段为用户提供定制的利用服务,提高收集、存储、管理、分析和分享大量数据最先进的核心技术水平,并根据不同的用户需求,提供不同的利用途径和数据信息,以达到最满意的利用效果。

(三)提高档案部门在信息资源利用中的指导作用,提升档案部门的研究能力

档案部门需要转变过去的服务方式,主动去了解本单位用户的需求,根据不同需求,对海量的档案信息资源进行分析、归纳和整理,找到数据之间的关联,进行相关性分析,注重质量,加强特色开发,从而提高档案的利用质量和利用水平,让数据的价值得到良好的体现。

(四)通过宣传提高档案信息资源各种利用形式的知名度

时下,多数用户对档案信息资源的利用方式都比较单一,对于最新最先进的利用手段掌握得比较滞后,档案部门对档案利用手段和利用形式的宣传不够到位,让很多最先进的技术手段形同虚设。因此,在企业中提高档案信息资源利用形式,才能让档案的利用工作真真正正地发挥作用。

不言而喻,大数据时代以高调而不可逆的姿态降临,与档案领域擦出绚烂的火花,既有冲撞又有助益,更有利于促进档案事业快速发展。是大数据为档案界带来了前所未有的发展机遇,档案信息资源的整合与利用为大数据展示了广阔的发展空间,我想这就是本文试论的最满意的结论。

猜你喜欢

数据挖掘数据库利用
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
利用min{a,b}的积分表示解决一类绝对值不等式
数据库
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
数据库
利用“隐性”圆,巧解一类题
数据库
数据库