APP下载

加快档案数据化发展路径探析

2020-12-15蔺文卓

卷宗 2020年25期
关键词:数据化档案发展

蔺文卓

摘 要:档案数据化是大数据时代的必然发展趋势,随着5G时代的到来,必将加快档案数据化的进程。档案界要独立潮头,就必须融入数据化的大潮,步入数据化时代。为了加快数据化步伐提供借鉴,笔者对数据化的理念、档案数据化国家战略、实现路径进行了粗浅的分析,提出了建立管理数据库、增量档案数据化、采用挖掘技术等建议。

关键词:档案;数据化;发展;路径

DOI:10.12249/j.issn.1005-4669.2020.25.075

随着计算机技术和网络技术的飞速发展,我国的档案工作经历了三个阶段:第一阶段是以纸质档案为核心的纸质档案开发利用阶段,第二阶段是以数字化为核心的数字档案开发利用阶段,第三阶段是数据化档案开发利用阶段。就目前的档案管理情况看,我国现阶段仍处在第一阶段或第一或第二阶段相融合的时期,即纸质档案与数字化档案并存时期。未来,我国的档案工作将进入数据化时代,并对其进行全面的数据化研究,为国家经济建设和行政管理提供全新的借鑒。

1 数据化的核心理念

近年来,随着大数据技术的出现,数字革命的到来,引发了数据化浪潮。数据化的直接结果是,推动了文化革命和产业革命,使得各项决策均以数据为依托,以数据模型的分析结果为依据,进而实现科学决策。那么,什么才是真正意义上的数据化呢?

从档案管理的视角看,我认为档案数据化的实质是将档案信息转化为计算机可以阅读和理解的档案信息资源的过程,将利用档案的途径由“页面阅读”转化为“内容控制”“信息开发”。实质是,将数字档案资源转换为可供阅读、分析和处理的数据资源的过程,并进一步转化为可制表分析的数据形态,进而实现档案服务模式的创新。如何实现由数字化向数据化的转换呢?这就要求我们引入智能化的技术,通过OCR光学字符识别技术对纸质档案进行扫描,然后将图片的文字转化为数字化格式,形成文字集合;对于图像、音视频文件可通过音频的文字转换,形成文字数据,建立数据化文字形态。

2 档案数据化的国家战略

我国的档案数据化战略,经历了从管理到实际应用转化的认知过程。尤其是运用大数据后给工作带来的效益,对它的认识空前提高,历经12年的发展逐渐实现了由数据到数据化的转变,并上升为国家战略。2011年,《全国档案事业发展“十二五”规划》指出,“加强档案信息系统安全技术防范技术管理……,确保档案数据及档案网络设备设施安全。”是对档案数据的首次提及。

2016年国家档案局颁布的《全国档案事业发展“十三五”规划纲要》提出“建立开放档案信息资源社会化共享服务平台,制定档案数据开放计划。”这一时期,国家层面的部署直接转入到数据服务

领域。

2017年,国家档案局局长李明华在全国档案安全工作会议上强调,“做好档案数据的安全备份,确保档案数据、信息系统及网络始终可用可控。”这里有两层意思:一是要保证数据安全,二是要保证数据的网络化,提高数据的可利用性。

2019年,国家档案局原局长杨冬权在档案从业者安全保护专题研讨会上的讲话则实现了从档案数据到数据化的升华。杨冬权强调,“过去我们搞档案数字化,是把纸质档案扫描成图片,这些图片上的档案还需要人来读,不能够成为数据,由电脑来处理。今后,我们还应该把这些图片转化为电脑可以读的字,变成电脑可以任意检索的数据,让它和其他的大数据一样,进入大数据系统,可以任意的检索、主动的推送、深度的挖掘,变成人工智能、人的智慧、人的外脑。”这里虽然没有提及数据化的概念,但其中提到的将数字化的图片转化为电脑可以读的字,变成电脑可以任意检索的数据,并实现主动推送、深度挖掘,则集中体现档案数据化的根本要义。

同年,国家档案局制定了DA/T75—2019和DA/T82—2019两项档案专业标准,分别对档案数据硬磁盘离线存储和基于文档型非关系型数据库的档案数据存储进行规范。这两个专业标准虽然只规定了档案数据硬磁盘离线存储和非关系型档案数据存储,但却从根本上彰显了我国档案数据化管理和应用的战略步骤,使档案数据化迈上了国家战略的快车道。

3 档案数据化的实现路径

自我国工业和信息化部2016年12月印发了《大数据产业发展规划(2016—2020)》,标志着我国大数据时代的到来。历经5年的融合发展,截至目前,大数据已经在电商、城市规划、科学研究等领域大有作为,并开始介入档案信息资源领域,成为档案工作创新的引擎。为了实现档案资源的数据化目标,笔者认为档案界应采取一系列措施,进行全新的数据化实践。

1)建立数据化关联数据库,实现存量档案数据化。以往的档案信息资源是互不关联的独信息,很难为大数据技术所应用。这就要求档案部门,从档案工作的实际出发,在数字化档案数据库的基础上,通过OCR光学字符识别技术、音视频文字转换技术,对数字化的JPG图形档案进行格式转换,形成适应大数据利用的数据化的数据库。根据大数据分析体系的要求,档案资源的数据化一是要能够实现互联网平台的分享和浏览;二是要适应数据挖掘的需要,在数据之间建立相应的关联,为数据挖掘、分析提供数据支撑;三是数据的类型要符合可制表分析的数据形态。

2)做好增量档案数据化。增量档案是档案大家族中不可或缺的重要资源,是保持档案资源连续性的重要步骤。由于增量档案大多是现实工作中形成的、具有保存价值的历史记录,其形成过程既有纸质文件,又有电子文件,要做足数据化的工作比以前要轻松得多。但是在数据化的进程中,数字化并不等于数据化。因为只有将扫描后形成的图片实现智能识读,并进入可列表分析、挖掘才能说是实现了初步的数据化。因此,做好增量档案的数据化同样是一项艰苦、繁复的工作。为了实现上述目标,一是要做足增量档案的数字化,二是要加快管理数据库的建设,三是要加快光学字符识别技术、音视频文字转换技术的应用,四是要加快挖掘技术的应用,进而实现一切皆数据,数据源可追溯的目标。

3)利用挖掘技术实施挖掘分析。挖掘技术是互联网时代,尤其是云计算时代的核心技术,旨在通过对海量数据对某一经济现象和社会现象的智能分析,找出事物的规律性,对政治、经济、文化、社会的走势、动态提供理论模型,为未来事态发展提供掌控依据。档案数据挖掘工作,就是要对数据化的档案进行智能化、情报化检索,并利用数据之间的关联性,实现精细化分析,进而找出事物间的规律,服务社会。

4 结束语

档案数据化是档案数字化的子集,数据化是数字化进程中的一个方向。只有实现数据化,浩繁的档案才能为广大的群众所利用。档案作为一个庞大的系统,必将在未来,尤其是在21世纪的互联网时代发挥更大的作用。这就依赖于档案的数据化,尤其是存、增量数据库的建设和挖掘技术的全面应用。

猜你喜欢

数据化档案发展
迈上十四五发展“新跑道”,打好可持续发展的“未来牌”
砥砺奋进 共享发展
“互联网+”背景下的智能互联汽车数据化媒体服务
改性沥青的应用与发展
浅析人力资源管理的E化
对“未来教室”的初步探索
档案管理和档案服务
档案的开发利用在供电公司全面管理中的作用
浅谈北京卫视《档案》的叙述方式
新常态下高校档案工作发展研究