试论大数据技术与电子档案管理优化
2021-08-03谢忠强李晨晖
谢忠强 李晨晖
大数据时代的来临就意味着“信息社会”的到来。在大数据时代,各行各業都面对如何高效地管理和利用这些海量而复杂的数据,越来越多的人们发现对这些数据进行有效管理和利用的重要性,档案行业也在其中。档案是一种记录历史的载体,在人类历史发展过程中,它所形成的各种记录数据是巨大的。在大数据时代下,怎样妥善管理电子档案已经成为档案管理人员研究的一个新问题。全球专业数据机构麦肯锡曾经发布报告,首次向公众指出了大数据的概念:大数据是指“大小超出了传统数据库软件工具的抓取、存储、管理分析能力的数据群”[1]。其特点可归纳为4V,即存储的数据量大(Volume)、类型庞杂(Variety)、处理速度快(Velocity)、价值密度低(Value)。数据量大指的是有完整的数据和巨大的数据量。类型庞杂指的是数据的类型很多,传输的方式和手段也很多。处理速度快指的是大数据的及时性。数据一经形成,就需要实时或者准时地分析数据,而分析数据的新趋向,则是突破常规数据分析要求深度分析,无论是数据的生成还是数据的获得、保存和应用,都具有很强的时效性。这是大数据技术区别于传统落后技术的一个最显著的特征。价值密度低是大数据的价值和准确性相对较低,单个信息的价值也不是很高。
一、大数据时代档案管理思维模式的改变
随着大数据技术的普遍应用,档案工作人员在管理档案的具体工作中思维方式也在发生着一系列的变化,具体表现在网络服务思维方式、信息技术思维模式、技术思维模式、共享思维模式四个方面的转变。
(一)网络服务思维方式的转变
传统的档案服务模式因为有时间、空间和利用手段等多方面的限制,已经不能适应在大数据时代下档案管理的工作要求,为了更加有效地面对增长的利用档案的需求,管理档案的部门要依据大数据技术的特点去建立一种网络化服务思维的转变,这样才能保证我国档案工作得以顺利开展。就大数据时代电子档案管理的工作而言,网络化服务思维的转变必须要求档案管理工作增加对大数据技术手段的运用,这样才能提高档案管理服务的效率。[2]随着大数据技术的普及和应用,档案部门完成了档案数据资源挖掘和分析档案数据的目的,而且也能够根据用户的爱好来推荐用户需求的信息,有效地降低了数据资源检索的困难。因此,这就要求档案管理部门在大数据技术的应用下,加强档案服务模式的改革和创新,以此提高档案资源利用的准确性,全面提高电子档案的利用率。此外,在大数据时代下电子档案管理也在朝着多样性方向改变和进步,档案管理部门就必须向用户提供技术化、智能化的档案服务模式,以满足用户的个性化需求。伴随着档案服务模式的逐渐变化和升级,档案馆的工作人员也必须分类整理档案信息,建立完备的数据分析系统才能适应用户提出的各种各样的需求。
(二)信息思维模式的改变
在大数据时代下建立在信息技术和信息开发上的档案管理模式是我国档案管理工作发展的必然趋势。信息化思维方式是指在档案管理工作过程中,工作人员必须站在信息技术的角度去认识问题、分析问题、解决问题。在大数据时代下档案管理工作要求档案部门必须使用信息技术去建立一个高效便捷的档案信息管理系统以便档案管理部门提高档案服务。[3]在档案管理工作中,档案部门必须使用发达的技术和方法,例如使用大数据技术和数据压缩技术把传统的纸质档案和音像档案转化为更容易保存的电子档案。把传统的纸质化档案资源改变为数字化档案信息并且使用计算机系统去管理这些信息不仅可以帮助储存档案数据而且还便于传输档案信息,这就为档案信息便捷化的使用打下了一个坚实的基础。目前数字化档案资源的建设主要有以下三个方面,一是一种数字档案数据目录检索的建立;二是一种全球的数字档案资源库的建立;三是档案资源数据的管理。尽管数字化档案已经有了相对应的图像,但是这些图像只有在人们阅读它的时候才能转化为有价值的信息。因此,档案工作人员就有必要丰富档案的内容,而不只是仅仅着眼于档案的数量。加快把档案资源数字化改变为数据化,不仅对人们阅读档案资源有帮助,而且为档案资源的计算和分析奠定了一个坚实的基础。因此档案管理部门必须加快数字化专项内容数据化建设的脚步,才能保证在大数据时代下服务效率的有效提高。
(三)技术思维模式的改变
在现代化发展进程中,西方国家形成的技术思维观念中就深度挖掘有价值的档案信息十分重要。技术思维模式的出现不但有助于提高使用技术的效率,而且加速了标准化模式的发展,为不断改进档案管理打下了一定坚实的基础。所以在大数据时代到来之际,档案管理工作必须以进一步的研究和应用大数据技术为基础。此外,还要根据商定的归档标准并考虑到新环境下档案管理的实际变化进行档案管理工作,这样才能提高利用档案资源的效率。在大规模传播和应用大数据技术的进程中,档案管理部门应积极推进档案管理的技术改造,促进档案管理水平的不断提高。[4]例如,在对档案数据的深度提取上,档案管理部门必须以数据分析和档案服务体系的不断完善为基础。面对大数据时代信息服务之间的激烈竞争,用户的资源需求不断提高,这也对现有的档案数据管理方法提出了新的要求,即档案管理工作人员使用语义分析、知识地图等重要的大数据技术,对大量档案资源中的高价值的资源进行分析和提取,这样才能满足在大数据时代创建档案管理系统的要求。因此,技术思维模式的改变满足了档案管理的需要。
(四)共享思维方式的转变
要想实现档案数据共享就必须以共建档案信息资源为基础。也就是说只有形成区域档案资源的共享机制,建立大型的档案信息资源数据库,才可以完成档案信息资源的综合共享。这种共享机制不仅可以满足用户的需求,也为我国档案管理工作奠定了一定的基础。但是因为现在我国大多数文件信息资源共享数据库仍然存在着许多孤立而分散的模式,因此不可能建立横纵向的文件资源信息共享平台。所以在大数据时代下,要达成数据库之间的互联和区域档案资源的共享,就必须建立一个新的共享的数据资源平台,在原始档案记录的根本上构建数字化档案,并且加强云计算等新技术的应用,才能为实现档案资源社会化服务提供良好的氛围。
二、电子档案管理中存在的问题
随着近几年科学技术的飞速發展,办公自动化已成为各个部门必不可少的一种办公形式,档案管理也由原来的纸质档案管理慢慢变为电子档案管理。目前电子档案管理不但降低了劳动强度,并且能够提高工作效率,但是电子档案管理中存在的问题也有许多并且这些问题不容忽视。[5]
(一)鉴定问题
目前,随着信息网络的发展,电子档案的规模呈爆炸性增长,给电子档案的管理带来了很大的挑战。这样就导致尽管有的电子档案中存在极其丰富的价值,但是却非常难辨别并进行归档,不能保证电子文档数据和信息管理的有效效果,甚至在识别文档方面存在着问题。如果工作人员用简单传统的方法对电子档案进行鉴定,不仅不能解决现有的问题,而且还会影响档案管理的效果。
(二)存储问题
我国档案信息化建设正在日益推进,各种各样的档案数据库也在逐步建立、内容不断完善。使用档案数据库可以既方便又快捷地查询检索自己所需要的信息,结果还能形式多样地展现出来。档案数据库的使用极大地提高了管理电子档案的效率,但近些年来,因为电子档案正呈指数级增长,在使用档案数据库的时候出现了无法向档案数据库中保存新的档案数据的现象。[6]这种现象很像传统档案管理中因容纳纸质档案的库房空间太小进而导致新增加的档案无法保存到库房中,也就是“胀库”。档案数据库的“胀库”现象主要表现为新增的数据保存不上、因卡顿导致的用户查询检索的时候不正常或检索结果不准确、统计分析不准确等三种主要表现方式。
(三)安全性问题
在电子档案管理的过程中,大量的文件通过互联网发布和传播。电子档案通过网络传输的时候极易被泄露、改动、偷窥和篡改。除此之外,病毒可能会在电子档案发布、接收、保存和归档等某一环节中出现,办公自动化作为电子档案管理的一种重要形式,在如此恶劣的网络环境下,可以想象到一个小的疏漏就可能造成不可预计的损失。
(四)用户服务问题
当前,电子档案管理的单位是以“件”为单位,电子档案的价值密度很低,导致用户在获取有价值的信息时很困难。相对于用户而言,他们已经不在乎电子档案的采集、存储和分析,他们更加在乎的是如何快速准确地获取对自己有用的档案信息,并且以直观、易理解的方式展示在信息背后隐藏的知识。随着人们对档案查询需求的增长,用户的需求已展现出高速度、大数量和高质量的特征。
三、电子档案管理应用大数据技术的必要性
目前,我国正慢慢向档案管理信息化建设迈进。伴随着时代的飞速发展,互联网技术、云计算处理技术等改变了落后的档案管理模式,突破了传统技术的局限性。[7]但这些技术有时候并不能解决电子档案管理中的一些问题,所以在电子档案管理工作中有必要运用大数据技术,这样可以促进档案管理的发展,提高数据共享管理的效果,优化现有的工作内容。
(一)解决鉴定问题
在大数据时代,电子档案的数量正不断增长,给电子档案的管理带来了空前绝后的挑战。电子档案中可能存在很多有价值的信息,但要想从这些电子档案中发现有价值的信息很难。我国在鉴定电子档案的工作中,工作人员采用的是“直接鉴定法”,是指工作人员直接一件一件的阅读电子档案,通过阅读判断这些电子档案的价值。后来档案界大多数人认同的宏观鉴定方法,就是从整体上辨别一个档案机构是否有收集有价值的文件的能力,并不是直接地对档案进行处理。[8]但这些鉴定方法并不能解决因为电子档案庞大的数量带来的问题。大数据技术应用到电子档案的管理之后可以对电子文档的信息进行有效的整合,更好地对电子档案的价值加以判断,不错失电子档案中有用的信息。
(二)解决“胀库”现象
对于“胀库”现象,目前较多的档案馆采用的解决办法是购置新硬盘,但随着档案数据库的不断使用,每时每刻都会有新的档案数据需要保存。随着数据库的容量不断在扩大,占用的硬盘空间也在不断增长,很容易出现因为没有硬盘空间的问题无法工作的现象。而不断购买新硬盘耗费财力、物力,不能根本解决存储问题。
(三)解决安全问题
档案人员大多采用防火墙和其他技术来防止档案被修改等问题,但这些技术往往对黑客造不成困难,这对电子档案内容的安全构成了严重威胁。同时,不安全的网络和信息系统的脆弱性使档案传播过程中容易感染病毒和遭到非法分子的窃取。而大数据技术中的算法加密技术和安全权限技术可以解决这一问题。
(四)解决用户服务问题
目前,电子档案已经存在于各行各业中。相对于纸质档案,电子档案有很多优势,比如存储时间长、容易查找等各个方面的优点。但是电子档案的管理需要先进的信息技术才能够为用户提供更加多元化的服务与更高层次的需求。在传统的电子档案管理工作中,档案工作人员只有依靠计算机系统来处理文件,并不能对工作项目和内容进行改变,无法建立一个开放的机制,很难提高档案的管理效果,档案馆的工作受到很大程度的限制。但是大数据技术的应用提升了档案服务的水平,改变了档案馆的工作模式,对服务内容进行了综合创新。[9]在具体的档案服务工作中,使用大数据技术可以满足使用者的知识服务,建立新的知识服务引擎,主要有学术型、资源型和服务型等引擎类型,可以全面剖析和整合不同搜索引擎模式下的档案信息,满足当前发展的需要。
四、基于大数据技术的电子档案管理的解决途径及注意事项
大数据技术的发展为档案管理提供了一定的条件,能够更好地保证电子档案信息的完整性和安全性,也使得电子档案信息的保密措施得到进一步加强。
(一)解决途径
1.利用数据采集解决鉴定问题
大数据技术使用的是全数据方式,即全部的数据都要被利用。直到今天,大部分的档案馆工作人员都是用人为的方式主观鉴定档案信息,对档案中有用的信息很容易疏漏,这样会使档案信息不完整。大数据技术中的数据采集可以很好地解决这个问题。[10]第一,数据量十分庞大,如果想使数据分析运行,就必须采用批量处理的方式,使用大数据技术中的MapReduce技术,对大规模数据集(大于1TB)的并行运算,把一堆杂乱无章的档案数据按照某种特征归纳起来,解析每个档案数据,从中提取出关键和价值,而这种技术也可以对非结构化电子档案数据进行处理。第二,要想保证这些档案数据的利用价值最大化,就要进行挖掘和预测,而大数据技术中的分布式文件系统GFS是进行数据分析十分有用的工具,能够对有价值的电子档案信息进行主动采集并推送至数据库。
2.建设分布式系统解决存储问题
正如前面所讲述的一样,电子档案呈现海量的现象并在持续增长,怎么样才能存储不断增长的档案、解决“胀库”现象是当前电子档案管理面对的难题之一。而大数据技术能够建构分布式系统,并运用分布式系统架构储存图像、音频、视频、文本文件等各类档案数据,而且当数据量大于服务器承载力的时候,可以满足可扩充性的需求,从而解决存储问题。[11]
3.建设安全体系解决安全问题
为了更好地保证大数据信息系统的安全性,有必要建立一个完备严格的安全保护体系,尤其是大数据技术中的算法加密技术,能够提高保护这些档案信息的水平。大数据技术中的安全权限技术,能够建立一种使用者查阅和使用者进入和退出机制并对他们的查询和使用记录都做出完整的分析。[12]通过大数据技术还有必要提高数据共享的能力,对档案信息的数据进行管理,以保证档案信息不要超出信息传播的范围,还应实施对信息使用的监控,确保是安全使用并对这些记录进行跟踪和评价,从而防止档案数据信息的泄露。
4.利用数据挖掘分析技术解决用户服务问题
大数据技术关注的更多是人,而不是数据,大数据技术真正的价值所在就是数据分析。数据是为了让使用需求而存在,不同的人有不同的使用需求,人们需要使用数据来解决自己的需求问题。[13]假如海量的数据得不到分析,数据的有用价值就很难得到体现。因此,进行数据挖掘分析是最为关键的。为了让档案用户查找档案信息的时候更加准确以及更加符合他们的需求,就需要从深度挖掘档案数据和档案数据同用户的相关关系分析这两个方面进行解决。第一,是进行对用户档案数据的挖掘。经过对用户的数据挖掘做到十分精确,提高档案用户对档案服务的认同感,实现数据的最大价值利用。一是深度挖掘用户的各种信息。通过挖掘发现用户的需求并把这些需求提炼出来,查看用户使用服务器的时候留下的痕迹,跟踪用户的行为,以此来判断用户具有哪些兴趣,便于提供多元化的服务。二是对档案用户的检索记录和浏览记录进行深度挖掘。比如使用统计分析的方法来分析用户对某个档案词条的点击量,将点击量高的档案再补充完善;通过对用户查找时的检索关键词进行分析来补充数据仓库中的检索关键词,以此来提高查找的准确率;深度分析用户对网页的访问次数,以此来提供深层次的服务。第二,要提高档案数据相关关系的分析。不管是档案信息还是用户的档案数据,挖掘它们也就只能得到其仅仅一个方面的数据,并且挖掘到的数据经常都是孤立的数据点。所以就必须对两者之间的关系进行深入分析,才能得到一个完整的数据网络。在巨大的数据仓库中挖掘出来独特的价值是大数据技术的核心作用,通过对档案的综合挖掘、整合和分析,就唤醒了原来处于睡眠状态的档案资源,这样就能够显示出数据价值,使原本孤立的、互不相通的档案数据库之间的资源得到共享。[14]此外,大数据技术中的可视化技术可以用图例表格的形式更加直观地展示给用户,使查询结更加多样性、多层次。
(二)注意事项
1.有明确的目标
电子档案管理在使用大数据技术时,必须有明确的目标,要思考运用大数据技术能够解决什么问题,并从中得到什么结果,否则就需要损耗特别多的时间来剖析数据。因为档案数据的资源太多太丰富,如果没有一定明确的目标,就会觉得十分迷茫。所以在使用大数据技术的时候需要建立一定的标准,这样运用大数据技术时就能精确而有效地解决问题,提高利用大数据技术的效率。
2.注意潜在的风险
运用大数据技术进行档案管理工作也存在一定的风险。比如自然灾害引发的风险、网络病毒带来的风险以及突发事件带来的风险,面对这些风险,大数据使用者必须严格制定方案,提升使用网络的安全度,比如对档案信息进行备份、使用入侵检测和控制访问等方法来降低风险。
3.严格控制档案的访问制度
档案的服务对象主要是面向广大的人民群众,最根本的目的就是让人们在利用档案的过程中更加便捷,获取档案中有用的信息。因此,在大数据时代的背景下,档案管理部门必须严格控制档案的访问系统。第一,档案的访问制度必须以法律为基础,具有较高的标准;第二,要灵活运用,制定适合本区域的访问制度;第三,檔案管理部门应该做到明确分工,责任到人。
综上所述,大数据技术能够解决目前电子档案管理中存在的问题,但同时也充满着新机遇与挑战。未来大数据技术一定会更加完善,电子档案管理中运用大数据技术会越来越广泛,电子档案管理会取得重大突破,我国的电子档案管理也会步入到一个全新的阶段。
参考文献:
[1]郭晓科.大数据[M].北京:清华大学出版社,2013.
[2]陶水龙. 大数据视野下档案信息化建设的新思考[J]. 档案学研究,2017(03)
[3]姜婷婷.大数据视野下的档案信息化建设[J].兰台世界,2018(09)
[4]张文元,张倩. 大数据技术与档案数据挖掘[J].档案管理,2016(02)
[5]张健. 档案数据库“胀库”问题研究[J].档案学通讯,2012(04)
[6]杨来青.大数据背景下档案信息资源挖掘策略与方法研究[J]. 中国档案,2018(08)
[7]尚子田,唐甜.大数据时代背景下的档案管理要点探讨[J].管理观察,2018(06)
[8]刘燕菲. 大数据和物联网对档案管理方法的创新[J]. 兰台世界,2018(08)
[9]钟静. 探析大数据时代背景下的档案管理[J].兰台世界,2014(S3)
[10]李纯.电子档案管理若干问题的思考[J].山东档案,2016(05)
[11]张晓慧. 大数据时代文档管理优化研究[J]. 浙江档案,2015(06)
[12]戴玲,彭延国,彭长根.大数据环境下的电子档案信息安全问题及对策[J].兰台世界,2015(29)
[13]张建铭.大数据时代下的档案管理方式变革分析[J].兰台世界,2014(S3)
[14]李小晨.大数据时代背景下的档案管理探讨[J].云南档案,2013(06)
基金项目:2018年度山西省教育厅教育改革研究课题(2018JG15)。
作者单位:山西大学马克思主义学院