大数据时代档案工作面临的机遇与挑战
2017-01-28翟瑶刘娜
文 / 翟瑶 刘娜
大数据时代档案工作面临的机遇与挑战
文 / 翟瑶 刘娜
大数据时代的来临,给包括档案馆在内的各行各业带来了根本性变革。文章从大数据和档案管理工作入手,首先明确了数据、大数据的概念和特征,并从数据体量、数据结构和数据价值方面分析了大数据时代档案和大数据的关系,进而从档案资源建设、信息技术发展、档案管理方式、档案利用服务、档案长远发展规划等方面重点阐述了大数据时代档案工作面临的机遇和挑战,并从档案资源整合、档案保管、档案利用编研、档案安全方面提出了大数据时代档案工作的思考。
大数据;档案;机遇;挑战
习近平同志指出:档案工作是一项非常重要的工作,经验得以总结,规律得以认识,历史得以延续,各项事业得以发展,都离不开档案,在全面建设小康社会进程中,档案工作显得越来越重要。大数据时代的来临,给包括档案馆在内的各行各业带来了根本性变革,大数据时代的档案工作也必将颠覆传统的档案工作模式,在档案的收集整理、档案知识挖掘、档案编研与利用、以及档案服务思维创新方面都将产生革命性的变化,档案工作面临着前所未有的挑战与机遇。
一、数据、大数据、大数据的特征与大数据思维变革
在多数人的印象中,数据就是数字,或者必须是由数字构成的,其实不然,数据的范畴比数字要大得多,互联网上的任何内容,比如,文字、图片和视频都是数据;档案馆里包括图片、磁带、录影带在内的所有档案也是数据;出土文物上的文字、图示,甚至它们的尺寸、材料,也都是数据;科研机构的各种科研记录也是数据。
虽然数据本身是客观存在的,但是它的范畴是随着文明的进程不断变化和扩大的。在计算机出现之前,一般书籍上的文字内容并不被看成是数据,而今天,这种以语言和文字形式存在的内容是全世界各种信息处理中最重要的数据,也是全世界通信领域和信息科技产业的核心数据——包括我们的信件、电话和电子邮件内容、电视和广播节目、互联网网页、以及各种社交产品中由用户产生的内容。
“大数据”一词由英文“Big Data”翻译而来。麦肯锡全球研究所报告《大数据:创新、竞争和生产力的下一个前沿》对“大数据”定义如下:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。这个定义有意地带有主观性,对于“究竟多大才算是大数据”,其标准是可以调整的,即:我们以不超过多少TB(1TB=1024GB)为大数据的标准,但数据量通常在lOTB以上。随着时间的推移和技术的进步,大数据的“量”也会增加。
具体来说,大数据具有四个基本特征:一是数据体量(Volume)巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。二是数据类型(Variety)多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是处理速度(Velocity)快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。四是价值密度(Value)低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
大数据的科学基础是信息论,其本质就是利用信息消除不确定性。大数据本身是一种技术革命,是给人类思维带来颠覆性的革命:一是全本思维,即要分析与某事物相关的全样本(所有数据),而不是分析少量的数据样本;二是容错思维,即接受数据的混杂性,而不再追求精确性;三是相关思维,即对大数据的处理不再探求难以捉摸的因果关系,转而关注事物的相关关系;四是智能思维,“智能”“智慧”是大数据时代的标签,思维方式要从自然思维转向智能思维,不断提升机器或系统社会计算能力和智能化水平。
二、大数据与档案
随着信息化建设的持续推进及利用者需求的不断提高,馆藏档案数字化资源、办公自动化形成的电子文件及其元数据、物理归档的电子文档、网络资源数据、数据库备份、档案管理系统日志、远程系统的利用者资料信息,存贮备份数据呈现几何级数增长,数据规模逐渐达到海量,且上述档案资源中含有大量的非结构化数据,这表明档案与大数据具有天然的内在联系。
档案数据资源其实就是一种天然的大数据。第一,从数据体量来看,全国各档案馆档案资源总和是庞大的。据统计,2011年,各级国家档案馆馆藏已达3.3亿卷;截至2014年底,全国综合档案馆馆藏档案近5亿卷(件),比“十一五”末增长42%。第二,从数据来源来看,档案的源头分布非常广泛。我国的档案数据不仅仅局限于档案馆馆藏,还广泛存在于政府、企业、金融、教育、军事、通信等各行业的档案保存机构中。第三,从数据结构来看,档案数据存在异构现象。档案数据由结构化数据、半结构化数据和非结构化数据组成,如文档、设计图、照片、录音材料、视频、GIS信息、水文气象信息等,数据的编码方式、数据格式都存在着较大差异,整合难度大。这些数据之间又存在一定的关联性,如城市建设的平面图、设计图可以和GIS数据信息关联,同时还可以关联政府建设规划文件、批复与施工文件等。不同类型的数据在不同程度上对数据的处理能力提出了更高的要求。第四,从数据价值来看,档案数据资源价值密度低。在传统档案管理工作中,一直存在“重藏轻用、重资源轻管理”的现象,人们既要尽力避免档案实体涨库和档案信息存储空间限制,又要防止有效档案资源被淹没在海量档案中间降低利用价值,而在利用环节,人们追求档案如何在需要时应有尽有,同时又能被快速、准确地检索出来。因此,从这个意义上说,档案价值的实现更多地体现在“用”上,而档案的“用”要做到全智能服务。随着我国数字档案资源建设战略的不断推进,馆际合作和资源整合必将成为发展趋势,要处理这些海量档案资源,势必需要借助大数据技术。
三、大数据为档案工作带来的机遇和挑战
(一)大数据为档案工作带来的机遇
1.档案资源选择性更大。在信息社会中,档案资源的范畴得到了极大扩展,收集工作的选择性不断增大。档案形成主体从政府、企业、团体组织到普通公众,呈现出更加多样化的发展势态;档案内容日渐丰富,与公众工作生活密切相关的信息越来越多地被纳入档案资源的范畴,如医疗档案、诚信档案等;档案类型从纸质到电子文件、影像、照片、社交网络数据等,甚至大数据整合分析产生的信息也被看作是有重要价值的档案资源。大数据时代的档案管理工作不再受制于资源不足的难题,而是应该研究如何鉴别出更高质量和价值的档案。
2.信息技术的迅猛发展为档案工作提供更多的支持。管理软件的普及使档案工作对计算机和网络技术的依赖性越来越强。现代办公软件的使用导致电子文件数量急剧增加,互联网、物联网、云计算和大数据等技术的应用使社会公众更加习惯于通过计算机产生和处理各类数据和信息,技术创新将更好地支撑档案工作的改革和发展。
3.档案管理方式更加智能化。近年来,在智慧城市建设热潮影响下,档案界提出了建设智慧档案馆的设想和规划,青岛、杭州等地的档案馆在实践工作中进行了有效尝试并取得了一定成果。智慧档案馆的出现是大数据时代档案工作发展的一大亮点,其智能化体现在充分利用物联网、云计算等大数据技术加强档案管理中人与人、人与物以及物与物的互通互联,实现档案数据的自动识别与管理、档案实体的智能化管理、档案服务的高质量和档案人员的高效管理。
4.档案服务手段更加多样化。为更好地满足社会公众对信息的需求,档案服务手段日渐多样化。档案利用者可以通过电话、邮件、网络等各种方式查找所需信息,特别是网络社交媒体平台在档案服务中得到了广泛应用。各省市档案馆陆续开通了微博、微信等公众号,不定时地主动公开推送各类档案信息,向公众宣传档案工作,还有档案部门开发面向公众的档案查询利用APP,使公众能够随时随地查询档案。
5.档案工作规划更系统更科学更有前瞻性。利用大数据进行分析和预测能够科学制定档案工作的发展战略。大数据时代档案馆之间的竞争重点已经不再是馆藏资源、空间建筑、借阅服务等因素,而是拥有档案数据数量、对数据挖掘和分析的能力等因素。大数据时代的来临能从真实发生,而又未被记录的数据中发现、挖掘更多的隐含信息,进而得到更能揭示事物发展本质以及发展规律的知识。所以,大数据时代档案馆发展策略的制定与实施也必将依赖于对庞大的海量数据的分析和预测,需要大数据的分析、挖掘、处理和监护,以及大数据的综合支持。
6.大数据将成为档案馆的核心资产。未来档案馆的核心资产将是对档案大数据的综合掌握。大量的多样的档案馆藏数据、档案利用者需求数据、档案服务痕迹数据等都能为档案馆未来发展、服务模式演变提供趋势分析的依据。
(二)大数据为档案工作带来的挑战
1.大体量数据为档案数据的存储和获取带来挑战。档案数据库的使用极大地提高了档案管理利用效率,但近年以来,在档案数据库的使用过程中,常常会碰到无法向数据库中增加新的档案数据的情况,这种现象很类似于传统档案管理时的“胀库”,即由于库房容量有限,导致新增加的档案无法正常地存储到库房中。随着档案信息化不断接近完成和大数据时代的到来,档案数据库面临的存储空间问题相当严峻。档案馆要想安全地存储巨量的档案数据,不可能一味地盖大楼盖机房。再者,档案数据还面临着需要大量存储空间备份的问题,这就逼迫我们必须优化存储、提高效率和节约成本。面对这些数据量和各种类型数据的不断增加,数据的存储和访问速度成为了一个瓶颈,解决速度,是档案服务面临的一个巨大挑战。
2.大体量数据为档案数据的管理和维护带来挑战。数据从产生、传播、存储、保护、归档到安全维护的各个环节,都有可能产生错误,数据管理与数据质量管理也逐渐被人们重视。在数据量快速增长的同时也增加了数据之间的相互联系,从而使档案管理及维护的难度加大,成本增加。因此,原来一般的数据管理思想也要随之革新。此外,优秀的管理也提高了数据应用的合理性。管理与应用数据两种行为是不可分离、相辅相成的关系。面对大量的档案数据,如何从海量的档案中发现潜在的规律,如何提高管理效率,是当前形势下档案工作面临的挑战。
3.非结构化数据为档案数据的挖掘与分析带来挑战。数据分为结构化数据和非结构化数据,两类数据区别在于:前者一般采用数据记录存储,而后者普遍采用文件系统存储。非结构化数据包括全文文本、图像、声音、影视、超媒体等信息。这类数据的特征体现在体积大、增长快、多样化。随着社会的发展,非结构化数据将成为信息的主体,将来90%的信息将是非结构化的,但现有的存储技术在吞吐能力、可扩展性、易管理性等方面还跟不上非结构化数据增长的速度,主要用于管理结构化数据的关系数据库的局限性暴露得越来越明显。因此,探索新一代的大数据存储技术对档案工作来说是非常大的挑战。
4.数据的冗余和错误为档案的鉴定带来挑战。信息技术的发展使得传统鉴定在为谁鉴定、由谁鉴定、如何鉴定三个方面发生了变化。20世纪90年代,冯惠玲教授就认为,面对海量电子文件,“直接鉴定法”遭遇到严峻的挑战。在大数据时代,要制定档案鉴定策略以应对社会对文件的价值需求,建立档案系统自动鉴定的原则和适用标准。
5.数据的价值提取为档案的利用带来挑战。大数据本身并没有什么价值,基于大数据对档案的处理和分析才能为利用主体带来更大附加值。档案利用主体在发掘大数据中“金子”的时候,同时也存在挖到“垃圾”的可能,这种“垃圾”会严重误导决策。这就需要档案利用服务要有效地对海量数据进行有效地收集、处理和分析,为主体提供所需的信息,为决策者预测提供科学依据。此外,大多档案用户不再仅限于数据或文件的利用,而是希望获得数据背后蕴藏的知识,因此,档案利用服务也应由提供数据信息转变为提供知识。这就需要抽取和挖掘海量数据中有用的信息和知识并提供给用户,这必将成为档案利用服务的发展方向。
四、大数据时代档案工作的思考
(一)树立大数据时代“大档案观”,强化数字档案资源的整合
大数据时代对档案基础数据的质与量都提出了更高要求,这就同样要求档案工作者积极构建适应大数据时代的“大档案观”,从社会历史记忆的角度确定档案资源的收集范围,构建以社会利用需求为导向的数字档案“大数据库”,使档案能够反映国家和社会在政治、经济、科技、文化生活等各领域的发展变迁。同时,避免将所有生成的数据都当作档案保存即档案资源泛化的误区,要将传统的档案鉴定与大数据技术结合进一步优化档案收集内容与方式,确保归档内容的“含金量”。
(二)创新档案数据保存策略,实现档案备份和归档的良性互补
数字档案备份和归档之间的联系较为紧密,如果业务部门能够在业务活动过程中更加注重和保障数据的有效性、有序性,那么就可以借由网络实现同步备份和归档。具体而言,可以根据完整备份或增量备份等方式的不同,在过去完整归档模式基础上,开展增量归档,例如,对于周期短、关联性强的项目,可以在项目结项后进行完整归档;对于周期长、有序性好、数据采集量大的项目,可以在增量备份的同时也增量归档,实现备份和归档同步,既降低成本又便于统一保管,更重要的是降低档案产生与收集之间的时间差,提高归档保存的及时性和有效性。
(三)创新服务方式,实现档案大数据服务
一方面,大数据时代,大众的信息利用需求呈现出多样化的特点,相对于网络上冗余杂乱的信息资源而言,档案馆(室)所保管的档案数据信息具备其他资源无法企及的真实性、可靠性,具有更高的公信力,因而,在档案的特性和大众需求的引导下,档案利用者将更加广泛,这就要求档案管理部门要转变工作思路,改变过去“有什么就利用什么、我编研你利用”的被动思维,树立“数据即是服务”的理念,重视特色档案的收集编研、提供更为便捷的检索工具、扩大档案开放的范围、借助网络等多元形式主动地提供优质高效的利用服务。另一方面,大数据时代的档案数据最重要最直观的应用是基于“全数据”的数据对比分析,也就是用档案数据说话;利用知识挖掘技术,对有较高价值的数据进行专业化处理和深度挖掘,即通过“数据加工”实现数据“增值”的能力是档案管理部门所应追求的。
(四)构建大数据档案信息安全体系
大数据时代给档案信息安全带来了新的风险和挑战,档案部门应主动提供档案数据安全保障。一是档案数据采集安全,主要包括电子文档的收集和纸质档案数字化两部分,要确保收集过程中的档案实体和信息安全,且收集内容有效、可用,则需要建立完善的管理制度,加强全过程安全监控,以及后期安全性有效性检测。二是档案信息系统管理安全,这在很大程度上决定了档案信息的安全。档案大数据系统应具备档案收管用全流程的档案管理功能以及权限审核、系统维护等技术功能,应该能够快速准确地为不同层次和需求的用户提供不同的内容和展现界面。三是档案数据利用安全。大数据时代,必将会对档案信息的查找利用带来颠覆性的变革,而为用户提供越丰富的档案数据资源,则意味着有更多的档案利用安全风险,隐私保护、核心技术的保密、利用权限等都成为档案利用风险的重要方面。
[1]杨智勇,周枫.试析智慧档案馆的兴起与未来发展[J].档案学通讯,2015,(4):45-50.
[2]特里·库克,李音.四个范式:欧洲档案学的观念和战略的变化——l840年以来西方档案观念与战略的变化[J].档案学研究,2011,(3):81-87.
[3]樊树娟.大数据时代的社会变革与档案职业发展探析[J].档案管理,2014,(6):17-19.
[4](英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.盛杨燕,周涛,译.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[5]Mayer-Schonberger V,Cukier K.Big Dara:A Revolution that Will Transform how We Work,and Think[M].Eamon Dolan/Hou沙mn Mifflin Harcourr,2013.
[6]于英香.档案大数据研究热的冷思考[J].档案学通讯, 2015,(2):4-7.
[7]涂子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012.
[8]崔海莉.“大数据”时代档案信息安全管理新思考[J].档案学研究,2015,(1):93-96.
[9]杨冬权.在全国档案局长馆长会议上的讲话[EB/OL]. [2014-6-1l]http://www.saac.gov.cn/news/2014-01/06/content_32080.htm
G270.7
A
1005-9652(2017)01-0070-04
本文系中国科学院国家天文台青年人才基金项目研究成果。
(责任编辑:魏登云)
翟瑶(1983-),女,湖北荆门人,中国科学院档案馆,硕士,馆员,研究方向:档案学基础理论、档案信息资源开发与利用。刘娜(1983-),女,山西临汾人,中国科学院国家天文台,硕士,副研究馆员,研究方向:档案学理论、项目档案管理。