大数据在档案领域应用的可行性分析及策略
2018-01-29陈先知
陈先知
摘 要:数据的爆炸式增长使世界迎来了一个全新的信息时代——大数据时代。笔者首先从两个方面确定大数据档案领域可以应用大数据,然后分析我国档案大数据建设的存在的困难。
关键词:档案;大数据;研究;应用;发展策略
1 大数据的介绍
随着计算机和信息技术突飞猛进式的发展,各行各业的行业应用所产生的数据呈爆炸式增长。如百度目前每天要应对网民多种多样的搜索请求1.7亿次,Twitter平台每天发布的消息超过2亿条……据世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB,10年增长近40倍。然而大幅增长的数据量已经远远超出现有传统信息处理技术的能力范围,因此全社会迫切需要找到新的方法来应对日益增长的数据——大数据概念应运而生。
1.1 大数据的定义
早在2008年,著名的《自然》杂志曾经出版了一期专刊,讨论未来的数据处理的难题以及相应的解决方案,而在这份专刊中就已经出现了大数据(Big Data)的概念。不过这个概念在当时并未深入人心,人们也习惯于将大规模数据称为“海量数据”。直到2011年以后大数据一词才开始普及。
大数据到底有多大,目前学界还并未对其给出定量的解释,大数据通常被认为是PB、EB或者更高数量级的数据,其规模和复杂程度远远超出了传统软件技术和数据库技术能够处理的数据范围。1虽然难以定量,但是研究机构Gartner给出了一个定性的描述:大数据或称巨量资料是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率以及多样化的信息资产,往往具有实时性。其基本特征可以用四个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。大数据是一个总称性概念,他还可以分为大数据科学、大数据技术、大数据工程和大数据应用等领域。最早提出大数据时代已经到来的是世界著名咨询公司麦肯锡。大数据时代的来临给诸多领域带来了全新的机遇和挑战。在这诸多领域之中,也包括了档案这一领域。《大数据时代:生活、工作、思维的大变革》一书的作者维克托·迈尔·舍恩伯格说过:“如果你是一个人,你拒绝大数据时代的话,可能会失去生命;如果是一个国家的话,拒绝大数据时代的话,可能失去一个国家的未来,失去一代人的未来。”[1]大数据也成为我国档案界当下的一个热门话题,俨然有一种不讲大数据就跟不上档案最新动态的态势。
在大数据时代来临之后,国内外诸多IT巨头都将目光聚焦于此。利用互联网购物的营销数据来追踪和勾画消费行为并以此为依据进行商业营销是大数据应用的成功典型案例。其实这只是大数据应用的很小一部分。其实在实际应用方面,大数据已经悄然进入到各行各业。不过由于成本和适用性的限制,所以仅仅只有一部分实力雄厚具有远见的行业领先者才能够真正利用大数据。
1.2 大数据技术的主要组成
目前,云计算和数据挖掘是大数据技术的核心组成部分。
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网提供动态扩展且经常是虚拟化的资源。云计算环境下,软件技术、架构都会发生明显变化。首先是开发软件要与云相匹配;二是要有足够强大的服务器支持,能够接受大量用户的访问和使用;三是要互联网化,便于信息传递和共享;四是对于软件的安全性要求更高,能够抵御外部和内部的攻击保护存储的保密信息;五是支持多种工作环境,如手机、网络计算机以及移动终端等,加强软件的适用性。到2020年,中国发射卫星将达到200颗以上,卫星每天传输的数据将达到PB级,这些数据资源可以通过可视化服务,利用云计算环境,来保证服务的质量。
数据挖掘又称为资料勘探、数据采矿。数据挖掘可以算是大数据的核心。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,其实也就是利用数据分析产生深层次有价值的理解。算法包括最简单的统计,也可以使用例如HIVE这样的大数据处理平台。而DHL作为国际快递和物流行业的龙头企业,它利用数据挖掘技术成功解决了货运中跟踪装运温度这一难题。不仅增强了企业的竞争力,也赢得了客户的好评。由此可见数据挖掘对于一个部门、行业乃至国家的重要性。
2 档案大数据的可行性分析
一个新的热点的出现,往往会引起诸多领域的关注。目前大数据应用的领域主要集中在互联网、零售、金融等数据密集型行业,这些应用以服务自身企业数据挖掘需求为出发点。[2]档案大数据化是否是一种“生搬硬套”式的概念实际上并无可行性?它对于档案事业的发展是“鸡肋”还是一大助力?以及在推进档案大数据建设过程中,档案工作者需要应对什么样的困难?笔者将通过下述几点进行分析:
2.1 档案资源符合大数据的特征
信息资源总量庞大且增长迅速:截止2014年底,全国综合档案館馆藏约5亿件,比“十一五”末增长42%,预计2020年,这一数字将达到6亿件。随着档案数字化的不断发展与进步,这些涉及到我国社会发展方方面面的信息资源将会被有机组合成一个庞大的档案资源库。
档案资源种类繁多:由于人类文明的高速发展,除了传统的纸质文件,还出现了音频文件,视频文件等等。从电子文件的分类来看,按来源和形成方式可分为数据库文件、电子数据表、字处理文档、电子邮件等八类,按信息组织的方式可以分为结构化文件、非结构化文件。这其中既有结构化数据又有非结构化的数据,而且表格、网页等将占全球网络资源的80%以上,这些资源在不久的将来也会成为档案馆馆藏档案的一大重要来源,并且非结构化趋向将越来越突出。
档案信息资源价值高:各种类型的档案馆作为党和国家以及社会大众保存历史记录的“基地”,其所保管的档案资源自然都有一定的价值。与图书、网络信息资源相比,档案资源作为历史的真实反映,可以说它们在诸多社会信息资源中价值较高。
处理档案资源日益高效化:由于计算机技术的普遍应用以及各档案馆档案业务能力的不断提升,使得档案管理工作的效率逐步提升。且由于档案学学科的发展,使得经过档案馆处理后的檔案质量更高。
而上述四个特点正与大数据的4V特征相吻合,所以档案资源也可以看作是大数据的一种。而且相比其他信息资源,档案资源的真实性可靠性更强,
2.2 大数据为档案行业发展带来际遇
英国首相卡梅隆在2010年5月在政府数据网站开放的基础上提出公民数据权,同时也承诺会在全社会普及数据权。除了政府机构的重视,公民档案意识的不断提高也令以前门可罗雀的档案馆也受到了社会大众越来越多的关注。大数据时代背景下,数字记忆的保存应是档案馆的社会自觉和文化担当,构建一个“基于互联网的,以档案数字资源为主体,以文本、图片音频、视频等为形式。为中华民族集体记忆的构建和传承提供文献支撑的‘中国记忆数字资源库”。因此档案馆更需要加强自身建设,提升服务水平,为社会发展做出更大贡献。而大数据正是推动档案馆建设的一大助力。
两点之间什么最短?在二维空间自然是直线最短,而在三维空间里,两点的距离可以为零,就比如把一张纸的两个点经过折叠贴在一起。大数据技术能够将档案人员与档案,用户与档案,用户与档案馆(人员)的空间距离尽可能拉近,甚至无限接近于零。而这种空间距离的拉近能够让档案馆更好地为用户提供优质高效的服务。
首先从档案人员与档案的角度:档案馆通过对已归档档案的相关信息进行数据挖掘,获取在管理各类档案的规律并将其应用到档案管理系统中。从而方便档案人员对于不同的档案进行合适且高效的管理,这不仅仅大大减少了档案工作人员的工作量,也能在一定程度上减少人为失误的产生。除此以外对已归档档案的利用情况进行分析,总结馆藏档案的价值大小以及其价值波动的规律。
其次从用户与档案馆(档案人员)的角度:长期以来我国档案馆一直采用供给导向的模式——被动等待利用者,因而经常会出现供给与需求出现偏差的情况。在大数据的背景下,档案馆与档案人员应当将原先单纯的管理者身份向服务者身份转变。档案管理机构可以通过建立一种档案用户的专门网站或者是手机APP来为社会大众提供档案微服务。用户在输入特定的检索词之后,系统能够迅速反馈符合用户需求的档案信息。除此以外,传统的档案利用系统是为所有专业、层次、地域的用户提供统一的资源和服务,而大数据时代则提倡个性化、差异化的微服务。[3]档案机构(部门)在为用户提供网络服务时,通过合理设置网络资源模块、服务功能模块的方式,来拉近社会公众与档案人员的距离,进一步提高档案信息服务的质量和范围。
最后从用户与档案的角度:大数据技术不仅仅是用来帮助服务提供者,也能够帮助利用者能够快速准确满足自身需要。通过收集每个用户的使用数据,来为每位用户提供专属的数字档案资源提供与利用的服务。档案馆根据一定的数据来预测用户可能的需求,预先推荐出用户可能查找的档案。除此之外还能在用户查找某一主题的档案的同时以超链接等方式提供其他相关档案,这也需要大数据技术的支持,才能提前预判不同用户对于档案的需求取向。在2009年,美国政府建立了一个统一的数据开放门户网站——Data.Gov,向社会公开政府所拥有的公共数据。通过公共数据的开放,普通公众也能够参与到全社会大数据的开发和应用。档案馆也可参考Data.Gov的模式建立档案部门的数据开放网站,向社会大众免费开放公共档案,将档案的开发利用工作“分配”给普通公民,不仅降低了档案馆进行大数据化的成本,还充分调动社会力量来帮助档案馆完成数据开放工作。
3 档案大数据建设难点
尽管研究大数据已经成为了档案学界的一大热点,但是对于我国档案馆来说,要想真正在现实中应用大数据,依然存在诸多困难,具体来说有以下几点:
3.1 资金技术投入不足
我国的社会档案意识虽然较以往有所提升,但是对于档案工作依旧存在一定的偏差,甚至许多地方的官员对于档案工作的认识也并不准确,认为档案工作只是一个“可有可无”的存在,从而忽视了对档案馆的资金和技术投入。这严重制约了我国档案馆的软硬件实力,也限制了我国档案馆的服务水平和服务质量。而在大数据时代,传统的磁性和光学设备已经无法满足要求。
3.2 人才建设欠缺
大数据时代,档案工作不再是原先的装装订订,档案利用也不是简单的查阅,档案人员应从数据的视角看待档案,以大数据推动档案馆的管理和服务。而要想实现档案大数据,大数据人才是其核心。他们是交叉学科的分析应用型人才,其知识结构除了统计学科的统计建模、数据挖掘等内容外,还需要具备计算机学科的相关知识,应用领域的经济学和管理学背景。缺乏专业人才,必然会使大数据化进程出现效率低下、漏洞百出的情况。
3.3 制度建设不完善
制度一般是指要求大家共同遵守的办事规程和行事准则,也指在一定的历史条件下形成的法令、礼俗等规范或一定的规格。没有制度的约束,人类的思想或行为就将下入混乱的状态。良好的制度是档案大数据的根本保证。而作为档案领域的一位“新成员”——大数据化缺乏相应的法律制度的保障,也没有较好的标准和规范来衡量。2015年网民朱某发现自己用百度搜索关键词后会受到相关广告推送,因此将百度以侵犯隐私权为由告上了法庭。法院一审判定百度侵权,二审却又撤销一审判决。在档案馆的大数据化进程中,档案馆对于用户使用数据的收集分析以及根据分析报告进行推送或者推荐相关服务也极有可能发生相类似的情况。档案机构利用公共信息的权利如果不能得到法律的保障,势必限制其服务能力与范围。
3.4 缺乏有效的跨地域、跨行业合作
从档案行业内部角度来说,跨地域档案馆室合作难以实现。一方面经济发展状况的不平衡,导致我国各地区档案事业建设存在巨大差异,尤其是档案资源数字化、数据化的发展进程;另一方面,各级数字档案馆多从自身档案建设出发,尚未形成统一的管理标准和规范制度,导致档案信息资源整合难度较大。[4]而以外部角度来看,档案领域缺乏与其他信息行业的合作与协同。Hopkins说:“没有哪一个群体能解决所有问题。不同于传统的商业智能环境,大数据的分析和应用需要业务分析人员、数据整合专家,以及业务部门走到一起,开展同理合作”。[5]
3.5 档案资源数据化建设落后
在大数据时代下,档案馆在向档案大数据化方向发展的过程中,必须重视“数据化”的地位。笔者认为数据化必须要完成两项任务:一是档案目录数据库,二是档案全文数据库。目前我国的大多数档案机构正在积极推行档案数字化建设,这种数字化工作往往仅仅是对目录的数据化建立一个档案目录数据库,而对于档案内容的则是通过光学扫描机器转换为便于机器阅读的形式。虽然较之以往传统档案载体形式有了质的飞跃,但是远远达不到数据化的要求。档案的数据化不仅仅是主题词、关键词等信息,还包括对档案的全文进行识别、分类、标引和著录,这样才能建立一个有效的档案全文数据库。另外缺乏相关的考核标准,所以即使是目录数据库中,也存在着一定的质量问题。
4 结语
总而言之,大数据在档案领域是可行的,但这并非意味着我们就可以“守株待兔”,想要实施档案大数据需要有“数据到位+应用明确+手段成熟”的三位一体的战略,这三个条件缺一不可。[6]而我们在进行档案大数据化的发展过程中,必然会引进新思想新技术,给档案领域带来新的变化。但这也不能一味的摒弃传统档案管理的方法和经验,应将优秀的传统经验与新技术相结合。这样才是契合大数据时代要求的档案事业发展道路。
参考文献
[1]维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[M].盛阳燕,周逃译.浙江人民出版社.
[2]刘国华,李泽峰.档案工作中大数据框架构建及应用思考[J].档案管理.2014(2)32-34.
[3]杨智勇史晓杰.大数据时代数字档案馆的微服务研究[J].档案管理.2013(6)20-22.
[4]许桂清.大数据背景下的档案行业发展[J].中国档案.2015(06)70-71.
[5]沈建苗.大数据应用:理想照进显示[N].计算机世界,2012-08-06(20).
[6]张涛.大数据时代给档案管理带来的挑战与机遇[N].中国档案报,2013-11-29(002).