大数据环境下数字资源长期保存问题的研究
2019-09-17王晓玲
王晓玲
关键词:大数据环境;数字资源;长期保存
摘 要:大数据环境下数字资源长期保存实施过程中面临很多问题,概括起来分为技术方面的问题和非技术方面的问题。文章介绍了大数据环境下数字资源长期保存的研究现状,分析了大数据环境下数字资源长期保存的法律问题、技术问题、网络安全问题及资金投入问题等,并提出了相应的解决方案。
中图分类号:G250文献标识码:A文章编号:1003-1588(2019)08-0066-03
近年来,大数据一词越来越多地被提及,人们用它描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。哈佛大学社会学教授加里·金认为:这是一场革命,庞大的数据资源使各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程[1]。2015年12月16日,国家主席习近平在第二届世界互联网大会开幕式上发表主旨演讲时指出,“十三五”期间我国将大力实施网络强国战略、国家大数据战略、“互联网+”行动计划[2]。目前,大数据已经被广泛应用于行政管理、科技创新、日常生产等领域。在大数据环境下,如何对数字资源进行长期保存,已成为图书馆界及信息研究所亟须研究和探讨的问题。
1 大数据环境下数字资源长期保存的研究现状
1991年,瑞士、挪威、丹麦、芬兰、冰岛5个北欧国家的档案馆出版了《电子文件的存取与保护》。1994年,欧洲保存与获取委员会ECPA(The European Commission on Preservation and Access)成立,它是研究数字资源长期保存与获取的最大的跨国协会,旨在共同研究各种类型文献的检索能力及数字资源保护问题[3]。1994年12月,美国研究图书馆组织RLG(Research Library Government)与美国保护与存取委员会CPA(Commission on Preservation & Access)共同组建了数字归档特别工作组,主要对数字信息的长期存取问题进行调研,并提出保护措施和建议。
对于数字资源长期保存的研究和探讨,我国起步较晚。笔者以“数字资源长期保存”为主题检索词,在中国知网的学术期刊库进行了检索。检索结果显示,我国学者对数字资源长期保存的研究从2002年开始,随后逐年增加,2007年至今基本维持在同一水平。
自2004年以来,我国持续开展数字科技文献资源长期保存的研究和实践。2009年,我国成立了数字科技文献资源长期保存中心,保存了包括Springer、Willy、IOP、Nature等十多家国外重要出版商的数字资源。该中心主动参与国家平台建设,在NSTL支持下联合中国科学技术信息研究所、北京大学图书馆等机构,建设了以重要的国外数字科技文献为主要保存资源的国家数字科技文献资源长期保存体系。此外,我国还与其他国家合作,在数字资源长期保存领域进行了战略布局、重点研究和大规模建设,自2004年在北京召开首届数字资源长期保存国际会议以来,iPres系列会议已成为国际上对数字资源长期保存进行专门研究、交流和推进的主要学术会议,全面反映了数字资源长期保存的前沿问题、最新进展、发展趋势、新技术新方法和重大实践进展,也成为国际同行交流、共享、合作的主要平台[4]。
2 大数据环境下数字资源长期保存的法律问题
在大數据环境下,法律是数字资源长期保存得以顺利进行的重要保障和依据。由于不同地区有不同的法律和法规,因此不同的保存机构会面临不同的法律问题。联合国教科文组织的《数字遗产保存指南》指出,要对有长期保存能力的机构进行身份确认,确保数字资源长期保存项目的顺利进行。目前,我国也开始加强数字资源长期保存方面的法律法规建设,出台了一系列与数字资源保存有关的法律条款。数字资源长期保存涉及保存方、资源方、用户方等主体对数字资源的影响等问题,这三个主体在法律层面主要涉及合理保存、合理利用和合理权利的平衡等问题[5]。因此,数字资源长期保存主要涉及知识产权法、合同法、国家保密法、隐私权保护等相关法律法规,这些法律法规在诸多方面影响着数字资源长期保存的良性发展。例如,数字资源在存储过程中可能会涉及出版商的技术保密问题,在传播过程中可能会涉及数据信息的保密问题和用户信息保密问题。我国只有不断健全法律法规,才能确保数字资源长期保存工作的持续开展。
在大数据环境下,数字资源长期保存涉及的法律问题较多,包括制定和实施两个方面。因此,国家应该制定相关的法律法规,平衡各方面的利益关系,促进数字资源长期保存工作的健康有序开展。为了解决我国数字资源长期保存法律方面的问题,我国不仅应加强数字资源长期保存的法律体系建设,对数字资源长期保存进行直接立法,加大法律法规的执行力度,还应建立数字资源长期保存机构与出版机构及用户之间的互信协议。
3 大数据环境下数字资源长期保存的技术问题
3.1 数字资源长期保存的主要技术
数字资源是一种数字化信息,与传统文献资源有着根本的不同。传统文献的信息都依附在载体上,而数字化信息在存储和利用过程中都会受到软硬件和支撑系统的制约。常用的技术方案主要有以下几种。
3.1.1 数据迁移技术。数据迁移是指将很少使用的数字信息从一种存储介质上转移到另一种存储介质上。数据迁移是数字资源保存中比较成熟的技术,优点是数字资源的格式容易被人们接受,现行的硬件与软件能够兼容,数字资源可被复制转化;缺点是迁移过程中一些数字资源的样式甚至一些数据会丢失[6]。
3.1.2 数据仿真技术。数据仿真技术是在新环境下建立一个兼容的运行环境,使原始数据和系统能在新的软硬件平台上运行。该技术被认为是理想的保存技术,优点是具有兼容性及可靠性等特点,能对数字信息的内容和外观进行保护,适用于所有的数据对象;缺点是技术成本较高。
3.1.3 数据标准化技术。数据标准化技术是指将数字信息转化成一种固有的格式,如HTML或其他格式。标准是一项重要的技术因素,是保障数字资源长期保存各个环节的基础,始终贯穿于数字资源长期保存的整个过程[7]。在数字资源长期保存的过程中,保存机构应尽可能地选择简单、有效、便于解析、具有长久可读性的技术标准。
3.1.4 数据封装技术。数据封装技术是指将协议数据单元封装在一组协议头和尾中的过程,也就是说将数字资源长期保存所必需的软硬件一起打包,以便其能在新的环境下运行。
3.1.5 数据转换技术。数据转换是指将数据从一种表现形式变为另一种表现形式的过程,包括格式的转换、程序的转换、字符编码的转换、媒体的转换、操作系统的转换及硬件系统的转换等[8]。
3.1.6 数据更新技术。数据更新是指将数据信息从旧的存储环境转移到新的存储环境中,数据本身不受存储环境变化的影响。
3.2 数字资源长期保存技术应用中的几个问题
目前,在数字资源长期保存实践过程中有些技术方案比较实用,而有些技术方案还停留在理论研究层面,保存机构在挑选方案时要充分考虑技术方案的可行性、持续性、实用性和合理性。此外,任何数字资源长期保存方案的执行都受到技术标准、数字资源评价和应用效果的约束。以下是数字资源长期保存技术在应用中需要注意的几个问题。
3.2.1 技术标准问题。标准化是指在工业生产和社会管理等生产实践中,对重复性的事物和概念通过制定、发布和实施标准实现统一,以获得最佳秩序和社会效益。数字资源的标准化是以某种广泛认可的标准进行数字资源的信息描述。目前,在数字资源长期保存领域影响较广泛的国际标准包括《ISO14721-2003航空航天数据和信息传输系统.开放式档案信息系统.参考模型》《ISO19005-1文件管理—电子文件长期保存格式第一部分PDF的使用(PDF/A-1)》《ISO/TR18492-2005电子文件信息的长期保存》[9]。
3.2.2 数字资源评价。由于制订的技术方案应与资源内容相匹配,因此资源评价很重要。目前,数字资源评价指标体系仅关注数字资源的价值评价问题,而在实际的保存过程中涉及的问题很多,包括数字资源的来源、使用率、存在的价值、格式及访问方式、系统相关性等。
3.2.3 技术效果反馈。在利用仿真、迁移等技术对数字资源进行长期保存的过程中,任何一种技术方案都不能适用于所有的情况,因此选择合适的技术方案成了首要任务。国内外数字资源长期保存的实践结果显示,如果内容是最主要的,标准化工作就是关键;如果数字对象的关联是最重要的,封装就是最佳选择;如果信息资源的结构比较复杂,仿真技术就是首选。
4 大数据环境下数字资源长期保存中的网络安全问题
随着全球网络化的不断发展,大数据环境下数字资源长期保存也面临网络安全的考验。Internet的信息安全问题近年来也较突出,病毒感染事件逐年增加,网络攻击事件大幅上升,超过70%的用户受到各种形式的网络入侵,垃圾信息、垃圾邮件等电子垃圾泛滥,网络犯罪日益猖獗,这些情况表明全球网络信息安全形势不容乐观。我国网民已近十亿人,网络安全事件的数量不断增加,包括经济犯罪、信息泄漏、黑客入侵等。
网络安全問题伴随着数字资源长期保存的建设和发展的始终,并有加重之势,因此,保证网络安全是数字资源长期保存得以顺利实施的关键。大数据环境下数字资源长期保存的网络安全管理是一个系统工程,是需要技术部门与管理部门通力合作完成的工作。
5 大数据环境下数字资源长期保存的资金投入问题
数字资源长期保存需要大量的资金投入,如果没有稳定、持续的资金支持体系,数字资源长期保存将很难得到有效实施。与技术问题相比,大数据环境下数字资源长期保存实施过程中的资金投入问题更难解决。
5.1 资金投入问题
5.1.1 长期投入资金与短期利益回收不平衡。一方面,数字资源长期保存属于公益事业,但受某些因素的影响,有些数字资源的长期保存虽然投入了较多资金,但读者却不能免费获取这些资源,这就使资金投入与利益回收失衡;另一方面,数字资源的长期保存机构需要政府持续投入大量资金,才能保障数字资源长期保存的正常实施,但是保存数字资源的机构仅以提供服务为主,这就使资金投入与经济效益产出失衡。
5.1.2 潜在利益产生的问题。图书馆或其他信息服务单位购买的数字资源只有使用权,如果采购合同终止,图书馆或其他信息服务单位就不能再使用已经购买的数字资源。例如,河南科技大学图书馆购买了爱思唯尔2002—2016年的SD数据库使用权,2017年由于经费问题停止了采购,目前该馆已无法再使用2002—2016年的SD数据库的资源。数字资源出版商为了使经济利益最大化,通常会掌握信息资源的所有权,如果数字资源出版商出现财务危机或服务器受到自然灾害、灾难性系统故障等威胁,数字资源就会有消失的危险。
5.1.3 策略选择的复杂性。由于软件开发商在自主开发软件系统时很少融入用户的特定需求,对业务流程管理关注的较多,对记录管理关注得较少,很少考虑业务流程的再造和整合,致使数字记录在生命周期管理中出现断层及系统维修成本增加等情况[10]。
5.2 我国数字资源长期保存的资金投入策略
持续而稳定的资金投入是数字资源长期保存有序实施的根基,具体的策略有以下四条:一是建立国家级别的数字资源长期保存合作体。国家级别的数字资源长期保存合作体可通过多种渠道筹集资金,对资金进行统一调度,并监督资金的流向。二是选择性保存。从经济学的角度看,数字资源保存机构没有必要对所有的数字资源进行长期保存,可选择一些易消失且价值高的数字资源进行长期保存。三是选择适合的技术手段。数字资源保存机构选择适合的技术手段对数字资源进行长期保存,可有效降低投入成本。四是参与国际项目合作。我国应鼓励国家图书馆、中国科学技术信息研究所等单位开展数字资源长期保存工作,并引导他们积极参与国际项目合作。
6 结语
在大数据环境下,相关机构在实施数字资源长期保存的过程中面临很多问题,这些问题概括起来分为技术问题和非技术问题。技术问题和网络安全问题不是影响数字资源长期保存的关键问题,而非技术方面的政策、法律、经济因素等则制约着数字资源长期保存的有效实施。因此,我国应该出台相关政策以保障数字资源长期保存的有效实施。
参考文献:
[1]大数据时代[EB/OL].[2019-06-10].https://baike.so.com/doc/5340323-5575766.html.
[2]新华网.习近平在第二届世界互联网大会开幕式上的讲话[EB/OL].[2019-06-10].http://news.xinhuanet.com/video/2015-12/16/c_1117481089.htm.
[3]贺姝祎.国外数字资源长期保存发展历程[J].图书馆理论与实践,2010(6):72-76.
[4]中国成功申办iPRES 2020数字资源长期保存国际会议[EB/OL].[2019-06-10].http://www.las.cas.cn/xwzx/zhxw/201806/t20180608_5024149.html.
[5]郎玉林.数字信息长期保存影响因素分析[D].哈尔滨:黑龙江大学,2009.
[6]臧国全.数字迁移风险管理[J].中国图书馆学报,2006(3):54-56.
[7]丁丽鸽.非技术因素对数字资源长期保存的影响及应对策略[J].山西档案,2010(2):28-30.
[8]林丽群.数字档案信息长期保存的策略研究[J].广东工业大学学报(社会科学版),2011(1):78-82.
[9]殷立欣,旻苏,李景,等.数字资源长期保存的技术保障机制[J].标准科学,2010(6):42-46.
[10]刘家真,许杰.影响我国数字信息长期保存的问题与解决方案[J].档案学研究,2008(4):50-55.