大数据时代图书馆数字资源长期保存问题研究*
2016-02-12刘晓英
刘晓英
(中南大学图书馆医学分馆 长沙 410013)
大数据时代图书馆数字资源长期保存问题研究*
刘晓英
(中南大学图书馆医学分馆长沙410013)
〔摘要〕大数据时代已经到来,数据资源长期保存研究和实践面临诸多挑战和问题,数据资源长期保存受人、财、技术、设备、制度等众多因素的制约,其中保存对象、保存技术、保存标准、保存时间、保存成本、保存管理、保存法律等问题都是数据资源长期保存关注的核心问题。
〔关键词〕大数据数字资源图书馆长期保存
〔引用本文格式〕刘晓英:大数据时代图书馆数字资源长期保存问题研究[J].图书馆,2016(7):90-96
1 引言
2000年以来,随着信息基础设施日益完善,移动互联网、云计算、物联网等现代信息技术迅猛发展,以及社交网络、电子商务、手机客户端和各种智能服务终端等迅速普及,数据量呈极速增长,“大数据时代”已经来临。
“大数据(Big Data)”这一术语最早可追溯至Nutch项目[1]。2008年9月,《Nature》发表了“Big Data: Science in the petabyte era”系列专题文章,正式提出“大数据”这一概念[2]。2011年,《Science》推出 “Dealing with Data”专刊[3],讨论了大数据在科学研究中的应用。随后,世界各国相继提出了大数据发展计划和战略,IBM、微软、苹果等IT巨头也相继实施了大数据计划和项目,因而2012年被称为世界“大数据年”。我国从2011年开始引入“大数据”,并将其上升为国家战略。2013年7月习近平总书记在中国科学院考察时指出:“大数据是工业社会的‘石油’资源,谁掌握了数据,谁就掌握了主动权。”[4]2013年11月,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议,将大数据发展推向高峰[5]。2015年8月31日,国务院发布《促进大数据发展行动纲要》,对我国大数据发展战略进行了国家层面的顶层设计和总体部署。2015年12月16日,国家主席习近平在第二届世界互联网大会开幕式上发表主旨演讲时指出:“十三五”期间,中国将大力实施网络强国战略、国家大数据战略、“互联网+”行动计划。目前大数据已经广泛应用于政府管理、社会保障、医疗卫生、食品安全、交通旅游、工业制造、基础建设等领域[6]。
大数据(Big Data),或称为海量数据、大规模数据,是指数据量规模巨大到无法通过目前主流的软件工具在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯[7]。大数据是对通过各种设备和技术采集到的海量数据的总称[8]。据估计,2020年全球数据总量约为40ZB[9-10]。
如此巨大的数据量给图书馆数字资源存储和保存带来了极为严峻的挑战。哪些数据应该保存?由谁来保存?如何保存?保存多久?这些问题成为图书馆数字资源长期保存研究中的焦点,引起了学术界和实务界的广泛关注。中国工程院院士、国家科技文献中心副理事长胡启恒指出:从总体上讲,我国还没有建立起可靠的数字资源长期保存体系[11]。因此,国家图书馆总工程师孙卫认为:解决电子数字文献长期保存问题已刻不容缓[12]。
2 数字资源长期保存概述
2.1数字资源
数字资源是指一切以数字形式将文字、图像、声音、动画等存储在光、磁等介质中,通过网络通信、计算机及其终端再现出来的信息[13]。是计算机技术、通信技术以及多媒体技术相互融合而成的以数字形式发布、存取和利用的信息资源总和[14]。数字资源具有存储空间小、数量庞大、超越时空限制、扩展性强、存取便捷等优势,逐渐成为人们学习、生活、工作的主要信息来源。
数字资源从组织形式上来看有数据库、电子期刊、电子图书、网页、多媒体资料等多种类型;从存储介质来看有磁介质和光介质两种类型,其中磁介质有软盘、硬盘、磁盘阵列、活动硬盘、优盘、磁带等,光介质有CD、DVD、LD等[15]。
随着计算机技术和网络技术的快速发展和广泛应用,特别是移动互联网、物联网、智能终端等的日益普及,海量数字资源已经累积成为大数据。数字资源急剧膨胀带来的直接影响是其快速存取、长期保存和信息安全等问题。
2.2数字资源长期保存
1991年,耶鲁大学图书馆在大批量数字化馆藏可行性研究报告中首次提出“数字保存”这一术语[16]:“数字保存旨在保障数字资料可在所需时间段里被持续访问的一系列必要的管理工作。”此后“数字保存”逐渐成为科学研究、图书情报、档案管理、信息技术等领域的重要研究课题。因为数字资源保存“所需时间段”较长,故也称“长期保存”(Long-term Preservation)[17]。
数字资源长期保存是指保证数字比特流(或数字资源)可长期维护和内容可长期获取必要的管理活动[18]。数字资源长期保存有两层含意:一是长期可存储(Storage),一是长期可获取(Access)。长期可获取是长期存储的目的,包括技术层面的可获取和权利层面的可获取[19]。
大数据是现代信息技术高速发展的必然产物,它使人类置身于数字信息海洋却又面临前所未有的挑战。因为数字资源本身及其存储载体异常脆弱,具有易改变、易消失、易受环境影响、存储载体不稳定等特征,且现代信息技术的日新月异又使得数字资源的软硬件载体、技术框架、数字化对象等都处于动态变化之中[20]。因此,大数据,一方面使海量数字资源变得易于获取,而另一方面又使海量数字资源保存面临挑战。
3 大数据时代图书馆数字资源长期保存的主要问题
随着大数据时代的到来,整个社会已不可避免地被卷入数字洪流,如何保存人类社会的数字文明,图书馆数字保存工作面临着越来越多的挑战和考验[21]。这些挑战和考验不仅源于数字资源本身增长速度快、生命周期短、格式变化快、数据类型多样、环境依存度高、载体不稳定等特征[22]。还来自于图书馆内部管理和外部环境的动态变化,如工作流程、管理制度、运行机制、政策法律、技术更新、资金约束、社会需求、合作协调等因素[17]。
数字资源长期保存是一项复杂的系统工程,是一个综合性课题,受人、财、技术、设备、制度、法律、政策、管理等众多因素制约。整体来看,数字资源长期保存涉及“保存什么”、“如何保存”、“谁来保存”、“保存多久”等一系列问题。具体来看,数字资源长期保存需要解决保存对象、保存成本、保存技术、保存期限、保存法律、保存标准、保存管理等问题。“保存什么”主要是解决数字资源长期保存对象的选择问题,并非所有的数字资源都需要长期保存且同等对待,因此,如何识别和鉴定数字资源的保存价值并合理制定分级保存策略才是关键。“如何保存”涉及保存技术、保存标准、保存模式和保存策略等问题。“谁来保存”涉及保存成本、保存管理和保存法律等问题,就是要确定数字资源长期保存的实施主体,即数字资源长期保存由谁来承担和实施。数字资源长期保存并非某一机构或组织能独立完成,需要数字资源生产者、出版商、保存机构、软硬件开发者、非盈利组织和政府部门等系统通力合作,才能可持续发展。“保存多久”涉及保存期限和时间问题,不同的数字资源保存期限要求不同。在大数据环境下,图书馆作为数字资源长期保存的重要承担者和实施者,要妥善解决这些问题,面临着巨大的压力和挑战。
据PRWeb网站报道[23]:英国30余所高校组织了一项图书馆数字化保存和大规模数字化管理调查,调查内容主要涉及,高校中哪些部门主要承担了数据保存工作,数据保存的成本是多少,使用哪些软件,有哪些困难,培训教职员工的模式,以及其他在大规模数据管理过程中出现的问题等。这些正是各类数字资源长期保存承担者和实施主体所面临的重要问题。
在图书馆数字资源长期保存所面临的主要问题上,众多专家学者都认为,技术问题(存储介质、数据格式、数据恢复、数据免疫、数据再生、技术更新、标准与规范、模式与策略)、管理问题(法律法规、公共标准、信息安全、组织机构、运行机制、合作协调)、经济问题(资金投入、运行费用、商业运作)和资源选择问题(价值评估、内容评价和资源选择)等是主要挑战[14, 24-33]。这些问题可大致归结为规范、技术、管理三个维度,内容、格式、载体、系统、安全五个方面。
在大数据背景下,由于数据总量以每年62%的速率按指数增长规律递增,加上人们对数字资源长期保存的要求不断提高(如要求数据存储后不改变、不降低分辨率、不被污损、不消失且数据可恢复、可再生),而目前数据保存状况正日益恶化[34],所以图书馆数字资源长期保存是一个极为困难而又日益迫切的问题。
4 大数据时代图书馆数字资源长期保存的对象问题
图书馆数字资源长期保存首先解决的问题是要确定保存对象和范围,即明确哪些数字资源需要长期保存[14]。在大数据环境下,图书馆要保存所有数字资源是不现实的,因为图书馆数字资源长期保存受经济、技术、设备、法律、政策等多种外部条件制约,既然不能全部保存,那就应该有所选择,因而哪些数字资源需要长期保存就成为数字保存关注的首要问题。所以,图书馆应该制订数字资源鉴别与选择标准,将具有保存价值的数字资源挑选出来长期保存[24]。
数字资源作为保存对象,因其在存在形式、依附载体以及拥有者等方面具有多样性,所以如何根据数字资源的特点、载体、需求、服务对象以及经费等因素确定数字保存对象和阶段性保存目标至关重要[27]。面对大数据,图书馆既无能力,也无必要,更没有充足的资源保存所有数字信息,关键问题在于,图书馆如何从内容繁杂、质量参差的庞大数字资源中确定数字资源保存和选择标准,并对数字资源进行价值评估,依此确定图书馆数字资源长期保存的范围和程度[35]。
图书馆数字资源长期保存对象的选择包括资源选择和媒体选择。专家指出[24,27,35]:在资源选择上应该首先保存容易丢失、与未来有关联且有重要价值的数字资源。而媒体选择涉及磁、光等存储介质的选择及其组合(如只读式光盘、一次写入光盘、可擦式光盘、硬磁盘、缩微胶卷、光盘与磁盘阵列等)。世界各国的数字资源保存机构和保存项目都对长期保存对象进行了不同的规定,做出了不同的选择。如,美国NDIIPP项目的长期保存对象基本上包含了Web信息、视频、音频、数字期刊、电子图书、数字电视等资源[36]。德国国家科技图书馆的TIB致力于科学原始数据的保存与访问。DARIAH则专注于所有欧洲数字化人文和文化遗产信息保存。上海图书馆则重点实现了馆藏文化遗产的长期保存[27]。
5 大数据时代图书馆数字资源长期保存的经济问题
数字资源长期保存的经济问题主要涉及资金投入、维护费用、商业模式等问题。随着海量数字资源的急剧增长,数字资源长期保存的资金投入越来越大,维护成本和费用也越来越高,就像滚雪球一样,不断放大。数字资源长期保存的巨额投资该由谁来承担?是由国家统筹规划,还是由各保存机构自筹,亦或两者共同承担,能否通过商业化运作模式解决数字资源长期保存的资金来源、维护费用和可持续投资?这些经济问题引起了图书馆数字资源长期保存界的广泛关注,并尝试用不同的方式和途径来解决数字资源长期保存的经济问题。
英国教育部、文化和科技部联手资助的Testbed 计划研究了数字资源长期保存的成本影响因素,设计了数字保存成本模型,并将其分为五个方面[37]:①数字存储系统的花费。包括:物理空间:服务器存放空间和办公空间;数字存储库硬件:服务器、光盘、磁带和其他存储媒介、备份系统和网络连接;数字存储库软件:操作系统、数据库、安全系统、记录管理软件、通讯软件,软件测试和评估;软件保存系统:仿真保存已有软件和新软件的应用环境、测试和评估软件保存。②员工花费。③开发软件和记录保存方法的花费。④实施保存行动的花费。⑤其他影响总开销的因素。这一模型为我们确定数字资源长期保存的资金投入量提供了依据。
目前我国图书馆进行数字资源长期保存实践所需的经费主要是由上级单位拨款和图书馆自筹,而由国家或政府部门专项投资或其他机构赞助的极少,可持续性难以保证。据调查,在我国图书馆数字资源长期保存的经费来源中,上级部门拨款占68.42%,图书馆自筹占32.89%,国家或政府部门直接投资仅占15.79%,出版商或用户赞助十分稀少[38]。
图书馆在数字资源长期保存规划时,要充分考虑到可持续发展问题,应该寻求多方资金支持,只有逐步形成多元化的资金投入体系,才能获得持续的经费来源。专家认为,应该按照共同投入、共同开发和共同受益的原则,大力鼓励企业、社会团体、基金会和个人投资,并且多渠道、多形式地寻求多方资金支持,这样才可能在一定程度上缓解数字资源长期保存资金的窘况。美国和欧洲的一些数字资源长期保存项目开始尝试采用商业化运作模式解决巨额资金投入问题[39]。可以通过出租存储空间、委托存储等模式实现数字资源长期保存的可持续发展。
6 大数据时代图书馆数字资源长期保存的技术问题
数字资源长期保存的技术问题是长期保存的核心问题,是重中之重,而关键技术、存储载体、硬件平台、软件系统、实现工具、格式变化、技术更新等技术因素则是数字资源长期保存面临的最严峻挑战[14]。因此,张晓林指出:目前我国图书馆数字资源长期保存面临严重的技术危机[11]。
在技术问题中,长期保存技术、长期保存系统和长期保存策略倍受关注。
(1)长期保存技术
数字资源长期保存面临两大技术难题[14]:一是防止数字资源变更和破坏。“媒体的腐坏与脆化会带来信息的丢失,即使保存条件再好,数字媒体的保存寿命也是有限的。”长期保存中的数字资源会随外界环境变化而不断变化,因此,需要在其生命周期中经历多次迁移,包括硬件、软件、格式、版本、访问点、载体等多种迁移。一是维护数字资源的长期真实性和可获得性。由于数字资源载体极易受外界环境和条件影响,因此,必须对保存的数字资源进行定期检测,以保证数据真实和完整。为了防止数字资源在长期保存过程中变更和被破坏,并保证其长期真实性和可获得性,衍生出一系列数字资源长期保存技术。
数字资源长期保存涉及多项关键技术,但根据其特点大体可分为迁移和仿真两大类[40]。数字资源长期保存中常见的技术有拷贝、仿真、迁移、封装、风干、标准化、复制(数据备份)、计算机博物馆(技术保存)、通用计算机虚拟(UVC)、数字再造技术(数据恢复、数据考古)、再生性保护、数据抽取、更新、转换、自动存储、数字图形输入板、数据检测等技术[21,24]。每种技术和方法都各有优劣,应根据图书馆数字资源长期保存的需要、目标、资源特点等进行综合选择。
此外,数字资源长期保存技术还面临系统异构挑战,包括网络协议异构(如http、ftp、GridFTP、SOAP)、远程执行方案异构(如Web services、RMI、CORBA)、用户平台异构(如操作系统异构)以及认证机制异构(如Kerberos、GSI)等[41]。如何实现这些异构系统之间交互通信和访问也成为数字资源长期保存面临的技术难题之一。
(2)长期保存系统
随着数字资源长期保存的不断发展和完善,欧美等发达国家产生了一批数字资源长期保存系统,如LOCKSS、DSpace、DAITSS、Fedora、DIAS、PANDAS、EPrint、PAWN和NEDLIB等。这些系统基于OAIS模型和开源代码,多方式、多层次地开展了数字资源长期保存实践。其中LOCKSS、DSpace、DAITSS、PAWN 和NEDLIB等长期保存系统影响力较大且日益成熟,并得到了广泛应用。中国科学院国家科学图书馆就是采用Fedora作为底层存储系统,构建了电子期刊长期保存系统(CASE-Journal Archiving System)[42-44]。
(3)长期保存策略
数字资源长期保存过程涉及多种技术、系统和工具,而每种技术、系统和工具都有其优缺点及适用性,因此需要采用一定的策略与方案对长期保存技术、系统和工具进行选择和组合。
在数字资源长期保存策略中,技术方案是基础。而技术方案又取决于被选择保存的资源对象及其技术特征。目前有多种技术方案和数据标准模型可供选择,技术方案有迁移、仿真、UVC、封装、技术保存、数据再造等,数据开放描述与标准化模型有元数据、永久标识符或唯一资源标识符、文件格式注册、OAIS模型等[26]。不同的保存策略原理不同,适用于不同的资源对象和保存需求,成本相差也很大。重用和开源是目前长期保存技术、系统和工具的两大特点,大量保存系统和工具以及模块都以开源形式发布和共享,间接地降低了保存成本,提升了投资价值[24]。
7 大数据时代图书馆数字资源长期保存的法律问题
数字资源长期保存涉及众多的法律问题,而法律问题本身是一个十分复杂和棘手的问题。不同的国家有不同的法律,不同的资源对象有不同的法律问题,不同的承担和实施主体也有不同的法律问题,但目前国内外还没有出台专门针对数字资源长期保存的法律法规。总体来看,目前数字资源长期保存主要涉及版权、安全、隐私等法律问题。这些法律问题主要源自两个方面:一是数字资源及软件本身涉及的版权、许可协议、采购合同、呈缴制等法律问题,数字资源又包括商业数据库和网络公开数字资源;一是长期保存行为涉及的保存权、复制权、隐私权、使用权、安全风险等法律问题。
图书馆数字资源长期保存中涉及的法律问题不可小觑,一点疏忽就可能危及数字资源长期保存全局。目前数字资源所有者主要通过“许可”模式授权合法用户使用数字资源[14]。也就是说图书馆所购数字资源并未获得所有权,而只能以获取得“使用权”的方式利用数字资源[26]。数字版权和许可协议禁止图书馆复制或存储数字资源,如果图书馆希望长期保存这些数字资源,就需要获得“永久使用权”,就必须在许可协议中增加“永久保存”条款,或者利用图书馆复制权例外解决数字资源长期“保存权”问题[45]。也有不少学者呼吁国家出台相应的政策和法律法规,要求信息生产者和出版商将数字资源保存权转让给图书馆,或建立相应的数字资源长期保存机制,确定数字资源长期保存中的权利和责任,如建立数字资源呈缴制度,将一些数字资源保存权转移或授权给其他机构(如图书馆、档案馆),或国家指定的机构保存[19]。
在大数据和互联网+环境下,因特网数字资源长期保存法律问题尤其引人关注,众多机构在缺乏严密的授权机制下自行大量采集全球公开网页并加以保存,图书馆也积极参与其中。这是否会引起数字资源版权纠纷,是否会侵犯隐私和商业秘密,或者导致保存权之争?如英国数个图书馆联手开展了一项历史资料保存计划,12个月时间就保存了10亿网页资料[48]。这些公开的网页资料是否需要授权才能长期保存?又应该由谁授权?如何授权?授权长期保存的数字资源存在的安全风险由谁承担?如何防范人为破坏?这些都是数字资源长期保存急需要研究和解决的法律问题。
8 大数据时代图书馆数字资源长期保存的时间问题
我们知道有些数字资源需要长期保存,甚至永久保存。但并非所有数字资源需要保存的期限一样,用户需求不同、内容价值不同、存储介质不同保存期限长短也会不同。“长期保存”的“长期”应该是多久?这是一个难以确定的问题,也没有明确统一的标准。
长期保存期限主要受数字资源内容价值、用户需求和存储介质三大因素制约。
首先从内容价值和用户需求来看,不同类型的数字资源因价值不同、用户需求不同,保存期限差异巨大。例如,美国职业安全与卫生管理局(OSHA)要求每一事故文档记录至少保留30年;美国健康保险便利转移和责任法案(HIPAA)规定:数字医疗记录至少保留7年,而少年患者医疗记录需要保留至他们21岁之后再延长7年,慢性病或需要以后处理的病历,数字数据必须保存几十年;有些类型的数字数据需要保存很长时间,以备查用,如建筑图纸(在楼房、桥梁、大坝、水渠等修理或翻新中相当重要)、工程图纸、计算结果、设计、原始资料编码和历史记录等[34]。
其次从存储介质来看,数字资源以各种格式存储在磁、光等存储介质上,使用寿命完全依赖于其读取数据所需的软硬件更新换代速度和存储介质寿命,也就是说,数字资源长期保存期限取决于存储介质及其利用环境的整体寿命[49]。我们知道,石头和粘土可以保存记录几百年甚至几千年,羊皮纸和纸张如能精心保管,可以保存100多年,而赛璐珞照片、医疗记录、电影胶片和缩微胶片等在气候条件控制良好的环境中也能大约保存100年。但在计算机和数字化存储技术高度发达的大数据时代,数字资源保存时长却不容乐观。磁介质数据每2-3年要重写一次,否则会因辐射、氧化和退化等造成数据损坏。即使是光盘,虽然其保存寿命可达50年,但一旦写入数据,其寿命就会缩减至5年。目前还没有哪种数字存储媒介在结构上能使数字数据安全保存几年以上。所以,数字资源长期保存需要建立一种长期保存机制,采用一定的技术手段和管理措施,使数字资源在软硬件环境不断变化的情况下,能够真实、完整地保存(至少 5 年以上),并能够得到有效利用[17]。
数字资源长期保存时间还需要综合考虑存储介质和保存成本。不同的存储介质保存时长不一,成本差异巨大,而且很多存储介质由于各种原因不适合于长期保存。从保存时长来看,在现有的存储介质中,最适合于长期保存的是特殊光盘,其后依次为磁带、一般光盘和磁盘阵列,单体硬盘则最不适合于长期保存。而从保存成本来看,磁盘阵列成本最高,磁带和光盘居中,且能脱机保存,而磁盘阵列则不能长期脱机运行[14]。综合考虑保存期限和成本等因素,特殊光盘和专业磁带最适合于长期保存,可以保存30-50年。如中国国家图书馆数字资源长期保存就是根据这些因素确定了数字馆藏分级保存策略[12]。
9 大数据时代图书馆数字资源长期保存的标准问题
标准与规范是数字信息资源长期保存各个环节之间互操作的基础,贯穿于其生命周期的全过程,对长期保存系统建设意义重大[50]。因此,刘家真指出[51]:创建与使用有利于数字信息资源长期存取的标准与规范是管理数字文献的一项首要工作。可以说,数字资源长期保存标准与规范问题既是一个技术和管理问题,但又超越了技术和管理的范畴。数字资源长期保存涉及数据存取规范、数据共享和互访标准、数据安全和认证等问题,是长期保存实现的基础问题。
数字资源长期保存实践与研究始于20世纪90年代,长期保存技术系统和实践项目在经历初期的自行建设、各自为政、重复建设、资源浪费等失败之后,逐步发展为跨领域、跨行业、跨系统、跨区域的合作与共享,目前已积累形成了一些成熟的国际标准和规范,这些标准与规范是开展数字资源长期保存活动的指南和基础。有METS(Metadata Encoding &Transmission Standard,元数据编码传输标准)、PREMIS(Preservation Metadata Implementation Strategies,保存元数据实施策略)等保存元数据标准,有ISO14721数字资源长期保存系统核心标准,有开放档案信息系统(Open Archival Information System,OAIS)参考模型,有数字资源长期保存指南文件ISO/TR18492和数字资源长期保存格式标准ISO19005-1:2005[14,19,24]。我国也于2002 年 10 月由中国科技信息研究所、中国科学院文献情报中心和中国国家图书馆联合发起《我国数字图书馆标准与规范建设》项目[52]。
除标准与规范之外,合作与共享是长期保存领域的永恒主题,涉及地域间、机构间、学科间、集合间、系统间等的协作与共享,以及合作与共享策略、技术、工具、平台、元数据等问题。其中数据互操作是长期保存活动中实现数据共享和互访的重要问题[27]。数据共享和访问主要集中在互操作、统一存储格式、研发数据访问和提供开放接口等方面[21]。随着长期保存系统的不断发展,数据、系统及服务可信度日益受到关注,数据认证和系统安全问题也不容忽视[53]。
10 大数据时代图书馆数字资源长期保存的管理问题
数字资源长期保存活动是一项复杂的系统管理工程,需要合理有效的管理来保障其正常、正确、有序地实施。管理是一个综合性课题,包含多项管理要素。在影响数字资源长期保存的各种因素中,组织和管理要素最为关键。组织要素包括职能声明、业务连续性保障、组织机构与人员设置、资金保障等,管理要素包括业务连续性计划、业务流程管理(工作流程和操作规范)、风险控制、合同许可义务、质量管理、文档管理等。
从广义来讲,标准、规范、法律、法规、政策、制度、机制、组织、安全、风险、资源等都属于管理问题。从狭义来看,数字资源长期保存的管理问题涉及质量识别、风险防范(安全策略、责任机制)、运行机制(分级存储、分层管理、可扩展、监控、生命周期、遗忘管理)、资源配置(人、财、物保障)、业务流程(工作流程和操作规范)、人员培训、组织机构、数据监管等一系列具体问题。随着全球数字资源长期保存项目和系统的部署与运行,数字资源种类不断增加和长期保存规模不断扩大以及数字资源监控需求不断增强,数据监管成为长期保存研究的重要领域。
具体到某个机构或系统来说,数字资源长期保存涉及资源层、实施层和应用层的有效管理。资源层涉及保存对象和保存资源(实施保存中涉及的资金、技术、系统、人员和机构等)的管理。实施层的重点是工作流程,包括工作流程设计、工作流程自动化和工作流程管理。定义清晰、权责明确的工作流程对降低成本、及时发现错误、保障长期保存系统的正常运转十分关键,工作流程管理贯穿数字资源长期保存的整个生命周期。而数据、系统与服务的可信度以及使用过程中的权益管理是应用层管理的重心,关系到整个保存体系的安全和可信赖程度[53]。
11 结语
数字资源长期保存是一个复杂的系统工程,涉及人员、资金、技术、设备、政策、法律、制度、管理等诸多要素,是一项长期艰巨的任务。随着大数据时代的到来,数据资源长期保存研究和实践面临诸多挑战和问题,任重道远。数字资源长期保存不仅是一个技术难题,更是一个管理难题,需要统筹规划、协调合作,并建立有效的管理体制、运行机制、政策法规、标准规范以及人才、资金、技术等资源综合保障体系,才能有效实现。早在1996 年,美国研究图书馆协会(Research Library Group,RLG) 发表的《数字信息保存》报告中就已经提到[53]:保存数字资源会比保存纸本相似物需要更大的责任、更好的技术和更多的资源,仅仅由保存机构自己宣称可以保存数字资源是不可靠的,需要一种公开和公共机制来证明保存机构确实有能力胜任数字资源长期保存任务。但愿图书馆界能勇于迎接挑战,早日攻克这一难题。
(来稿时间:2016年4月)
参考文献:
1.编辑部.大数据(Big Data)[J].中国无线电,2014(9):43
2. Nature. Big Data [EB/OL].[2016-03-10].http://www.nature. com/news/specials/big data/index.html
3. Science. special online collection: Dealing with data [EB/ OL].[2016-03-10].http://www.science mag.org/site/special/data/2011
4. 郭华东,王力哲,陈方,等.科学大数据与数字地球[J].科学通报,2014(4):1047-1054
5.周宝曜,刘伟,范承工.大数据战略·技术·实践[M].北京:电子工业出版社,2013
6.习近平在第二届世界互联网大会开幕式上的讲话[EB/ OL].[2016-04-10].新华网. http://news.xinhuanet.com/video/2015 -12/16/c_1117481089.htm
7.百度百科.大数据[EB/OL].[2015-04-08].http://baike. baidu.com/link?url=aCqG1nPdBCxi0BxfSn
8. ACCA 中国事务总监 梁淑屏. 大数据,大挑战[N]. 中国会计报/2014 年/1 月/10 日/第 007 版
9. Gantz J,Reinsel D. The Digital Universe In 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East[M]. Framingham: IDC Analyze the Future,2012
10.(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛, 译.杭州:浙江人民出版社,2013
11.刘瑞英. 国内外数字资源长期保存实践项目综述[J].光盘技术,2009(10):7-8
12.《国家图书馆学刊》记者.解决电子数字文献长期保存问题刻不容缓——国家图书馆孙卫总工程师专访之三[J].国家图书馆学刊,2006(3):52-55
13.张小芳.数字信息资源长期保存体系研究[J].四川图书馆学报,2011(5): 44-46
14.邢军.国家图书馆数字资源长期保存现状与研究[J].数字与缩微影像, 2011(4):18-22
15.何雪英.数字资源长期保存研究[J].图书馆学研究,2009(9):81-83,86
16.Digital Preservation Coalition. Preservation Management of Digital Materials: The Handbook.[EB/OL]. [2016-03-06].http:// www.dpconline.org/component/docman/doc_download/299-digitalpreservation-handbook
17.刘越男, 刘语叶, 李雪君, 等. 电子文件的长期保存:多维互动的领域——第四届中国电子文件管理论坛综述[J].档案学研究,2014(4):56-60
18. RLG. Trusted Digital Repositories: Attributes andResponsibilities[EB/OL].[2016-03-05]. http://www.rlg.org/ longterm/repositories.pdf
19.旻苏,李景,殷立新, 等. 数字资源长期保存的标准与法律问题综述[J]. 标准科学, 2009(5):46-47, 53-57
20.郭红梅,张智雄.欧盟数字化长期保存研究态势分析[J].中国图书馆学报,2014(2):120-127
21.吴振新,付鸿鹄,李文燕, 等.第10届数字对象长期保存国际会议(IPRES2013)综述[J].图书情报工作,2014(4):127-133
22.王志庚,肖红.全球图书馆自动化系统发展综述[J].图书馆建设,2012(7):85-87,91
23.学术图书馆数据保存实践国际调查报告发布[EB/ OL]. [2016-03-10]. http://www.csstoday.net/xueshuzixun/ jishizixun/82681.html
24.张杰,伍若梅.我国数字资源长期保存策略研究综述[J].图书馆学刊,2013(4):135-138
25.宛玲,张长安. 我国高校数字资源长期保存权交易现状的调研[J].图书馆杂志,2013(1):51-55, 105
26.宛玲,吴振新,郭家义.数字资源长期战略保存的管理与技术策略——中欧数字资源长期保存国际研讨会综述[J].现代图书情报技术,2005(1):56-60
27.吴振新,刘建华,张玫, 等. 数字资源长期保存:当前进展和最佳实践——2007年数字资源长期保存国际会议(IPRES2007)综述[J]. 现代图书情报技术,2007(11):1-6
28.刘家真. 技术更新与数字信息长期保存调研纪要[J].档案管理,2004(1):18-20
29.刘家真.数字信息保存的策略[J].情报学报,2000 (4):349-353
30.刘家真,许杰.影响我国数字信息长期保存的问题与解决方案[J].档案学研究,2008(4):50-55
31.赵成军.数字信息长期保存面临的挑战与发展策略[J].绥化化学学报,2011(1):169-170
32.柯燕红. 试论我国数字信息长期保存的挑战及策略[J].新世纪图书馆,2013(5):62-65
33.周玲玲. 数字资源长期保存在欧盟的战略部署[J].情报理论与实践,2010(3):125-128
34.张进京.数字数据的长期保存[EB/OL]. [2016-04-05]http://blog.sina.com.cn/s/blog_4843fbb101016xfm.html
35.徐宽,任河. 数字资源长期保存的内容价值判断依据研究[J].图书情报工作,2013(7):72-75, 100
36. Parochial Libraries Act1708[EB/OL]. [2016-03-20]. http://www·statutelaw·gov·uk/content·aspx? LegType= All+P rimary&PageNumber=1&NavFrom=2&parentActiveTextDocId=151 6319&ActiveTextDocId=1516319&filesize=15263
37.苏小波,常娥.数字资源长期保存的成本影响因素分析[J].图书与情报,2011(1):20-24, 44
38.王若琳,燕辉,黄辉,等. 我国图书馆数字资源长期保存策略运用现状调查分析[J].图书馆,2014(2):56-59
39.张艳敏,马秀峰.中外数字资源长期保存策略比较研究[J].图书馆学研究,2009(6):29-32
40.王小林. 数字资源长期保存技术综述[J]. 数字与缩微影像,2011(3):31-35
41.白如江,冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践,2014(1):94-99
42.张莉.图书馆在操作系统中实现数字信息长期保存的技术探讨[J]. 图书馆理论与实践,2010(12):69-72
43.吴振新,向菁.开源长期保存系统DAITSS研究[J].现代图书情报技术,2009(7):18-22
44.田硕,黄国彬.近十年国外数字资源长期保存研究综述[J].图书馆杂志,2011(7):8-13
45.黄国彬.复制权例外对图书馆数字资源长期保存的影响剖析[J].图书情报工作,2012(1):47-50,54
46.杨梅玲.浅谈图书馆数字资源的建设[J].南昌教育学院学报,2011(8):194-196
47.钟源,吴振寰,刘灿姣.数字资源长期保存馆社合作模式调查分析[J].图书情报工作,2014(1):91-95
48.英国图书馆:12个月保存了10亿网页资料[EB/OL].[2016-04-10]. http://www.199it.com/archives/110284.html
49.李菲菲,周文云,王喜.数字资源长期保存项目接口的技术难点分析[J].情报探索,2013(7):103-105
50.郭家义.数字信息资源长期保存系统的标准体系研究[J]. 现代图书情报技术,2006(4):14 -18
51.刘家真.标准化与数字信息的长期存取[J].图书馆杂志,2001(9):6-9
52.中国数字图书馆标准规范建设项目[EB/OL].[ 2016-03-20].http://cdls.nstl.gov.cn
53.吴振新. 数字资源长期保存可信赖认证研究发展综述[J].中国图书馆学报,2015(3):114-126
*本文湖南省图书馆学会项目“数字时代的图书馆绩效评价研究”(项目编号:XHYB1030)、湖南省高校图工委项目“网络环境下的图书馆评价研究”(项目编号:2015L003)成果之一。
〔分类号〕D913
〔作者简介〕刘晓英(1975-),女,硕士,中南大学图书馆医学分馆副研究馆员。
Long-term Preservation of Library Digital Resources in Big-data Age
Liu Xiaoying
( Library of Center South University )
〔Abstract〕The With the advent of big-data long-term preservation research and practice of digital resources face many problems and challenges. Long-term Preservation of digital resources are conditioned by many factors, such as person,money, technology, equipment and regime, and so on. And the core problems are preservation object, technology, standard,term, cost, management and law.
〔Keywords〕Big-dataDigital resourcesLibraryLong-term preservation.