国家科技数字资源长期保存体系建设与发展
2020-08-03张晓林吴振新付鸿鹄郑建程
张晓林 吴振新 付鸿鹄 郑建程
(1. 中国科学院文献情报中心,北京 100190;2. 中国科学院大学图书情报与档案管理系,北京 100049)
随着信息技术的发展,数字文献已经成为科技领域学术信息创作与出版的主要形态,同时也已经成为我国科技创新主要机构的主流信息资源,并逐步成为支撑我国科技创新的基础战略资源。
数字文献资源的普及极大地提高了用户获取信息能力,同时也带来了可持续利用的严峻挑战。信息技术的飞速发展,使得存储介质的长期可靠性、数据格式的长期可用性、存储系统的长期可靠性,以及在变化格式及其提供机制下的内容完整性和内容可使用性等方面面临巨大挑战。尤其是当前数字文献资源采购方式(采购网络使用权)给我国文献保障带来了更为严重的挑战:网络攻击、技术故障、人为失误等可能造成无法使用,地缘政治因素、自然灾害甚至战争等可能造成获取服务终止。
因此,一方面,数字科技文献资源成为科学研究、技术创新、教育、经济与社会发展的基础战略资源;另一方面,我国用户对国际数字科技文献的获取处在多种复杂因素的高度威胁下,数字科技文献资源在我国本土的长期可靠保存和可持续利用已经成为国家创新发展的重大战略需求。
作为国家科技文献保障平台的管理者,国家科技图书文献中心(National Science and Technology Library,NSTL)决策层敏锐捕捉到了数字科技文献资源长期保存的重要意义,及时做出了前瞻性的研究和实践部署,并初步取得了一系列成果。
1 提前布局数字科技文献资源长期保存研究
1.1 铢积寸累,NSTL对数字长期保存研究的多年投入
2004年,NSTL与中国科学院文献情报中心在北京共同发起和召开了iPRES2004会议(International Conference on Digital Preservation),即第一届iPRES国际会议[1],邀请欧洲多名专家来华共同讨论数字文献资源长期保存的挑战与措施。随后在iPRES还未被全球广泛认识的时期,继续承办了iPRES2007国际会议[2],与相关国际机构一起促成了iPRES[3]系列会议逐步成为全球数字信息资源长期保存的权威学术会议。
2004年9月,NSTL资助中国科学院文献情报中心开展“数字化科技信息资源长期保存体系与政策机制”项目研究,对数字化科技信息资源长期保存体系与政策机制进行深入研究和分析,初步形成完整的政策架构、管理规范体系、保存权益框架以及保存技术架构。
在上述研究基础上,中国科学院自2007年开始启动“数字科技文献长期保存服务系统建设”项目,与国内外重要科技出版社合作进行长期保存系统建设和长期保存服务实践。2009年,中国科学院首次与Springer签署长期保存协议并开始存储其电子期刊,随后又与NPG、Wiley等开始了长期保存合作。
2013年4月,由中国科学院文献中心协助NSTL向科技部提出了国家数字科技文献资源长期保存体系建设的建议,同年6月获科技部批准,NSTL于7月正式部署长期保存体系建设规划工作。随后由NSTL主导,以中国科学院文献中心保存团队为核心的国家数字科技文献资源长期保存体系建设小组(下文简称“工作组”)全面开始了国家保存体系的示范建设工作。
1.2 厚积薄发,启动国家数字科技文献资源长期保存体系建设
1.2.1 建设目标
2014年NSTL启动国家数字科技文献长期保存体系(National Digital Preservation Program,NDPP)建设[4],履行国家平台职责,强化资源保障能力,创新合作服务机制。
基于NSTL自身所承担的国家任务,NDPP将总体目标定位于长期保存我国科技创新用户所需的主要数字科技文献资源,同时积极参与国家教育文化社会各领域所需的其他数字文献资源的长期保存。
NDPP第一期建设分为三个阶段(见图1)。
图1 NDPP发展路线图
(1)示范系统建设(2014年)。建设中国科学院文献情报中心和中国科学技术信息研究所示范节点,保存一批重要资源,形成符合可信赖保存国际认证要求的长期保存示范系统,形成权益、技术、运行、服务和审计等规范。
(2)保存系统规模化建设(2015—2016年)。扩展建设若干个国家级长期保存中心,保存相当规模的权威的国际数字科技文献资源,建立比较完善的长期保存运行、管理和服务规范。
(3)保存体系可持续发展(2017—2020年)。保存多数重要国际科技期刊库和主要的国际会议论文、学位论文、专利库,保存若干国际科技图书数据库,形成巩固的国家级数字科技文献长期保存体系,完善长期保存运行、管理、服务和公共审计机制。
1.2.2 保存内容目标
作为国家科技信息资源的战略保障平台,NDPP首要目标资源范围包括自然科学、工程技术领域,其他范围包括与自然科学、工程技术密切相关的管理、经济、行业、市场、金融等领域。
目标资源的类型包括:①上述学科范围(下同)的主要国内科技期刊数据库、主要国际综合出版商的科技期刊数据库、科技会议录数据库及这类数据库的回溯数据内容;②主要专业学会/协会、专门出版商的科技期刊数据库和科技会议录数据库;③主要的开放获取期刊、会议录、专业知识库等数据库;④重要数字科技专著数据库和重要数字工具书资源;⑤其他重要数字知识资源(如学位论文、科技报告等)。
NDPP为了便于保存目标资源的遴选,随后制定了保存目标资源选择标准:选择使用价值高、学术价值高、风险高、保存可操作性强的数字科技文献资源,优先部署长期保存,并创造条件保存其他具有保存价值和消除风险作用的数字文献资源。其中,使用价值体现在当前及长期需求量,包括采购机构范围和实际使用量;而学术价值主要考虑文献资源在科学研究和国际发展中的长期学术价值,且保证系统性地覆盖重要资源;风险程度主要考虑资源依赖度、资源内容或使用渠道不可替代性及其风险程度;可操作性主要考虑权益安排可接受度、内容格式规范化程度、所需保存技术的可掌握程度、保存机制的可负担性、保存合作协调能力等。
1.2.3 保存体系运行原则
基于N DPP项目本身的成员组成和角色分工,NDPP将遵循以下原则。
(1)国家主导。作为国家科技文献保障平台的有机部分,由国家投资,由NSTL管理。
(2)联合参与。动员国内图书馆合作参与,并选择若干图书馆作为“合规保存机构”联合承担保存任务。
(3)可靠管理。保证重要数字科技资源在中国本土可靠长期保存,保证各个长期保存系统的可靠运行和可靠监管。
(4)公共服务。长期保存体系本身作为公益性公共服务由国家支持。
2 国家保存体系取得阶段性建设进展
在NSTL领导的全力支持下,NDPP项目组按照既定目标,稳步推进。经过5年的建设,目前已经初步形成一系列成果。
2.1 持续有序,制定国家保存体系战略规划系列政策
按照NDPP任务部署,工作组制定了国家保存体系战略规划系列政策,形成了系列权益规范文件,完善了系列公共服务与管理规范等系列政策文件,为国家保存体系的有序运行和规范建设提供重要的制度保障。同时,通过建立科学合理的组织管理架构和健康有效的运行机制,形成围绕长期保存可靠工作流的全面工作规范(见图2),确保数字文献资源长期保存活动的可持续性和可信赖性。
图2 NDPP长期保存管理及运行机制
2.2 坚明约束,形成相对完善的长期保存权益管理机制
全国数百家图书馆在2015年签署《数字文献资源长期保存共同声明》[5]指出,图书馆对所采购数字文献资源拥有长期保存的权利。图书馆采购数字文献资源实质上是采购知识内容为用户提供当前和未来服务,资源的长期可靠利用是这种采购行为的内在含义和基础条件,没有可靠的长期保存,图书馆对所采购知识内容的长期利用权就不完整和不可靠,因此长期保存是图书馆持续进行资源采购的必要基础,其实是图书馆对出版社销售资源的支持条件。
图书馆对数字文献资源的长期保存权包括数据存档权、数据处理权和数据服务权。数据存档权,即对相关数字内容完整、可靠、及时地进行摄入和保存的权利;数据处理权,即因长期保存需要对存档数据进行准确的检验、转换、提取或加载元数据、迁移、重新格式化等处理的权利;数据服务权,即在出版社无法提供服务的情况下利用所保存资源向相应用户群提供检索获取服务的权利,直至出版社恢复正常服务。而且,为提高长期保存的效益,图书馆拥有委托国家保存体系或其他图书馆进行长期保存的权利,受委托进行保存的图书馆有在自己不能继续履行保存责任时选择能合理保护各方合法权益的合作保存机构继承保存的权利。合作保存权和继承保存权是保存权的自然延伸,也是长期保存权利平等实现的基础。
NDPP受NSTL委托、代表国家与联合签署上述共同声明的图书馆行使上述长期保存权。NDPP充分承认和维护出版社的合法权益,承担诚信尽责保护出版商合法权益的义务,承诺建立可信赖的法律、管理、技术等措施保证相关利益方遵守在长期保存中的权利与义务。
NDPP建立行使长期保存权的制度化机制,包括推动国家确立公共资金采购数字文献资源的长期保存责任原则,所有使用公共资金采购数字文献资源的图书馆应要求所采购资源在中国本土得到可靠长期保存,并将长期保存权利纳入与出版社签署的采购合同中。
2.3 风险防范,形成基于全流程可信赖管理机制
数字文献资源长期保存是一种风险防范机制,需要确保被保存资源在任何技术、经济、市场和管理状况下的长期可用性。但长期保存本身又是一项涉及复杂的权利、技术、过程和大量经济与管理投入的长期工作,可信赖性是长期保存服务的运行基础和核心能力。
长期保存服务的可信赖性应按照国际通行的长期保存服务体系模型(如OAIS参考模型[6])和长期保存服务可信赖性标准体系来设计和检验,按照可靠公共服务所遵循的最佳实践和可持续市场服务所遵循的最佳保障机制予以管理。
为此,国家保存体系开展了一系列的工作。
(1)建立明确的长期保存规划与政策,清楚阐述长期保存目标、权利、服务机制、可持续性保障机制等,作为指导长期保存服务运行的基本准则。
(2)建立可靠的长期保存权益管理机制,建立符合法律要求和覆盖长期保存全过程的权利与义务体系,建立具有法律约束力和可操作性的权益管理执行流程。
(3)建立覆盖长期保存全生命周期的业务流程管理机制,保证整个流程及其所有部分都得到可靠和高效的技术方法与系统的支持,以及可操作和可检验的规范与制度的支持。
(4)建立可靠的长期保存技术系统,全面支持长期保存全生命周期的所有任务、遵循可信赖保存技术系统国际标准、能与各利益相关方系统及未来技术变化有效兼容。
(5)建立权责体系明晰、具有高水平知识和能力、与业务流程各阶段有效契合的长期保存团队。
(6)建立稳定健康的长期保存经济投入机制,保证经济上合理高效、成本核算科学清晰、预算有效执行、运行得到持续评估。
(7)建立可靠的继承保存机制,通过事先建立的具有约束力的关于继承责任、继承条件、继承流程、权益转移规则、数据迁移标准、经济与管理责任转移规范等的规定,以及可靠的先期测试,保障在必要时能顺利无损地实现继承保存。
数字文献长期保存作为一种公共服务,其可信赖性依赖这个服务及其管理过程的公开、透明和可检验。国家保存体系自觉建立公开的自我保存审计、第三方保存审计、保存机构可信赖性公共认证等机制,纳入公共力量来监督长期保存系统的运行,防止因人员疏忽、管理懈怠、技术失误、经费缺失等原因造成保存内容的损害。
2.4 可靠保存,构建符合国际标准的保存流程与系统
2.4.1 NDPP长期保存的宏观流程
长期保存基于一系列研究、技术和管理流程,以保证长期保存活动的科学、高效、可靠。这个流程至少应包括以下步骤。
(1)长期保存需求分析。明确所服务的目标社区及其需求,把握相关的数据内容生产者及其产品状况,跟踪相关的信息技术发展状况分析,开展数据内容产品的风险评估等。
(2)长期保存责任体系组织。协助各个机构确定自己在国家保存体系中的合适角色,包括承担保存任务的合规保存机构和其他参与合作保存的机构,后者将通过协调采购政策、参与保存谈判、参与保存审计和合规保存机构公共认证等,协助和监督国家保存体系的可靠运行。
(3)长期保存协议权益获取。合规保存机构根据分工向出版商提出长期保存要约,并结合资源订购谈判进行长期保存协议谈判;长期保存协议签署后在NDPP登记,保存机构对长期保存协议的执行接受NDPP的保存审计。
(4)长期保存技术系统建设。长期保存系统的技术架构坚持OAIS框架,系统功能和技术流程设计遵循OAIS和ISO 16363标准,支持长期保存生命周期的各个功能环节,确保对主流技术标准的长久兼容,并建立技术方法审计与更新机制。
(5)公共服务管理。在NDPP与出版社共同认可的触发条件下,被保存资源将被用于向原采购用户范围提供公共访问服务,并建立用户接入管理、公共服务监管、各方权益保护、服务效果评价等机制。
(6)长期保存审计与认证管理。NDPP将安排对合规保存机构所保存资源进行年度保存审计,保证每个机构每年有被保存资源接受保存审计,每3年对所有被保存资源都进行保存审计,保存审计结果向各个合规保存机构和所有参与保存机构通报。
保存方案包括《保存管理方案》和《保存技术方案》两个部分,详细描述具体流程和要求,说明特色功能和需求。
2.4.2 长期保存的技术流程和系统
NDPP和保存机构针对每种被保存资源制定接收、检验、摄入流程。数据接收周期性进行,根据长期保存协议规定按周、月或季度接收并处理存档数据。
(1)数据接收管理。保存机构在长期保存协议规定的时间下载出版社按照协议确定的格式提供的被保存内容(SIP),并对SIP自动进行病毒检查、恶意代码检测、完整性检查、一致性检验等,并形成数据接收检查报告。
(2)数据摄入管理。保存系统对检查合格的数据建立符合保存系统统一标准的存档包(AIP),包括描述元数据抽取、保存元数据抽取、文档格式识别与技术元数据抽取等。系统将AIP摄入存储与管理模块,同时生成存档信息统计清单以支持自动保存审计。
(3)数据存档管理。为确保被保存内容在长期保存全生命周期都能够保持完整性、真实性、可理解性,数据摄入后要对数据内容进行长期有效管理,包括内容更新、完整性审计、不变性检查等。以期刊数据库为例,完整性审计包括对接收的各批次存档数据、具体期刊、具体文章的完整性审计。
(4)数据保存管理。包括存档文件不变性检查、存档文件格式检查、备份有效性检查、存储介质有效性检查、保存策略检查与更新、保存设备管理等。
(5)灾备管理。建立数据备份制度,避免因为灾害发生造成保存数据全部或部分丢失,并能在灾难发生后以最快速度恢复数据与服务。具体工作包括数据安全分析、建立数据备份策略、建立安全性检查制度、确定灾后恢复策略、进行灾备测试和灾备制定评价更新。
2.5 分工协作,分布式协作保存初见成效
数字资源长期保存是一项艰巨而长期的活动,按照NDPP的“联合参与”原则,NDPP将广泛动员国内图书馆合作参与,并选择若干图书馆作为“合规保存机构”联合承担保存任务。
2.5.1 分布式协作保存的原则和策略
高效益的合作分工原则。数字文献资源长期保存涉及众多机构和海量资源,涉及复杂的技术和管理,以及长期持续的经济负担,才能充分调动多方资源,大规模实现数字文献资源长期保存。
可信赖的长期保存原则。数字资源长期保存本身是一种风险防范机制,依靠任何单一机构进行长期保存本身就是一种风险,需要通过合作保存、分工负责、分摊风险、相互支持、相互制约,大幅度提高长期保存本身的可信赖性。
高统筹的管理机制。数字文献资源长期保存需要通过国家的长期、有力支持,通过统筹规划、分工合作,才能支持重要文献机构相互协调建立长期保存、防灾备份和保存继承合作机制。
2.5.2 保存节点建设机制
(1)充分发挥NSTL的核心作用。NSTL作为国家平台,协调推进NDPP整体进展,统筹规划各保存节点所承担的保存任务和国家经费划分等。
(2)有限合格机构联合承担。鉴于数字科技文献资源存在众多采购单位,长期保存权源于采购行为,也事关采购单位的切身利益,需要所有采购单位的支持和参与;同时,为将长期保存体系控制在可安全和高效管理的有限体系内,长期保存体系应由代表主要采购方的有限合格机构联合承担。
(3)国家公共投入为主。鉴于数字科技文献资源长期保存的复杂性和长期持续的高投入,为保证力度和效率,以全国统筹规划为原则,作为国家科技文献保障体系的重要基础部分进行建设。
(4)保存节点兜底。保存节点承担保存活动中部分基础设施(如建筑、水电气暖供应等)、人事组织管理、机构运行管理等方面的长期综合投入。同时要在国家公共投入不能及时到位的情况下,能够调动自有资源确保被保存资源安全保存。
2.5.3 初步形成多节点的分布式保存网络
2014年以来,NDPP已经获得200多家图书馆的支持和参与[5],并发展了中国科学院文献情报中心、中国科学技术信息研究所、北京大学图书馆三个保存节点,形成了具有三个保存节点和一个NSTL管理节点的分工合作的分布式协作保存网络(见图3)。
图3 NDPP分布式协作保存网络技术架构
2.5.4 已经保存一定规模的数字科技文献资源
截至2019年底,NDPP已对大批数字文献资源长期保存(见表1)。
在中国科学院文献情报中心节点,保存了Springer期刊库、NPG期刊库、Wiley期刊库、RSC期刊库、PNAS期刊库、IOP期刊库、BMC期刊库、AGU期刊库、OU P期刊库、CU P期刊库、维普科技期刊库、Springer实验室手册数据库、Springer电子图书数据库、Wiley电子图书数据库、IOP电子图书数据库、RSC电子图书数据库以及尚唯产品目录库等资源。
在中国科学技术信息研究所节点,对NSTL采购并已获得长期保存权利的45种文献数据库进行长期保存,包括美国冷泉港实验室期刊库、美国气象学会期刊库、美国动物学会期刊库、澳大利亚科学院出版社期刊库等学协会和大学出版社期刊库。同时在中文期刊数据库的保存方面,万方科技文献数据库已经开始正式存入。
表1 NDPP存档数据表
在北京大学图书馆节点,已经保存了Emerald期刊数据库、ProQuest学位论文数据库,并与Brill电子图书、Elsvier出版集团初步签署了长期保存协议。
同时,面向NDPP 200多个合作参与机构提供保存服务。中国科学院文献情报中心节点已经与中国人民解放军医学图书馆合作保存了软件类型资源Primal Picture;同时还在与中国地质图书馆合作推进SEG数据库的合作保存。
2020年,NDPP及其各节点将在全国参与数字文献资源合作保存的所有单位的协助下,继续积极推进与其他重要文献出版机构的长期保存谈判,持续实现重要数字文献资源在我国本土实现长期保存。
2.6 先知先行,面向全国开展长期保存专业人才培养
基于NDPP项目的研究和实践,一批专家级人员脱颖而出,引领着国内长期保存研究与实践的发展,在国际领域也产生了一定的影响力。在战略与政策方面,如张晓林教授;在保存技术与系统方面,如张智雄研究馆员、吴振新研究馆员、付鸿鹄副研究馆员;在保存权益方面,如郑建程研究馆员、赵艳研究馆员等。
同时在中国科学院文献情报中心、中国科学技术信息研究所、北京大学图书馆逐步培养了包括政策团队、保存权益团队、保存技术团队在内的一大批专业人才,发表了大量高水平的研究论文和专著,出版了首部全面系统讲解数字资源长期保存技术的研究与实践专著,发表长期保存相关学术论文100余篇,国际、国内会议报告近百次。团队中多名研究生导师先后培养了多名从事长期保存研究的硕博士。
与此同时,NSTL与国际先进机构保持着密切合作联系,作为核心成员,参与英国JISC与国际ISSN中心所资助的KEEPRERS项目[7],支持国际电子出版物保存注册系统的工作。
同时,NDPP非常清楚地意识到我国在数字资源长期保存研究和实践方面与国际发达国家之间的差距,而且随着大数据时代的到来,各行各业必将面临数字信息管理和保存的挑战。从2015年开始,NDPP有计划地在全国范围开展数字信息长期保存的重要性宣传,努力从各个层面尤其是领导和决策层面提升数字保存的意识。
2015年在全国图书馆大会上,举办“数字保存:从国家战略到具体实践”的专题研讨会。2016年11月,NDPP举办了中国图情领域第一次香山科学会议——香山科学会议第576次学术讨论会“数字科技文献资源长期保存的前沿及重大问题研讨”,来自科研、教育、信息服务技术、图书馆等领域的专家,以及教育部、科学技术部、中国科学院有关司局的管理人员参加了会议。会议围绕数字科技文献资源长期保存的挑战与战略、需要解决的重大问题、我国的主要实践等进行了深入探讨。2016年和2017年,NDPP在苏州和上海举办全国范围“数字资源长期保存研究与实践”培训班。2018年和2019年,NDPP在北京香山召开“非文本类型数字资源长期保存”全国研讨会[8]。
据初步统计,累积参加培训和会议人数逾千人。从战略制定、政策规划、技术标准、系统研发、知识产权、可信赖管理以及可持续发展等多方面,为国家长期保存开展源源不断培养了后续人才。
3 结语
经过多年努力,我国数字文献资源长期保存的战略和工作框架已经建立,大批资源已经得到保存,统筹协同开展长期保存的态势和机制已经形成。但是,数字内容资源规模迅速增长、形态不断变化、服务持续创新、市场日益复杂,我国建设创新型国家中日益增长的数字内容资源需求和这些资源长期可靠利用存在的严峻风险之间的矛盾依然存在。尤其在当前形势下,加强重要科技文献资源安全、防范我国科技创新所需重要资源被“卡脖子”,成为国家重大需求。有效保障国际重要数字科技文献资源的长期安全可靠,成为国家科技文献保障体系的重大任务。加快实现对国际重要数字科技文献的全面长期保存,具有现实紧迫性。
正如吴波尔主任在NSTL2019年会上所说,对于NSTL,数字资源长期保存既是一个挑战,又是一个使命,NSTL不做,没有人做;国家数字资源长期保存体系的建立,是NSTL对中国科技创新所做的承诺,这是NSTL的国家职责,更是一份国家担当。NDPP将继续联合全国学术界、图书馆界和出版界,确保作为战略基础资源的数字内容资源在我国本土可信赖地长期保存和永续利用。