荷兰数据归档和网络服务中心的科学数据长期保存机制*
2021-12-09耿志杰陈佳慧
耿志杰,陈佳慧
0 引言
科学数据管理已成为全球科学事业的重点工作,欧盟地平线2020计划、欧洲科学数据永久性保存计划项目(PARSE.Insight)、开放存取Plan S等项目不断发起,推动区域内科学数据的保存与共享。科学数据长期保存工作是指为维护数据的真实完整性,“无限期提供对科学数据持续访问的能力”[1]所采取的一系列存储与管理行为。对科学数据进行长期保存是开放存取的前提,能够为大规模开放活动积累数据资源,并在信息集成过程中提供新方法和创新点[2],从而提升研究成果质量,加速世界科学发展步伐。
随着对科学数据价值认识的加深,我国开始相关尝试,各类科学数据平台建设初具雏形,《科学数据管理办法》更是站在国家高度,为保障科学数据安全、提升数据开放共享水平提供制度规范。相较于国外,我国科学数据长期保存工作属于“短板中的短板”[3]:政策体系不完善,科学数据保存工作令出无门;长期保存工作未成体系,各领域数据平台各行其是;技术策略的统一性、全面性不足,制约数据的整合与存储。
荷兰数据归档和网络服务中心(Digital Archiving and Networked Services,DANS)成立于2005年,由荷兰皇家艺术学院(KNAW)和荷兰研究委员会(NWO)共同组建,以促进人文、艺术、社会科学等领域的数据开放获取和持续访问为使命[4]。在16年实践中,DANS不断完善存储技术设施建设、优化保存方式,形成了系统的长期保存机制。本文在对DANS长期保存机制进行调查与分析基础上,总结其保存举措的特点及优势,为我国科学数据长期保存工作提出优化建议,以期促进数据保存技术和管理方式的优化创新。
1 研究回顾
1.1 理论研究现状
国内外科学数据长期保存的理论研究聚焦于三方面:(1)对多学科领域科学数据长期保存的研究。Jonh Clark[5]、Mohammad Khayat等[6]、Julie Doyle等[7]分别就历史地理空间数据、地球科学数据、3D数据长期保存工作的经验及技术进行分析。(2)对各国各高校科学数据长期保存经验的总结与分享。Pierre-Yves Burgi等[8]描述瑞士数据生命周期国家项目的计划准则、管理方案、存储选项、精益启动模板等;Koopman等[9]发现南非研究数据存在归档与保存不系统等问题;庄晓喆[10]在对美、英、澳高校的科学数据保存政策内容进行分析基础上,提出我国科学数据管理政策应添加保存条款、共享观念、权责意识等。(3)对科学数据长期保存过程中的技术和管理策略的探索。技术策略包括DANS的新格式迁移方案[11];Bruce Barkstrom等[12]借助“backof-the-envelope”模型说明复制方法在长期保存工作中的优势所在。管理策略包括司莉等[13]对国际组织科学数据长期保存会议动态、政策、服务等的探索;Anna Palaiologk等[14]开发ABC成本核算模型保障DANS保存工作中的财务可持续性;Rebecca Frank等[15]认为资金、法律、存储库状态都会影响人们对科学数据的保存态度。
1.2 实践探索现状
实践探索主要以科学数据管理平台及科学数据长期保存项目两种形式进行,现有成果包括:欧洲社会科学数据存档委员会(CESSDA)、美国高校政治与社会研究联盟(ICPSR)、英国国家数据资料库(UKDA)、荷兰数据归档和网络服务中心(DANS)、中国国家科学资源共享服务平台、北京大学开放研究数据平台、斯坦福大学的LOCKSS项目、欧盟的PARSE.Insight项目等。各平台、项目对科学数据长期保存工作的研究内容各有侧重,致使它们在长期保存的规划、政策及运营方向上存在不同程度的倾斜。例如UKDA[16]以英国范围内的社会科学数据及人口研究数据为保存对象,但由于其与英国数据服务中心直接对接,以提供长期可用的数据资源为主要职责;LOCKSS项目[17]重点致力于电子期刊的长期保存与访问,重视的是长期保存开源软件应用程序的开发和全球的分布式保存网络的构建,其在科学数据长期保存方面的参考价值具有较强的针对性;PARSE.Insight项目[18]为长期保存短期项目,研究重点是延长欧盟国家科学数据的寿命,改善存储环境和利用情况,从长期保存工作的整体上看时间短、缺少系统规划,影响范围有限;DANS作为全球领先的科学数据存储平台[19],一方面拥有来自多个学科领域超过15万个科学数据集,保存对象丰富;另一方面,工作内容囊括数据存储、基础设施建设、长期保存工作培训等方面,日常运行还形成了详尽、稳定的长期保存规划和机制,它还帮助建立欧洲数据基础架构,并为存储库开发国际认可的质量标志,影响深远。上述国外平台或项目,无论是保存对象、保存规划,还是影响范围,都更为全面、系统,对我国科学数据管理现状而言,具有借鉴意义。
2 DANS科学数据长期保存机制
DANS科学数据长期保存实践由外部保障机制、整体运行机制、业务支撑机制及风险防控机制四部分构成,其中外部保障机制聚焦长期保存工作运转的必要前提和基础动力,整体运行机制是立足于DANS长期保存整体工作的一般性方式总结,业务支撑机制是长期保存具体操作过程中的重要管理举措,风险防控机制则主要发挥后勤力量,巩固整体运行和业务支撑机制的有效运转。总体看四者围绕DANS科学数据长期保存工作的内部与外部、一般与具体、全程与后勤等方面,共同描绘、再现DANS长期保存工作的全景和成功经验。
2.1 外部保障机制
DANS科学数据长期保存工作的外部保障机制由政策和资金两方面构成,内外法规政策环境的塑造和稳定的资金来源为科学数据保存提供外部性、基础性支持。
2.1.1 内外法规政策体系的塑造
DANS遵循内外协同的法规政策体系(见表1)进行长期保存工作。外部法规政策解决科学数据长期保存全流程中的管理问题;内部制度针对具体操作层进行制定,内容涵盖科学数据获取、数据版权归属问题、数据存储库建设、敏感信息及个人数据保护、文件格式推荐、数据存储要求、保存规划的制定、访问权限设置等。从长期保存角度看,外部政策遵循能够验证科学数据长期保存工作的合法性和可行性,保证长期保存各环节贴合外部的法律大环境,在国家法律可接纳、可保障的范围内开展;内部制度的规定则能理顺工作流程,指明操作方向,增强各环节的互操作性。两者的协调性主要表现在外部法律为内部制度的定立提供依据和基础,内部制度则是外部法律在科学数据长期保存中的具体落实,两者互相支撑,共同制约。这种协同的体系为DANS塑造内外法律认同空间,保证保存工作既贴合政策环境,又顺应技术更迭变化,提升科学数据保管过程的有序性和可靠性。
表1 DANS科学数据长期保存遵循的法规政策体系[4]
2.1.2 持续、稳定的活动资金支持
DANS的资金来源主要包括3个方面:一是组建者KNAW和NWO承担日常管理活动的主要支持方,提供基础的资金援助[4]。二是荷兰政府、欧洲的相关科学研究基金会,主要针对其开展的数据长期保存项目进行支持。三是各领域科学研究机构,以数据管理费用形式为DANS提供活动资金。科学数据长期保存是一项持续性的系统工程,需要长期、稳定的资金投入作为活动支撑。DANS在保障稳定的经济支持基础上,通过建立联盟或提供数据管理服务开拓新的经济来源途径,多源资金的持续流入为其长期保存项目的开展奠定坚实的物质基础,确保管理人才招募、科学数据存储、技术升级等相关活动能够“应支即支”,保持数据保存的延续性和可行性。
2.2 “集中存储-集中管理”的整体运行机制
DANS科学数据长期保存工作整体上主要采用“集中存储-集中管理”的运行机制实现其长期保存目标。集中存储体现为对保存场所的统一。EASY存储库是DANS进行科学数据长期保存的唯一场所和中心存储库,主要用于存储和重用科学数据,长期保存工作从数据提交环节到最终的访问共享环节均在此进行。目前EASY存储库已保存有157,170个数据集[20],最早的数据可追溯到1964年,构成了数据量庞大的科学数据资源库和开放访问系统,促进荷兰范围内科学数据的汇交与整合。除集中存储外,DANS还对科学数据实行了统一的管理。储户将预存储数据集的原始版本打包为提交信息包(Submission Information Package,SIP)上传至EASY后,DANS会将许可证明和唯一持久标识符以邮件形式告知储户;在对数据集进行质量验证、文件格式转换、元数据创建等操作后,形成归档信息 包(Archival Information Package,AIP),并将按学科领域分类存于存储库中;到了最终访问共享环节,需将数据集转化为发布信息包(Dissemination Information Package,DIP)形态进行传递。其中,数据管理、系统监督、协议定立等责任均由DANS内部成员承担,实现管理责任的集中管控。从长期保存角度看,DANS的运行机制,一方面通过EASY将多个学科领域的科研成果汇集在DANS中进行统一保存与管控,实现国家层面科学数据集的高度整合;另一方面,统一管理流程,实现保存环节的标准化,提升科学数据长期保存的质量。DANS的运行机制对我国确立科学数据长期保存模式具有借鉴价值。
2.3 业务支撑机制
2.3.1 基础设施:可信存储库的建设
国际上有多个级别的认证体系支持存储库的评估工作,如数字认证印章DSA、核心认证CoreTrustSeal、扩展级别认证nestor-Seal、正式级别认证ISO 16363[21]。EASY存储库即DANS机构内部进行科学数据长期保存的唯一可信存储库。DANS自开办以来就致力于EASY认证工作,通过MIXED、ARIADNE、persid等项目[22]完善EASY的基础架构、迁移技术及永久标识符解析,提升存储库的可信度和安全性。目前EASY拥有DSA,并通过核心级、扩展级及正式级认证,是值得信赖的数据基础架构,在长期存储、质量控制、数据可访问性等方面具备可持续性。DANS对可信存储库建设的固守为开放科学数据整合、文件迁移、长期保存及持续访问提供可靠、安全的活动场域,通过不断地创新探索,存储库不断贴合用户需求,取得目标客户的信赖,从而吸引更多的科学数据入库存储,提升科学数据存储质量,值得各数据管理机构学习借鉴。
2.3.2 保存标准:文件保存格式的推荐
DANS对大量文件格式进行评估,认为最适合长期保存及访问的文件格式应具备经常使用、能够独立于特定软件及具备开放规范等条件[23],列举了18种数据类型的首选格式和可接受格式(见表2)。对文件格式进行统一是DANS科学数据长期保存标准中的重点之一,格式推荐列表以国际标准或国际通用格式作为推荐依据,并随着时间推移或外部技术环境的变化定期调整,以避免格式太旧或与软件不适配的风险。这种方式能够在源头阻断后期因过时引发的读取危机,减轻后续环节的管理压力,确保科学数据的持续性保存和长期可用。对保存格式的统一化和规范化还能够减少由格式造成的传输风险,便于科学数据实现跨区域、跨机构的交换,从而为摄取环节、归档环节及最终的访问共享环节创造便利。
表2 DANS文件首选格式和可接受格式列表
2.3.3 管理举措:科学数据的迁移
迁移策略分为存储介质迁移和文件格式迁移[24]。DANS以格式转换作为主要迁移策略。科学数据集入库后,DANS对文件原始格式的可读性和可持续性进行全周期评估,并对其所在的系统环境进行监测,将稳定性不佳或过时的格式转换为更具持久性的首选格式,以防因文件格式过时而带来的信息不可用及丢失风险。在格式迁移后,文件的原始格式和保存格式都会被存档,但在数据集的访问环节只会以保存格式显示。从长期保存角度看,相较于存储介质迁移,格式迁移不影响文件内容结构及管理功能,使数据保存更为简洁和稳定。DANS选其作为长期保存的主要技术策略,并对迁移前后的文件版本及管理元数据均进行存档处理,有利于维护数据集的完整性及有效性,实现科学数据的长期存储。
2007年DANS开展MIXED项目,提出一种表示数据库和电子表格一般结构的可扩展标记语言——M-XML作为所有数据库和数据表的中间通用格式,并构建从现有应用格式到M-XML,及从M-XML到需求格式的转换器[11]。MIXED项目的开展体现了DANS对于保存策略的重视和持续探索。其原有的文件格式迁移方式的缺点在于随着迁移行为不断发生将会堆积多个文件版本和管理元数据,为长期保存工作带来管理负担。而后来提出的M-XML格式作为“迁移助推器”,是文件保存在存储库中的常态格式,在数据发布环节才按需进行转换,不仅有利于科学数据集的稳定存储,还能有效缓解版本与格式的管理压力,使管理更为高效便捷。
2.4 风险防控机制
2.4.1 全面的信息安全防范举措
DANS的信息安全防范举措具体表现为设置访问权限及隐私信息保护两方面。首先是访问权限方面DANS设有开放访问、受限访问两个权限选择[25]。开放访问即所有注册用户都可以无限制地访问数据;受限访问则是有限制的访问数据,DANS将访问需求传递给所有者,经同意后才能获得该数据集的访问许可证。受限访问中还可设置临时禁运权限,禁运期内任何人都无法访问该数据。而在隐私信息保护方面,根据《通用数据保护条例》规定,数据集包含能体现个人身份的元素信息,则须签订《个人数据处理协议》[26],共同协商个人数据的处理方式和开放程度,在协议达成的基础上将数据集设置为“受限访问”权限,并对个人数据进行删除或匿名化处理。
上述两方面的防范举措,从长期保存角度看,一方面能建起坚实的安全屏障,隔绝非法访问和利用。特别是针对受限访问的数据集,DANS加强对数据集利用情况的把关和掌控,防止涉密数据集或未发表的科研成果的非授权访问、随意使用或恶意破坏,保障长期保存过程中数据集的安全性和完整性。另一方面,维护科学数据集中的个人数据安全,保障被试者人身权益。DANS秉持“尽可能开放,必要时保护”[27]的保存原则,个人数据识别、脱敏操作也均严格参照国际条例进行,努力将个人信息泄露风险最小化,保障储户及实验被试者的隐私权和财产权。
2.4.2 全程性的监控策略
DANS的风险监控包含机构内部与外部7个主要对象[4]:内部主要是针对数据集文件完整性、存储库系统安全、长期保存规划及DANS总体政策战略4个内容进行监视与检查;外部对象有国际上通用技术或文件格式更新、个人数据相关法律变更、互联网潜在风险威胁三方面。对于每个监控对象均配备明确的责任主体,分别规定有日常检查、持续监测、定期检查、半年一次、五年一次等五种监控频率,以保证风险监控能够覆盖到科学数据生命周期的各个节点。DANS的风险监控策略有效保障科学数据长期保存过程中的安全性和可持续访问性。一方面,坚持对数据格式、系统安全进行长效的跟踪监控,并不断追踪长期保存相关技术、政策的更新情况,有利于时刻把握存储库的运行状态,并借助内外部的技术差异不断优化保存技术,从而提升存储库安全系数。另一方面,监控责任的明确分配提升了保存过程中风险识别的精准性和可追溯性。DANS根据监测对象的所属专业配备责任主体,有助于提升风险识别精准度,且使得长期保存过程中的潜在风险全程可追溯,科学数据存储更具持续性。
3 启示
3.1 规范与赋能共存
DANS坚实的外部保障机制则是以法律和经济支持作为动力要素,能够理顺并规范长期保存各环节工作,维护长期保存工作的可持续性。然而在我国,由于总体统筹规划不足,导致国家层面的政策法规数量较少,科学数据宏观管理体系尚待拓展[28],长期保存工作的保障机制存在不完备、不清晰等问题。因此,我国也应积极发挥内外法律制度的协同和引导作用,为科学数据长期保存工作及其体系完善寻求法律认同环境和良好的发展条件。这一建议可具体落实于对《科学数据管理办法》[29]中“第三章:采集、汇交与保存”及“第五章:保密与安全”两部分的相关规定进行细化,制定专门的科学数据长期保存实施细则,着重对长期保存工作中的主体权责关系、知识产权、数据所有权和使用权、个人信息保密等内容进行详细说明。同时,推进各类科学数据可信存储库的规范化建设,使得人员、资金及软硬件设施等各要素都能得到强有力的法律保障。资金方面,需保障长期保存项目经济支持的稳定性和多来源。首先要加强财政资金的统筹调度,在分析科学数据长期保存需求基础上,及时兑现科学数据管理的各项补贴政策;其次要开辟多种资金来源,通过对研究机构、国际组织、企业等开展科学数据服务,与异质机构建立联盟等,拓宽项目经费来源,为科学数据保存工作续航。
3.2 集中与分布协同
从DANS的运行模式来看,构建专门的、可信赖的存储平台整合全国范围内的数字资源是长期保存工作的首要任务。但由于我国科学数据数量庞大,且高校及研究机构众多,数据来源较为分散,借鉴DANS的“集中存储-集中管理”模式并不现实。因此根据我国的发展实际和《科学数据管理办法》相关规定,宜采取“统一管理-分布存储-集中整合”的长期保存模式(如图1所示)。(1)统一管理:由国务院科学技术行政部门负责科学数据长期保存工作的总体规划和统筹管理[29],并承担可信数据存储库建设的主要职责;(2)分布存储:各高校、研究机构、政府部门等根据地缘、领域等因素建立合作联盟,成为国家科学数据存储平台的分站点,建立多个科学数据存储库,成员机构在研究结束后将科学数据上传至分站点存储库中进行保存;(3)集中整合:各分站点的科学数据存储库与国家科学数据存储平台建立网络集成链接,定期将权威的、高质量的科学数据同步到平台上,以避免科学数据的重复性建设,提升我国科学数据的数量和质量。
图1 “统一管理-分布存储-集中整合”长期保存模式
3.3 “点”与“面”交织
DANS制定了详细的策略体系为科学数据长期保存工作提供技术支撑。而我国各领域科学数据管理平台各行其是,存储方式不一,导致保存策略和标准上存在整体分散的特点。为实现对多学科科学数据的统一管理,应制定有点面结合的长期保存策略。“面”上的通盘考虑:在国家相关政策法规的整体框架下制定全学科领域通用的保存标准体系与实施策略,避免保存举措与国家法律或机构的规定相抵牾,使开放科学数据长期保存真正融入我国的科学研究事业之中,服务于各项科技创新工作。“点”上的分别规范:参照不同学科的专业分类法,规范类目设置;继而结合各类科学数据的特殊性,对元数据描述、文件保存格式及转换、数据集命名规则、安全备份、访问限制、永久标识符设定等细节进行分情况、具体化规范。此外,保存策略制定应实现开放与保护的权衡,既要以开放共享为最终目标,又要重视个人信息安全问题,对科学数据中的敏感信息实施保护。
3.4 跟踪与验证同行
DANS长效的风险监控活动维护科学数据的信息安全和系统安全,保障数据的长期可用性和可持续性。我国应借鉴DANS管理经验,在对科学数据进行长期保存时建立贯穿全生命周期的监控机制。首先,明确各阶段的责任主体,确保监控工作落实在每个细节、每个数据集,使得安全威胁能够及时识别、有迹可循。其次,监控内容大致分为两个方面:(1)针对存储库中的SIP、AIP、DIP信息包进行定期的质量检测和格式检查,及时迁移处理格式不佳、过时的数据,完成首选格式转换,避免科学数据因格式问题无法读取或丢失的风险;(2)要对科学数据的存储环境进行排查,开展系统漏洞扫描,为数据的物理安全和信息安全把关。再次,按需制定确切的监控时段、频率,针对不同环节进行定期或实时的监测,例如数据集格式、元数据的监测宜定期开展,而系统安全摸查则需实时监控,防止病毒或黑客的突然侵入。此外,存储库的管理人员还需提高对国家技术大环境动向的敏感度,把握新兴技术和主流技术趋势,比较新兴技术与存储库现有技术的差异性,考量其在科学数据存储库中的可行性和适配性,使得科学数据存储库能够顺应外部发展趋势,实现保存技术的创新、升级。
4 结语
基于DANS科学数据长期保存的成功经验,文章从外部保障、保存模式、保存策略、监控机制四方面提出长期保存工作的优化路径,旨在实现全国科学数据的聚合和共享,提升我国的科学技术创新水平。当然上述设想还只是较为宏观且理论化的构思,特别是对于模式的构建,落实到具体的实践工作还需考虑到人才、资金、技术等因素的共同配合。我国的科学数据长期保存工作的完善还有很长的一段路要走,需依靠学习、融合和创新来进行优化调整。