APP下载

科学数据长期保存的现状、问题与趋势

2022-11-14中国科学院档案馆单嵩岩

办公室业务 2022年1期
关键词:标准科学策略

文/中国科学院档案馆 单嵩岩

科学数据是科学研究的基础,同时也是科学研究的“牵引力”。美国是世界上对科学数据管理最早介入的国家,在20世纪后10年确立了在国家层面上建设国有科学数据和信息全社会共享环境的战略部署,欧盟也在1984年开启了“欧盟科研框架计划”整合欧盟各国的科研资源,提高科研效率,促进科技创新。近年来,为规范管理海量科学数据,针对科学数据管理的国际政策体系逐渐形成。

面对日益增长的科学数据资源和逐渐规范的管理政策,科学数据的长期保存问题也愈发受到重视。中国早已认识到科学数据保存的重要性,2001年科学技术部发布《国家科技计划管理暂行规定》,要求制定包含基本框架、内容、保存方式和年限等内容的科学数据保存规定;2018年国务院颁布的《科学数据管理办法》中要求建立科学数据保存制度,配备数据存储、管理、服务和安全等必要设施。欧美也发布了科学数据保存相关政策。2013年,美国科技政策办公室发布《增强对联邦资助科研成果的获取》执行指南,要求在科学数据管理计划中包含实施长期保存方案。2018年欧盟发布建议书《关于获取和保存科学资源》,要求成员国加强科学数据的保存。

为保障科学数据的持续获取性和可用性,科学数据的长期保存工作已成为支持科学研究中不可或缺的一部分。

一、科学数据长期保存现状

科学数据长期保存是复杂的综合性问题,涉及诸多方面。Anderson从科学、管理、政策和技术四个方面讨论了科学数据长期保存面对的问题。郭明航等人也提出科学数据保存涉及财政投入问题、组织机构问题、管理问题、政策问题等各方面。本文将从档案视角重点论述科学数据鉴定、科学数据保存策略与科学数据保存技术的现状,分析中国科学数据长期保存问题。

(一)科学数据鉴定。在数据密集型科研和开放科学环境下,科学数据具有体量庞大、来源广泛等特征。从技术能力上来说,保存所有科学数据目前并不存在障碍,但从保存成本上看,保存所有数据会为数据搜索成本及准确性提供更艰巨的挑战。档案机构、保存机构和数据中心均提出科学数据鉴定标准。

2007年美国国家档案与文件署发布第1441指令《战略方向:鉴定政策》,提出“物理科学中的观测数据”“环境健康与安全文件”和“研发文件”三类科学数据的保存鉴定原则。英国数据服务数据中心为保障馆藏数据质量发布《馆藏发展政策》,要求从“相关性、科学或历史价值、新资源或新类型的数据、国际价值、唯一性/丢失风险、可用性/再分配/运营效益、数据和资源的可复制性”这7个方面鉴定和选择社会科学数据。英国数字管护中心为科学数据管理提供了鉴定和挑选指南,提出基于“与使命的相关性、科学或历史价值、独特性、再分配的可能性、不可复制性、经济成本、完整的著录和描述”这7个方面鉴定科学数据。

科学数据的鉴定需要科研人员、数据管理员与档案员等所有利益相关者的参与,通过提供数据价值和质量评估标准等问题,提高科学数据质量,提高长期可发现、理解和利用能力,并减轻一定的存储压力。

(二)科学数据保存策略。科学数据主要包括自然科学、工程技术科学、人文社会科学等领域生成的科学研究活动的原始数据及其衍生数据。不同学科领域都积极投身于研究适合本领域数据特点的长期保存策略。1.机构科学数据长期保存策略。机构保存策略是结合自身特点、保存需求以及基础条件等制定的保存策略。中国人口健康科学数据仓储(Population Health Data Archive,PHDA)发布了《PHDA数据资源收集保藏发展政策》概述了人口健康领域科学数据长期保存发展策略。美国地质勘探局(United States Geological Survey,USGS)为保存其科学数据发布了《USGS数字科学数据保存指南》,提出了数字科学数据保存的组成部分和不同级别科学数据的保存要求。2.同一领域国际标准化科学数据保存策略。由于同一领域的不同国家在描述和存储科学数据等方面具有较大差异,为了支持科学数据更广泛地利用,国际合作组织制定了更标准化的保存策略。国际高能物理数据保存合作组,在2012年组织美、德、英、中等国专家编写了数据长期保存技术白皮书,描述了对高能物理科学数据的保存、相关技术及策略。汇集了整个欧洲的社会科学数据档案的欧洲社会科学数据档案联合会,在2020年发布了《数据管理专家指南》,提出科学数据的存档要求和长期存储策略等内容。3.普适性的科学数据保存策略。针对科学数据在保存过程中遇到的共同问题提出可借鉴的保存策略。国际档案理事会在2010年发布了《科学文件和数据管理与保存指南》,研究了科学数据的长期保存、数据管护和鉴定面临的问题并提出解决建议。4.科学数据长期保存策略研究,涉及单一机构、同一学科领域和泛学科领域的不同细粒度的保存策略,数据中心、科研机构、保存组织和档案组织等均参与其中,共同致力于提高科学数据的长期保存能力。

(三)科学数据长期保存技术。长期保存技术包括支持保存、归档和访问功能的标准和方法。在数字资源长期保存相关标准方面,OAIS参考模型标准是数字资源长期保存领域最重要的国际标准,围绕OAIS参考模型逐渐发展出若干标准,包括认证标准、长期保存元数据标准、格式标准等。在数字资源长期保存方法方面,包括定期更新数据存储技术、迁移、仿真、封装等。

科学数据作为数字资源的一种,基于数字资源长期保存技术,在标准和方法方面都展开了个性化探索。保存标准方面,在科学数据元数据标准和保存格式推荐方向上成果较多。USGS发布数字地理空间元数据指南,并提供元数据编辑器。澳大利亚科学数据局元数据标准目录工作组发布适用于科学数据的元数据标准,分为艺术与人文类、工程类、生命科学类、物理科学与数学类、社会和行为科学类和一般科学数据六大类。英国数据服务、芬兰社会科学数据档案馆发布了科学数据保存推荐格式,解决专有格式对于长期保存来说难以维护和访问的问题。

保存方法方面,在更新数据存储技术、格式迁移方面的实践较多。芬兰社会科学数据档案馆通过将科学数据迁移到新的文件格式实施长期保存,不使用仿真来维持科学数据的可理解性。英国数据档案馆将数据迁移成适合长期保存的文件格式,采用磁盘和光盘多介质进行保存,制作在线、近线、离线和异地备份、定期检测和更新介质。

科学数据元数据标准制定、科学数据长期保存格式迁移、存储设备更新等技术手段,可以较好应对科学数据异构程度高、设备依赖性强造成的长期保存问题。

二、科学数据长期保存的问题

随着在科学数据长期保存领域的深入探索,欧美澳等国家和地区逐渐认识到前期质量管控的重要性,且逐渐使长期保存策略从实验研究走向了实际应用。目前中国的科学数据长期保存还在起步阶段,存在很多问题。

(一)科学数据鉴定意识弱。欧美国家在探索科学数据长期保存中逐渐意识到,科学数据都不具长期保存的价值,且考虑到长期的效益和成本问题,不经选择的数据保存将会造成巨大的经济压力,数据鉴定是必要的。欧美等国家的数据中心、科研机构和档案机构积极发布鉴定标准。

但是,在中国科学数据的长期保存实践中,鉴定往往是被忽视的问题。由于科学数据对信息基础设施和信息化管理能力要求高,形成以信息中心、数据中心为主体的管理格局。这些管理主体对数据鉴定和选择性保存的认识薄弱,还未形成完善的科学数据鉴定标准,在大数据体量的背景下,出现了科学数据归档范围模糊、重复归档和归档质量不足等问题。

在科学数据保存和管理实践中,需要档案专业人员充分发挥出专业素养,与数据生成者和数据专家合作,对科学数据的价值进行判断,选择符合保存要求的数据进行长期保存,制定科学的存档范围,并定期对保存数据进行重新评估和处置。

(二)科学数据长期保存策略待完善。在科学数据长期保存的相关管理中,美国、英国、澳大利亚等国家的科研资助机构大多要求申请者提交数据管理计划,明确元数据和格式要求,以便后续长期保存。科学数据中心、档案管理部门、其他信息管理机构、科研人员等多重利益主体也从不同层面制定了科学数据长期保存要求和策略。

良好的科学数据保存策略是长期保存的基础,目前中国已经开展了部分领域的科学数据的长期保存策略研究,但系统性、体系化程度较弱,缺乏跨学科领域和泛学科领域的策略研究。且参与主体有限,从档案视角进行相关研究和实践探索的较少。

(三)科学数据长期保存技术需提升。科学数据保存机构在科学数据长期保存技术上以制定元数据标准、载体更新、异地异质备份、格式管理(包括格式迁移)为主。

在长期保存标准方面,规范科学数据元数据和格式是实现长期保存的必由之路。英美澳等国家在元数据标准制定上,不仅发布了特定领域的元数据标准,也发布了一般科学数据元数据标准。在格式管理上对不同类型数据如数据汇总表、地理空间数据、文本、音视频等也提出了可接受和推荐的格式。

在日常研究中,科学研究各领域内部情况复杂多样,对技术平台和数据格式做出统一规定是很难的。如中国全国地质资料馆受技术限制,并未对地质资料的技术平台做出统一要求,导致汇交的地质资料存在多种格式和软件环境,面临着软件升级和格式变迁带来的种种问题,影响着地质资料的长期保存。

三、科学数据长期保存的发展前景

科学数据长期保存既是政策要求,更是科学数据积累、共享和再利用的前提条件和基础。科学数据长期保存是一个复杂的综合性问题,涉及多重利益主体参与,且由科学数据产生人员、管理人员和利用人员共同关注。

档案部门保存历史的使命定位,使得其一直以来持续关注并实施档案资源的长期保存,在各类档案资源的长期保存问题的研究与实践上具有一定的优势。科学数据是科研文件,也是科研档案的重要来源,是国家档案的重要组成部分。档案领域的鉴定理论、长期保存策略等理论和方法都能够为科学数据长期保存问题研究提供借鉴和参考。

目前科学数据以数据中心为主体管理,与档案馆管理的科研档案整体处于平行管理状态,但是在实践部门也出现了少量协同管理案例。如美国国家档案馆与文件署委托专业科学数据中心长期保存物理观测数据,对其履行监管职责;美国地质勘探局与档案部门业务集成管理,将数据纳入文件档案管理的范畴,满足档案部门的文件档案管理要求。

科学数据部门和档案部门通过合作,加强档案部门在科学数据长期保存的参与,充分发挥档案部门在长期保存工作中的经验和职能优势,提出切实可行的科学数据鉴定标准,促进科学数据和科研档案长期保存策略协同,有效提升科学数据长期保存实践的规范化、体系化程度。

猜你喜欢

标准科学策略
最新出版团体标准
点击科学
科学大爆炸
永远幸福
党员标准是什么?
科学拔牙
Passage Four
衰落的科学
李敖论标准