论科学数据管理对数字科研档案管理的启示
2022-11-22李孟秋中国人民大学信息资源管理学院
李孟秋/中国人民大学信息资源管理学院
为加强科研档案工作,国家档案局、科技部发布了《科学技术研究档案管理规定》(以下简称《规定》)。相较于既有管理规范,《规定》增加了科研电子档案的管理要求,提出了科研电子文件可实行电子化单套制归档的要求[1],这体现出对数字科研档案高质量管理的要求。
随着第四范式等数据密集型科研活动的开展,数字科研档案的管理愈发成为档案理论与实践共同关注的话题。首先,针对数字转型背景下科研档案的管理,学者们普遍认识到顺应信息化潮流、实行电子文件管理[2]的必要性,并提出科研档案的数字化改革是国家要求、高校需求与行业需求[3]。有学者认为,从管理理念出发,数字科研档案的管理将不同于传统科研档案管理工作,如郝春红等人引入英国数据资产框架,提出数字科研档案的资产管理[4];也有学者提出应强化技术应用,通过知识图谱驱动[5]等技术手段提升科研档案的安全性与利用效率。与此同时,也有学者关注e-Science推动下科学数据与科研档案管理的交流与融合[6][7],探索彼此间的理论借鉴[8]、协同框架[9]、管理交互[10]等内容,并进一步提出“实行全流程管理、强化前端控制、构建多方主体合作机制、强化科研项目档案的收管用”[11]等管理措施。
研究者们正在积极探索数字科研档案的管理变革,但随着数字环境下科研档案管理对象、管理目标的持续变化,科研档案管理面临新的挑战,相关研究对此缺乏持续关注。此外,已有研究开始关注科研档案管理与科学数据管理的协同,但多集中于两者关系的探讨以及理论层面的分析,缺乏对于实践经验的总结与借鉴。因此,基于文献研究与网络调研,辅以部分实地调研,本文分析数字科研档案所面临的管理挑战,并以此为基础,总结科学数据不同管理模式的主要经验启示;再根据数字科研档案管理的挑战与工作实践,提出相应管理路径。
1 数字科研档案管理面临的主要挑战
1.1 管理粒度逐渐细化
《规定》明确科研档案的形式包括文字、图表、图像等,并首次将数据纳入管理范围,这体现出科研档案管理粒度逐渐细化的趋势。随着数字化进程的加快,科研项目所产生的文件、信息等逐渐以在线形式形成,许多信息载体如三维模型、数据库等无法通过纸质形式进行管理,且随着科研项目的发展,科研文件的体量逐渐增大,采用传统管理方法无疑会导致管理成本的激增。在这种环境下,以信息化方式对科研档案进行管理是符合档案管理要求的。随着科学技术研究的精细化发展,科学数据快速生成。相较于科研文件,科学数据的档案化管理难度更大,对管理系统、管理者等的要求更高。目前档案管理部门尚未建立完善的科学数据管理设施与系统,有效介入科学数据管理任重道远。因此,科学数据如何归档、保存是科研项目档案管理面临的挑战。
1.2 形成过程趋向分散
随着科学技术的进步,科学研究项目的体量逐渐扩大,单个科研主体难以承担越来越多的科研任务。因此,科研项目越发普遍采用合作开展的方式进行,即某主体牵头、其他主体参与。这种跨学科、跨领域、跨机构开展的科研项目对于科研档案的管理提出挑战。在实地调研中可以发现,不同主体在管理过程中可能采用的系统、程序等存在差异,导致形成的档案内容格式不统一,难以进行有效汇交。在各自开展科研任务的过程中,牵头单位往往较为重视项目文件的归档,而参研单位的档案管理则较为随意,可能产生部分存在重叠、交叉的档案内容,这不但造成管理资源的浪费,也进一步增加资源整合的难度,影响归档文件的齐全、完整与准确。
1.3 档案开发利用需求难以满足
与其他门类档案不同,科研档案的管理目的主要是为科学研究提供支持,因此开发与利用是科研档案管理工作的重要内容。科研档案是开展科研活动的重要资产,尤其是数字科研档案包含的关键科学数据,能够有效减少重复研究造成的资源浪费。然而,科研档案价值发挥存在滞后性,且存在“重管轻用”的现象,其价值不易为科研人员感知,用以支撑科研档案管理的资源相对较少[12]。目前,科学数据与数字科研档案的联动不足,数字科研档案尚未与相对应的科学数据建立有机联系,两者呈现出显著的“分段式”管理特征,导致科学数据的利用主要发生于科学数据中心,大量重要科学数据归档难,不利于档案部门对相关资源进行整合与开发利用。
1.4 安全管控与长期保存越发关键
在科研协同的趋势下,跨部门、跨机构、跨区域的合作与交流较以往更为明显。由于数字科研档案往往包含重要的科研信息,一旦丢失或者泄露会造成巨大损失,因此在数据传输过程中如何保障档案数据的安全,是数字科研档案管理工作的新挑战。此外,数字科研档案往往存在保管系统、软件更新换代的问题。在这一过程中需要实现科研档案的长期保存,保障其在管理环境变迁后依然可读、可用。目前,数字科研档案资源建设呈现不均衡的态势,一为科学数据尚未完全纳入归档范围,二为其资源结构以传统载体档案的复制件为主,没有进行迁移、仿真处理,或以原生格式保存等,没有实现长期保存[13]。
2 科学数据管理的实践探索及经验
国际经济与合作发展机构(Organization for Economic Cooperation and Development,OECD)认为,科学数据是指“科学研究过程中产生,并被科研人员或科研团体普遍认定对研究结果有用的事实记录,例如数值、文本、图像和声音等”[14]。国务院《科学数据管理办法》则将科学数据定义为“在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据”[15]。《规定》对于科研档案的定义为“科研项目在立项论证、研究实施及过程管理、结题验收及绩效评价、成果管理等过程中形成的,具有保存价值的文字、图表、数据、图像、音频、视频等各种形式和载体的文件材料以及标本、样本等实物”[16]。比较概念可知,科学数据与科研档案间存在交集,两者共同关注具有保存价值的科研数据。同时,两者在管理目的、业务内容等层面存在一定交叉与互补。目前,国内外对于科学数据的管理较为成熟,积累了较为丰富的经验。在两者存在管理交集的基础上,总结科学数据管理实践的相关经验,具有必要性。
2.1 多样化的科学数据管理模式
本文对中国、美国、英国、澳大利亚、新加坡等国的数十个管理平台和大学图书馆进行调研,发现数据管理实践主要可分为四类。
第一类是数据生命周期主导模式。该模式以数据本身为管理的逻辑起点,将数据分为诸多阶段,分析数据在不同阶段的特征与主要需求,以此为基础采取有针对性的管理措施。数据生命周期聚焦数据的规划、收集、描述、分析、保存、利用等阶段,注重数据价值的多次利用与深度挖掘,进行面向现实需求的多次循环开发。地球数据观测网项目(Data Observation Network for Earth,DataONE)发布的《数据管理指南》[17],将数据生命周期分为数据规划、数据收集、数据保障、数据描述、数据保存、数据发现、数据整合和数据分析八个阶段,并围绕这八个阶段提供学习模块与最佳案例,将其作为各项活动开展的前提基础[18]。数据生命周期主导模式以数据为主要研究目标,流程清晰明确,同时具有较高的灵活性,更有利于实现数据的长期管护。
第二类是科研项目流程主导模式。目前,科学研究多以项目的形式开展,形成了科研项目流程主导的科学数据管理模式。该模式主要面向项目需求,并对项目完成过程中产生的科学数据进行管理。澳大利亚国家数据服务(Australian National Data Service,ANDS)平台以项目研究流程为管理基础,将管理环节分为项目进行前、项目进行中和项目完成后,并把每个管理环节进一步细分出子环节,使科学数据的管理贯穿始终,并面向研究人员和机构,明确个人和机构的职责[19]。科研项目流程主导模式管理涵盖了两套并行管理逻辑,即以科研项目流程为底层支撑,以每个流程所涵盖的重要管理内容为关键过程域,两者共同推进,对象范围更广,有利于保障科研活动流程中科学数据的有效流转。
第三类是数据或项目主导的复合模式。就管理目标而言,数据生命周期主导模式与科研项目流程主导模式都是为了实现科学数据的线性与有序化管理,且两种模式之间并没有本质差异。因此,两种管理模式在管理过程中可以根据管理需求互相嵌入,以针对所需场景提供更适合的管理方案。英国数字管护中心(Digital Curation Centre,DCC)建立了以数据为主导、嵌入项目流程的DCC生命周期管理模型,该模型包括数据、完整的数据生命周期、数据管理流程和数据管理非必要行为。模型内数据生命周期被分为数据描述、数据规划、数据参与、数据储存四个阶段,在四个阶段中内嵌项目流程管理的相关规定与要求,并分别规定涉及数据的项目流程[20]。在保障以数据为核心的基础上,充分考虑科研项目开展过程中对数据的利用需求。新加坡国立大学图书馆提出了以项目开展为主导、嵌入数据生命周期的管理方案,它认为科学数据管理涵盖了整个项目流程,对数据实行全生命周期管理[21]。该方案将科研项目分为项目起始阶段、项目研究阶段、项目成果发表阶段与项目结束阶段,制定涵盖数据计划、数据收集、数据标准化、数据加工与处理、数据共享、数据保存等内容的详细管理方案[22]。这一管理模式充分考虑到在各项目流程阶段科学数据的实际情况与管理需求,有利于组织机构落实科学数据存档相关政策。
第四类是开发利用主导模式。基于科学数据的有效收集、管理与保存,管理者在通过功能设置保障数据安全的基础上逐步推动数据对外传播,从而开展学术研究。目前,科研人员主要通过数据知识库、数据期刊、学术期刊等进行科学数据的发布与利用。在开发利用主导模式下,研究者主要通过数据知识库实现科学数据的上传、存储与发布,通过数据期刊发布评议后的数据描述符,通过学术期刊发表包含可利用、可验证的科学数据学术论文。开发利用主导模式要求数据储存在数据知识库中,同时分配对应的标识符,便于引用和查询,从而实现数据的可获得、可引用和可审查[23]。
2.2 重视精细化管理
对上述四种科学数据管理模式进行分析,可以发现虽然具体的管理逻辑存在差异,但是其共同前提是完善对于科学数据的精细化管理。这种精细化管理具体表现为:首先,注重科学数据的数据质量,对于获取的原始数据,进行采集、鉴别、保存并提供再利用[24],使所管理的科学数据符合系统或平台对数据可发现、可获取、可互操作、可复用等的要求。其次,根据数据管理需求,系统设计科学数据管理的完整生命周期,并立足生命周期详细规定各个环节的主要任务、明确具体要求。最后,进一步下沉数据的管理层级,对数据进行更为精准的描述,从而更完整地表述科学数据的属性,便于后续科学数据的利用、安全控制、迁移等。对于数字科研档案而言,应该更关注其质量管理,在档案生成初期便明确管理目标与措施,加强科学数据的归档保存,并强化科研档案的元数据著录,为开发利用与安全管控打好基础。
2.3 采取灵活的管理方式
目前国外对于科学数据的组织方式主要包括面向数据生命周期进行组织、面向科研项目流程进行组织、数据或项目主导进行嵌入式组织,这几种组织方式的选择依据是科学研究活动的开展形式以及科学数据的主要性质。虽然组织方式存在差异,但均注重对科学研究活动全流程以及科学数据全生命周期的覆盖。在数字环境下,科学数据管理方式十分灵活,能够结合现实管理需求确定合适的组织方式,并且在管理环境发生变化时及时调整,其实质是实现对管理流程的全覆盖,从而保障前端控制与全程管理。在现有科研档案管理体制下,应积极协调参与数字科研档案生成与管理的多方主体,在科研项目开展的各阶段实现对科研档案收集、整理、存储、服务利用的管理覆盖。
2.4 加强资源整合与协同
科研项目中产生的科学数据具有较大的利用价值,且不同来源、不同主体所产生的科学数据在进行有效汇集后可能会产生更为广泛的利用价值。正是基于科学数据巨大的体量以及潜在的利用价值,国内外对于科学数据的管理均强调资源整合与协同,重视科学数据的有效汇集。相关实践以平台搭建、系统设置为基础,将具有共同属性的科学数据进行统一标识与描述,为后续科学数据的利用、迁移与长期保存奠定基础。如DataONE项目中,项目建设者以全局视角看待数据管理问题,建立分布式信息基础架构,并积极与其他解决数据管理、复用、发现和整合问题的相关组织进行交流与合作[25]。数字科研档案管理应加强对不同主体的整合,便于各方制定统一的档案管理政策、形成面向科研档案管理与共享利用的基本共识。同时,加强基础资源包括标准、规范、技术、平台的共建共享,推动科研档案数字化进程,消除资源建设壁垒,最大限度发挥科研档案的积极作用。
2.5 开展整体性治理
科学数据管理是一项整体性工程,涉及多个管理对象,仅对数据本身进行管理并不能满足诸多需求。因此,在国内外科学数据管理实践中,各管理主体实际上开展了对科学数据的整体性治理,即“从分散走向集中,从部分走向整体,从破碎走向整合”[26]。这实际上是对各要素进行系统集成,将科学数据的形成者与管理者、管理政策、管理平台与系统、管理技术、管理工具、相关活动、基础权益、基础设施、建设资金等纳入管理范围,以科学数据为核心,构建一套完整、体系化的管理框架。科学数据的整体性治理对于数字科研档案管理的启示在于,在管理过程中要更为注重不同要素的配合与与协同,基于特定目标开展有针对性的管理活动,综合运用管理方法和手段促使系统内部各子系统或要素实现整合,进而实现一致性和互补性[27]。
3 优化数字科研档案管理的对策建议
本文基于科学数据管理经验,结合当前数字科研档案的管理挑战,提出通过推动数字科研档案与科学数据协同管理、发展覆盖全流程的全宗组织方式、优化数字科研档案著录工作、完善管理基础要素建设等,提升数字科研档案整体管理效能。
3.1 推动数字科研档案与科学数据的协同管理
在数字转型的背景下,科学数据管理较早适应了数字环境带来的管理变革,形成了面向数据态信息资源的管理模式。而科研档案与科学数据作为重要的科研信息资源,对于支撑科研具有重要意义,且两者在业务层面也包含诸多交集,能够形成互补。实现科研档案与科学数据协同管理,能够学习借鉴科学数据管理的有效经验,提升管理水平。因此应强化制度协同、组织协同、业务协同、资源协同与服务协同[28],加快建立并完善协同管理机制,将管理需求同步嵌入各自业务活动中。一方面,加快科研档案数字化、数据化进程,实现科学数据与数字科研档案的一致性衔接;另一方面,档案管理部门应加强建立完善的科学数据管理设施与系统,有效介入科学数据管理实践,建立与信息技术支持部门、科研业务部门的协同工作机制,在做好原始科研资料归档工作的同时,做好科学数据存档工作[29]。
3.2 发展覆盖全流程的全宗组织方式
全宗理论是目前我国科研档案管理主要原则的理论来源。随着跨组织、跨机构合作科研的发展,将单一部门视为一个全宗的做法已经不符合科研档案管理的发展,对于全宗的理解与全宗组织方式急需更新。随着全宗理论的发展,不同的全宗单位相继形成,在此基础上我国学者提出了“客体全宗”的概念。客体全宗指“以客体为中心形成的档案整体”[30],反映了客体的形成规律与发展阶段,这为科研档案组织方式的调整提供了理论来源,也为全宗的重新组织提供了现实依据。数字环境下,可以将科研项目视为一个完整的全宗单位,科研项目开展的整个流程中所形成的文件档案材料都属于该全宗。在科研项目全宗下,基于对项目全流程的分析与规划,明确各流程生成的文件清单与归档范围,以此为依据对各流程中参与项目各主体的归档责任进行明确规定。虽然形成档案的部门、人员不同,但是都客观反映了科研项目开展的信息,不能脱离科研项目的整体背景而单独存在。数字科研档案管理的核心在于构建清晰、完善的文件归档范围体系和文件管理责任体系,减少漏归档、误归档现象的发生,做到应归尽归[31]、应管尽管。
3.3 优化数字科研档案著录工作
数字科研档案的质量对于科研档案管理工作至关重要,其中档案质量主要包括档案内容的完整性、准确性、一致性,以及不同来源数字档案的可整合性。目前科研项目多以跨机构、跨部门、跨地域的形式开展,不同科研主体在科研过程中所选用的工具、系统不一致,数字科研文件、科研档案的结构等信息具有异构性、差异性等特征,不利于档案资源的有效汇集与利用。在科研档案的生成与管理过程中需保障其一致性与统一性,对数字科研档案进行著录,能够了解数字科研档案的基础信息,进而促进资源整合与汇集。目前科学数据的精细化管理以元数据描述为基础,支持其在资源发现、促进互操作性、数据保存等过程中发挥的重要作用[32]。在数字科研档案管理工作中,需制定统一、明确的元数据方案,结合科研项目特征尽可能选择符合自身需求并且得到广泛认可的元数据标准,确保档案的形成符合元数据方案要求。对于数字科研档案的著录而言,背景信息十分重要,利用者在利用的过程中往往需对数据进行来源信息的追溯。因此,档案工作者需更加注重背景信息的著录,创造性应用新来源观,突破对单一文件形成者或单一机构的认知,同时捕获文件创建过程、利用权限、保管情况和预期用途等背景信息,并对其进行著录[33]。
3.4 加强管理基础要素建设
开展数字科研档案管理要将与其相关的各基础要素,包括主体协同、管理政策、管理平台、人才等纳入管理范围。参照科学数据开展整体性治理的思路,应做到以下几点。第一,针对数字科研档案管理的特点与难点,进行多元主体的组织与协同,通过与科研项目管理部门、项目研究部门、档案管理部门、信息技术部门等主体的对话,明确各主体角色、愿景、功能,合理分配权责,形成环环相扣的参与机制、网络机制、合作机制与责任机制[34],促进各主体的有效合作。第二,加快制定符合数字环境需求的各项规则、制度与标准,使数字科研档案管理有章可循、有规可依,并为具体业务如元数据描述、数字资源保存的开展提供标准规范。如澳大利亚发布《ANDS数据引用指南》,具体规定数据引用的定义、要素、格式、基本元素等内容,为用户使用数据、创建数据引文提供最直接的引导和帮助[35]。第三,完善数字科研档案管理平台、系统建设,聚焦其资源汇集功能,发挥平台、系统在有效整合数字档案资源中的关键作用。在各参与主体的业务系统中设置平台接口,实现科研文件的有效归档,完善平台、系统的权限设置,确保科研档案的安全保障。第四,探索开源管理软件、工具的应用,为数字科研档案的资源开发、安全管控、长期保存提供支撑。第五,加快人才培养,完善档案人员的培训和教育,增强信息素养,提升数字环境工作能力。同时,对科研档案工作的资源建设、开发利用等进行整体和长期规划,并加大各方面投入保障。