APP下载

我国科学数据开放共享生态系统建设实践及其优化对策

2023-10-17刘开强李梦柯王铭子毕建新

科技管理研究 2023年16期
关键词:数据管理数据中心资助

刘开强,李梦柯,李 东,王铭子,毕建新,5

(1.苏州大学科学技术研究院,江苏苏州 215006;2.苏州大学社会学院,江苏苏州 215123;3.国家自然科学基金委员会信息中心,北京 100085;4.国家自然科学基金委员会计划与政策局,北京 100085;5.中国人民大学电子文件管理研究中心,北京 100872)

1 问题提出

国际数据委员会(Committee on Data for Science and Technology,CODATA)早在1966 年成立时就确定了数据共享准则[1],指导数据管理与共享服务。1984 年10 月,我国加入CODATA 并成立中国委员会,积极协调各学科领域的科学数据工作,推动我国科学数据的开放共享。为了充分发挥科学数据资源的作用,科技部在2001 年年底启动科学数据共享工程的第一个试点——气象科学数据共享试点[2]。国家自然科学基金委员会[3](以下简称“国家基金委”)在2014 年也发布了一系列关于科研论文和基础研究知识库开放获取的政策,包括受资助项目科研论文实行开放获取的政策声明。2018 年,我国首次从国家层面出发,发布了科学数据管理办法的政策文件——《科学数据管理办法》,明确指出要促进科学数据开放共享。

近年来,科学数据开放共享问题日益受到国内外学者的关注,分别从数据共享权属、共享策略、共享政策以及数据治理等多方面进行了深入研究。例如,宋河发等[4]、唐素琴等[5]研究了科技数据的权利、权属问题;张旺等[6]、储节旺等[7]研究了国内外科技数据开放共享的策略和机制;宋李叶[8]、王芳等[9]分别从政策工具视角、政策发展视角对国内外科学数据管理政策进行了比较分析;盛小平等[10-11]对数据管理与数据治理进行比较分析,并研究提出科学数据开放共享中的数据安全治理策略。此外,如王晴[12]从政策法规制度、技术、组织和服务等方面探讨了科学数据开放共享的保障机制;佟泽华等[13]运用生态学的“再生”概念构建了科研大数据再生模型;丰佰恒等[14]从生态系统的视角分析了科研大数据的构成要素及其关联关系;等等。

科学数据是国家科技创新和经济社会发展的重要基础性战略资源,实现科学数据开放共享,使其可发现、可获取、可互操作和可重复利用,对于增强数据资源利用率至关重要。近年来,随着我国科技创新能力和投入不断增强,我国科学数据采集能力持续提升,目前已成立了20 个国家科学数据中心、31 个国家生物种质与实验材料资料库,初步形成了丰富的科学数据储备和聚集平台[15],但是,我国在科学数据储备和共享的基础设施建设方面仍面临挑战,与欧美等发达国家相比,我国在科学数据管理与开放共享方面还存在明显不足。当前,我国已经形成了科研院所、高校及国家有关部门为主体和互补,同时囊括企业社会力量的多主体参与的科学数据资源生产格局,所建设的不同数据中心所属行业类别、层级机构等纷繁多元,不同管理主体所管理的数据中心侧重点各不相同,科学数据开放共享模式在系统性构建方面仍然存在部分薄弱环节,而通过对已有相关文献分析发现,目前学界对科学数据共享生态系统的研究尚较为匮乏。为此,本研究从生态系统视角出发,从我国科学数据开放共享生态系统构成要素梳理其建设实践,分析其中存在的问题并提出优化策略。

2 相关概念内涵

2.1 “科学数据开放共享生态系统”概念

我国发布的《科学数据管理办法》中所称科学数据,主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据[16]。从生态系统视角看,科学数据开放共享作为科学研究的内在要求,涉及到诸多内外部要素,如相关机构、相关人员、政策法规、数据对象和基础设施等。基于此,本研究认为,科学数据开放共享生态系统是指,在科学研究环境中,相关机构、人员与政策法规、数据对象和信息基础设施构成的统一整体,其中的各要素相互影响、相互制约,并在一定时期内处于相对稳定的动态平衡状态。

2.2 我国科学数据开放共享生态系统构成要素

明晰科学数据开放共享生态系统内各要素职能定位、促进要素的协调有序发展,有助于促进科学数据开放共享生态系统的可持续发展和繁荣。我国科学数据开放共享生态系统构成要素如图1 所示。

图1 我国科学数据开放共享生态系统构成要素

2.2.1 相关机构

科学数据开放共享生态系统中的机构主要包括科技主管部门层面等。科技部与各级科技厅、局等科技主管部门在国家科技法律框架内制定相关法规与科技政策,并推动由各级科技计划产生的科学数据的开放共享。目前,科技部层面由基础研究司负责推动科研条件保障建设和科学数据开放共享;各地方省级科技厅(委)也有相关机构负责推进省级科技资源开放共享,如江苏省科技资源统筹服务中心在其理事会指导下,加快构建科技资源开放共享服务体系,其中就包含科学数据的开放共享。资助机构作为科学研究的支持者和引导者,负责项目申报评审、立项、监督等组织实施工作,同时负责制定本机构科学数据开放共享政策,以提高资助成果的公开透明性。以国家基金委为例,其科学数据开放共享相关管理规范由其计划与政策局绩效评估与成果处负责制定,信息基础设施则由其信息中心负责建设,各信息基础设施依托单位在开展科学研究活动的过程中,主要由相关科研管理部门负责协助科研人员进行科学数据的采集和汇交工作,并监督保障科学数据的真实性与完整性。国家科学数据中心承担着科学数据开放共享的职责,对科学数据提供汇交、仓储与备份、发布与共享、管理与维护更新等服务。目前国内最为典型的国家科学数据中心是由科技部与财政部于2019 年确定的20 个国家科学数据中心和30个国家生物种质与实验材料资源库[17]。而国内各省份也在积极开展区域性科学数据中心建设。此外,档案部门主要是指各级综合性档案馆,作为科学记忆的长期保存者,负责接收并保管科学数据中心移交的具有永久保存价值的科学数据。

2.2.2 相关人员

科学数据开放共享生态系统涉及的人员及其相互关系如图2 所示。其中,数据生产者主要是指科研人员,他们是科研活动的主体,是科学数据的直接生产者,负责向数据管理者汇交真实可信的科学数据,在此过程中,依托单位科研管理人员对科研人员生产科学数据的行为予以监督以确保数据真实性,并对数据进行形式审核。数据管理者是指数据科学家、科研档案管理人员等,一般具有较强的数据加工处理与分析挖掘的能力,通常隶属于科学数据中心与档案部门,负责指导和帮助数据生产者及数据使用者科学地汇交和利用数据,以及相关信息基础设施、信息系统及科学数据的运行和维护。数据使用者也称数据消费者,通常指相关各类用户,包括了科研人员、教育工作者、学生等有科学数据需求的人群。数据使用者可通过资助机构内部数据共享平台、科学数据中心以及接收科学数据的档案馆等不同渠道获取所需的科学数据,同时有责任向数据管理者反馈科学数据使用过程中发现的问题并提出建议,建立双向良性互动关系。

图2 科学数据开放共享系统中的各类人员关系

2.2.3 政策法规

科学数据开放共享政策法规是指国家、各级科技主管部门、各类科技计划资助机构等为保障科学数据开放共享工作顺利实施所制定/遵循的各类法律法规和规章制度。国家层面,主要是国家科技法律法规;各级科技主管部门层面,主要包括各类法规标准规范、各级各类科技政策等,内容涵盖科技计划管理、科技奖励、国际科技合作、科技监督与诚信建设等;各类科技计划资助机构层面,主要包括各类规章制度及其发展规划等,如国家基金委在遵循国家层面的科学数据开放共享政策基础上也制定了相关政策文件(见表1)。

表1 我国国家自然科学基金委员会遵循/制定的科学数据开放共享政策

2.2.4 数据对象

科学数据是开放共享生态系统中的核心要素。广义的科学数据不仅包括数据集,还包括各类出版物、软件、课件等。科研人员在汇交科学数据时,不仅要汇交科学数据,还应汇交其元数据。元数据对于科学数据的管理和开放共享具有重要意义,是实现科学数据可管理、可发现、可访问与可互操作的关键。我国各类科技项目每年都会产生海量的科学数据,以科技部科技基础性工作专项项目为例,其科学数据全生命周期包括数据的采集、汇交、保存、共享和利用几个环节,在每个环节中,数据完整性和安全性都应当得到保障。数据汇交环节规定,项目汇交的科学数据包括电子格式的科学数据实体以及相应的辅助数据与工具软件,其中科学数据实体是指项目产生的科学考察与调查数据、整理历史资料形成的数据和科学典籍志书图集、科学规范、标本资源和标准物质基本信息;辅助数据与工具软件是指辅助支持数据使用的元数据、数据说明文档及软件工具等。

2.2.5 基础设施

我国科学数据开放共享基础设施主要是指科学数据中心的信息基础设施,相关信息基础设施为科学数据开放共享生态系统提供技术架构和信息安全保障。基础设施中的技术架构包含各种软件系统、网络环境、设施设备、标准规范等,是科学数据开放共享生态系统中的底层要素;而信息安全体系在基础设施中发挥保障软硬件设施及科学数据安全的作用。目前,我国的国家科学数据中心的基础设施建设较为完善,大多建立起了覆盖软硬件规划、设计、运行、维护等多个环节的安全管理体系和规范。以国家基础学科公共科学数据中心为例,其在安全管理体系建设方面,建立了覆盖多个环节的体系和规范,并依照“等级保护2.0”标准下网络安全等级保护三级要求,对基础设施进行全周期、多维度、细粒度安全防护;在规划设计方面,强化硬件和网络基础设施的安全设计和采购标准;在系统研发方面,保障各系统全部业务的功能稳定以及调整设计、开发必要功能;在运维方面,完成各系统网站监控、数据库服务、安全管理等方面的运维。

经过多年发展,我国各级各类科技计划在其科学共同体的基础上,已形成了一个初步的科学数据开放共享生态系统,如图3 所示。

图3 科学数据开放共享生态系统

2.3 科学数据开放共享生态系统特征

2.3.1 全要素整体性特征

科学数据开放共享生态系统由多种要素组成,除了科技主管部门等相关机构和科研人员等各类用户外,还包括各类法律法规和规章制度、广义的科学数据、各种软件系统、网络环境、设施设备、标准规范及信息安全体系。

2.3.2 全流程协同性特征

科学数据管理包括采集、汇交、保存、开放共享等环节,实现科学数据开放共享需要全流程、各主体的协同工作。其中,科研人员在科学研究的过程中产生大量有价值的科学数据,在依托单位科研管理部门的监督指导下向资助机构及科学数据中心汇交科学数据,资助机构及科学数据中心会对科学数据分级分类、加工整理和分析挖掘,并推动科学数据开放共享。具有永久保存价值的科学数据将由科学数据中心负责向档案部门归档,各类科学数据用户则可以根据自身需求向资助机构、科学数据中心或档案部门发起利用申请。

2.3.3 全时空开放性特征

科学数据的开放共享不受时间和空间的限制。随着时间的推移,科学数据经过加工整理形成便于使用的数据库或数据集,并通过质量控制体系保证数据的准确性和可用性,同时,能够在资助机构数据共享交换平台、科学数据中心或档案部门查询利用服务平台上开展科学数据汇交和开放共享工作,各用户均可以在任何时间、任何地点通过多种网络渠道实现对科学数据的访问,而科研人员也可以用户身份访问自己所需科学数据开展相关科研工作并产生新的科学数据,从而形成一个围绕科学数据的“输入—加工—输出”的开放系统。

2.3.4 全制度调控性特征

科学数据开放共享生态系统内部各要素虽然相互关联但相对独立,有各自的运行规律,若要实现科学数据有序、规范地开放共享,则必须有完善的法律法规、规章制度、标准规范来对其进行调控,使其始终处于一个相对稳定的状态;同时,通过制度层面的调控,可以对生态系统加强管理,保持生系统健康和可持续性发展,实现科学数据开放共享中人、组织、基础设施与数据的规范有序运转。

3 我国科学数据开放共享系统存在问题分析

3.1 相当部分科技计划尚未开展真正意义上的科学数据汇交工作

科技部早在2014 年就出台了《科技基础性工作专项项目科学数据汇交管理办法(试行)》,并于2020 年6 月启动了国家重点研发计划项目科学数据汇交工作。中国科学院2019 年印发的《中国科学院科学数据管理与开放共享办法(试行)》,将科学数据汇交作为项目验收的必要条件,要求建立先汇交数据、再验收项目的机制。由国家科技基础条件平台中心牵头研究起草的《科技计划项目形成的科学数据汇交技术与管理规范》《科技计划项目形成的科学数据汇交通用数据元》《科技计划项目形成的科学数据汇交通用代码集》3 项国家标准也于2021 年正式发布。但是,其他各级各类科技计划尚未开展真正意义上的科学数据汇交工作。以国家自然科学基金为例,目前科学基金网络信息系统(ISIS)中保存的,主要是科学基金申请书、计划书、进展报告、结题报告等管理性数据文件,基础研究知识库和科学基金共享服务网中提供开放共享的,也只是资助项目的研究论文和结题报告,最具科研价值的数据实体及其元数据的汇交工作尚未开展。除了国家自然科学基金,国家社会科学基金、各省份的自然科学基金和社会科学基金均未开展科学数据汇交工作。科学数据汇交工作的缺失,使得我国科学数据开放共享缺少了最具价值的数据资源。

3.2 尚未制定针对科学数据开放共享的专门政策

发达国家基础研究资助机构基本上都有专门针对科学数据管理与开放共享的政策。以美国为例,美国国家科学基金会在2015 年发布了《今日的数据,明日的发现》,对受资助项目所产生的科学数据的管理计划、提交、管理、检索、访问、保存作出了详细规定;美国国立卫生研究院(NIH)也于2020年发布了新版《NIH 数据管理与共享政策》,以促进对受资助项目产生的科学数据的管理和共享。我国科技部长期以来一直高度重视科学数据工作,深入贯彻落实《科学数据管理办法》,推动科学数据向科学数据中心汇交,促进科学数据共享应用。《中国科学院科学数据管理与开放共享办法(试行)》中,明确了科学数据开放共享的可发现、可访问、可互操作、可重用的FAIR 原则和各主体责任,并制定了《中国科学院科学数据中心管理暂行办法》,提高科学数据开放共享水平。《科技部 自然科学基金委关于进一步压实国家科技计划(专项、基金等)任务承担单位科研作风学风和科研诚信主体责任的通知》中指出,要建立并严格执行科研数据汇交制度,确保本单位科研活动的原始记录及时、准确、完整,保存得当,做到可查询、可追溯。然而,我国只有中国科学院制定了本单位专门的科学数据开放共享办法,其他各级各类科技计划的科学数据开放共享要求大多分散在各类相关管理办法或通知要求中,亟须制定符合各单位要求和特点的科学数据管理与开放共享办法。

3.3 尚未全面建立数据管理计划提交制度

数据管理计划(data management plan,DMP)是一份用于描述在研究过程中生成什么样的数据,如何管理、描述、分析和存储这些数据,以及在研究结束后如何共享和保存这些数据的工作计划。在科技项目申请时同时提交一份数据管理计划,是国外资助机构常见的科学数据管理制度之一。如美国国家科学基金会要求申请人提交项目申请书的同时提交一份不超过两页的数据管理计划,包括项目执行过程中产生的科学数据类型,科学数据元数据相关要求,科学数据重用、访问、存档和共享政策等。中国科学院也将科技项目数据管理计划作为项目立项的必要条件,列入项目评审内容,并规定科技项目数据管理计划主要内容包括项目预期产生的数据内容、类型、规模、质量、提交时间和最终汇交的科学数据管理机构名称等。除此之外,我国其他各级各类科技计划资助机构目前的项目申请书模板中并无此项内容。

3.4 尚未全面开展科学数据的可信认证工作

科学数据的可信认证工作对于其可发现、可访问、可互操作和可重用具有重要意义,真实可信的科学数据是其开放共享的前提。目前国际上可信数字仓储认证标准主要有国际标准化组织[18-19]发布的ISO 16363:2012《可信赖数字存储库的审核和认证》、ISO/TR 15801:1017《文档管理电子存储信息可信度和可靠性的建议》,国际空间数据系统咨询委员会[20]制定的《可信仓储审计及认证:指标与清单》,德国的《可信赖数字仓储的指标目录》[21],以及世界数据系统(WDS)与数据认可印章(DSA)共同推出的CoreTrustSeal 认证系统[22]。其中,CoreTrustSeal 认证系统是专门针对科学数据可信认证的标准,在世界范围内有着重要影响。但我国目前仅有国家天文数据中心、国家空间科学数据中心、世界数据中心-中国地球物理学科中心等少数科学数据中心通过CoreTrustSeal 认证,大部分科学数据中心尚未参与可信认证工作。

4 科学数据开放共享生态系统优化对策

4.1 强化外部合作,全面开展科技计划科学数据汇交工作

基于对国外有关资助机构科学数据管理模式的考察和我国有关科技计划资助机构自身的定位,由资助机构负责筹建科学数据中心并非当前可行之策,可借鉴国际上采用较多的管理方式,通过与外部数据管理机构合作开展科学数据的汇交、保管、出版和开放共享工作。我国20 个国家科学数据中心和30个国家生物种质与实验材料资源库中,绝大多数具有明显的行业特征,且拥有丰富的科学数据管理和开放共享经验,并且,大多省级科学数据中心已经建成或纳入建设计划,各有关资助机构可根据自身学科分布情况,建立起各自与上述国家科学数据中心、国家生物种质与实验材料资源库以及省级科学数据中心的合作关系,将科学数据向对应的科学数据中心汇交。一方面在资助机构内部建立起以科研论文、结题报告为主的内部科学数据开放共享系统;另一方面,在资助机构外部建立起以领域性科学数据为主的科学数据开放共享系统。内外两方面相互协同,共同为用户提供高质量科学数据共享服务。

4.2 完善规章制度,制定资助机构科学数据管理与开放共享政策

除中国科学院在2019 年制定了《中国科学院科学数据管理与开放共享办法(试行)》外,现阶段我国有关科技计划资助机构科学数据开放共享政策大多是参照国家现有科技相关法律法规、内部规章制度以及相关科技发展规划。各有关科技计划资助机构应当参考国内外已有的科学数据管理与开放共享政策,制定符合不同科技计划内部制度特点的科学数据管理与开放共享办法,对科学数据管理与开放共享的内涵、原则、主体职责、汇交与管理,科研论文汇交与管理,科学数据开放共享,相关保障机制与安全保密等作出详细规定;同时,将该办法纳入本机构的政策法规体系,与相关科研成果转化、科研不端行为处理办法等制度配合,共同推进科技计划内部科学数据合规、高效地开放共享,并在推动科研诚信、学术规范和科研伦理建设中发挥更重要的作用。

4.3 加强前端控制,全面建立科学数据管理计划提交制度

数据管理计划应当是有关科技计划资助机构对每一个资助申请的基本要求之一。一份科学合理的数据管理计划可以指导科研人员在项目研究过程中如何积累所产生的科学数据及其元数据,在保障数据真实性、完整性的同时向相应的科学数据中心汇交。数据管理计划中对科学数据的开放共享权限、长期保存的范围都应当作出具体要求。因此,一方面,建议科技部在深化科技体制改革实施方案中补充纳入数据管理计划提交制度,将其作为科技计项目申报和立项的必要条件,以及作为加强学风和科研诚信与伦理建设、完善成果应用贯通机制以及提高资助效能、持续完善规章制度的重要内容,同时在现有科技计划申请流程中加入数据管理计划模块,要求连同申请书一并提交,并将数据管理计划作为项目评审的重要内容;另一方面,在项目结题审核时,采用同行评审的方式对项目所产生的科学数据管理、共享和归档情况进行评估,并给出相应绩效等级,作为评审项目负责人下一次申请基金项目时的重要参考。

4.4 保障数据“四性”,构建自主可控的科学数据可信认证标准

数据的“四性”是指真实性、完整性、可用性和安全性。保证科学数据的“四性”是科学数据开放共享的前提,也是科学数据长期保存的关键。对科学数据开展可信认证工作是保障其“四性”的重要途径,目前国际上广泛采用的是CoreTrustSeal 认证体系。因此,建议科技部牵头开展具有我国自主知识产权的科学数据可信认证体系构建研究,从组织架构、数据对象、技术能力三大维度,以及工作职责、开发与运维团队、数据质量控制、可信工作流、信息基础设施、数据安全等方面构建可信认证标准,并实现与国际标准的兼容。

5 结论

科学数据的开放共享已成为国家科技创新的重要保障措施之一。长期以来,我国各类科技计划中产生的大量科学数据保存在科研人员手中,阻碍了其开放共享,不利于科技创新,客观上要求分级分类实施科学数据相对集中统一管理并实施开放共享。我国科学数据开放共享相关实施细则等具体措施的完善需要依靠各级科技主管部门和资助机构的共同努力。全面建立科学数据管理计划提交制度,可以从科技计划申请阶段就开始保障科学数据的全流程规范管理及开放共享,应当在各级各类科技计划管理中予以推广。对科学数据开展可信认证是保障真实无误的科学数据开放共享的重要工作,同时也是维护科研诚信的重要措施。

猜你喜欢

数据管理数据中心资助
酒泉云计算大数据中心
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
高校资助育人成效的提升路径分析
“隐形资助”低调又暖心
CTCS-2级报文数据管理需求分析和实现
民航绿色云数据中心PUE控制
美国防部资助研发能垂直起降的无人机
2600多名贫困学生得到资助