APP下载

我国科学数据仓储服务发展现状与对策研究

2022-05-14

图书情报研究 2022年2期

王 舒

(山西财经大学图书馆 太原 030006)

1 引言

科学数据是产生于实验、观测、探测、调查等科研活动的原始数据以及根据不同科技活动需要进行系统加工整理的各类数据集,反映客观世界的本质、特征、变化规律而不表达研究者观点,已经被图情领域的研究者认为是一种新的信息资源。在数据驱动发展的环境下,科学数据不仅是科学研究开展的基石,也是政府部门制定政策、进行科学决策的重要依据。基于此,对科学数据进行采集、管理、保存、发布尤为重要,科学数据仓储正是集上述功能为一体的网络数字平台,肩负着为研究人员提供数据资源的重任。

我国科学数据仓储服务实践起步于2002年科技部提出的科学数据共享工程[1],发展至今,已拥有国家高能物理科学数据中心、国家基因组科学数据中心、国家天文科学数据中心等20个优质成熟的国家科学数据仓储[2]。近年来,国家也开始在政策层面支持科学数据管理。2015年8月,国家发布《促进大数据发展行动纲要》指出要加快政府数据开放共享,推动资源整合[3]。2018年3月国务院办公厅颁布的《科学数据管理办法》明确了国家科技计划项目产生的科学数据要进行强制性汇交,保障科学数据安全,提高数据开放共享水平。我国高校也逐步开始参与到科学数据共享中,如北京大学2014年12月成立了国家自然科学基金-北京大学管理科学数据中心[4],建立了开放研究数据平台,中国人民大学建立中国学术调查数据资料库,复旦大学2011年建立了社会科学数据共享平台等。

2 国内研究现状

目前,学者们对科学数据仓储服务从多个角度开展了相关研究。就研究对象而言,存在分别以国内科学数据仓储、国外科学数据仓储为对象开展研究的情况;就研究方法而言,主要采用网络调研法、比较分析法、问卷调查法和引文分析法。就研究内容而言,主要集中在科学数据仓储服务的服务功能、用户需求、评价体系三个方面。本文从内容的角度展开述评。

(1)关于科学数据仓储服务功能方面的研究。王丹丹调研了德国社会科学领域的科学数据仓储Sowi Data Net|Datorium的服务现状,从数据存储者、数据用户和科研机构的角度分析了仓储的数据服务流程,认为我国社科领域的科学数据仓储应该拓展服务对象,注重机构用户,支持机构将平台嵌入到自己的工作流程;以开展收费服务,吸引商业机构和个人资助等方式,拓宽资金来源渠道[5]。崔旭对国内外28个科学数据仓储服务功能从数据管理计划、数据创建、数据存储、数据获取、数据分析、数据共享、用户指南、用户培训8个角度进行比较分析,认为我国科学数据仓储缺少数据管理计划制定服务,用户培训方式单一,数据咨询服务不普及。我国科学数据仓储应借鉴国外先进经验,完善服务功能,扩充服务人员数量,真正建立起为科研服务的数据管理价值链[6]。袁红卫、黄松以美国麻省理工学院的数据共享实践为调研对象,从数据组织与检索服务、数据管理服务和附加服务等方面对其建设的科学数据管理与共享平台做了详细分析,认为我国高校在建设数据共享平台时应更加开放,如联合学术搜索引擎、接入云存储平台[7]。

(2)关于科学数据仓储用户需求方面的研究。用户需求是科学数据开展服务的基础,是改进和优化科学数据仓储服务的方向。近年来部分学者开始关注科学数据仓储服务的用户需求。梅相月用问卷调查法,从注册与使用、检索与浏览、数据资源、数据服务、互动交流、平台服务6个角度调研分析科学数据共享平台的用户需求,并提出健全科学数据共享标准规范体系、完善科学数据共享平台内容等优化策略[8]。

(3)关于科学数据仓储评价体系方面的研究。建立评价体系,通过实证研究来发现科学数据仓储在服务中产生的问题和影响力。例如李赞梅构建了针对人口健康平台资源的综合评价指标体系,从资源主题、资源质量、数据规模、服务能力、服务成效和来源版权等维度对资源进行综合评价,有助于推动平台新增资源遴选和优质资源识别[9]。司莉对8个国家级科学数据仓储进行绩效评估,发现我国科学数据共享平台建设存在政策法规尚不完善、缺少数据描述与组织的标准或规范、数据可获取性低、平台提供的服务形式较少、各个平台的科研效能差距较大等问题[10]。

3 研究方法与样本选择

本研究采用文献分析法与网络调查法展开研究。首先利用文献分析法确定样本选择标准。经过对国内文献的调研,发现学者对科学数据仓储服务的研究对象可以按照不同的学科领域分类,按照不同层级分类,或者按照国别分类。本研究综合上述几个维度,结合我国目前科学数据管理领域的实践,决定依据建设与维护主体对科学数据仓储进行分类。

然后利用网络调查法,于2021年8月1日—8月15日对所选样本网站展开充分调研。

3.1 样本选择标准

目前,已有不少科学数据仓储投入使用,依据建设与维护主体,可以分为以下几种类型:

(1)由政府部门主管,依托领域内科研院校(所)的科学数据仓储。例如,2019年,根据《科技部 财政部关于发布国家科技资源共享服务平台优化调整名单的通知》,为了规范管理国家科技资源共享服务平台(简称“国家平台”),经研究共形成“国家高能物理科学数据中心”“国家人口健康科学数据中心”“国家地球系统科学数据中心”等20个国家级学科领域科学数据中心,涉及生物、医学、天文、地理、气象、地震材料、高能物理、农业、林业、计量学等领域,主管部门均为政府部门,包括中科院、自然资源部、教育部、市场监管局、卫健委、农业农村部、林草局、气象局、地震局等。根据图情领域学者司莉、李月婷、邢文明等的评估结果,选取国家人口健康科学数据中心、国家地球系统科学数据中心为研究样本。

(2)由高校主管,依托高校图书馆或高校研究院(所)的科学数据仓储。对“一流高校”进行调查,发现北京大学、复旦大学和武汉大学均依托图书馆建立科学数据仓储,分别为北京大学开放研究数据平台、复旦大学的社会科学数据共享平台、武汉大学高校科学数据共享平台。而中国人民大学、华东师范大学均依托本校某个学院或研究院建立数据仓储,分别为中国学术调查数据资料库、人文社科数据共享平台。其中武汉大学的高校科学数据共享平台是由教育部“211工程”三期建设支持,由武大图书馆主持建设,但该平台目前处于半活跃状态,即能打开网页和部分链接,但长时期没有更新,因此本文不将其作为对象进行调研。

(3)不属于上述两种情况的科学数据仓储,如科学数据银行(Science Data Bank, 简称Science DB),由中国科学院计算机网络信息中心运行维护,是一个具有国际化服务能力的论文关联数据存储库平台。

3.2 样本概况

依据上述样本分类与选择标准,本文选取国家人口健康科学数据中心、国家地球系统科学数据中心、北京大学开放研究数据平台、复旦大学的社会科学数据共享平台、中国学术调查数据资料库、湖南大学经济数据研究中心、华东师范大学人文社科数据共享平台、科学数据银行7个科学数据仓储为样本进行调研,概况如表1。

表1 我国科学数据仓储概况一览表(部分)

4 我国科学数据仓储服务现状及问题

本研究从服务目标、服务对象、服务功能、服务方式、服务资金来源6个方面,以国家人口健康科学数据中心、国家地球系统科学数据中心、北京大学开放研究数据平台等7个科学数据仓储为调研对象,对我国科学数据仓储开展服务的现状及问题进行剖析。

4.1 服务目标

科学数据仓储的服务目标是指通过向目标用户提供服务以达成的目标。科学数据仓储的服务目标决定了科学数据仓储开展的服务内容与发展方向,体现了科学数据仓储开展服务的核心价值与意义。我国科学数据仓储的服务目标有以下几个层次:

(1)打造集数据采集、保存、管理和共享于一体的网络平台。这是科学数据仓储最基本的目标,所调研的7个仓储在服务目标的描述中均包含这层含义。

(2)致力于为研究创新、跨学科研究、政府决策提供数据支撑。这是科学数据仓储开展服务的附加目标。例如地球系统科学数据中心致力于为地球系统科学等基础与前沿科学研究和科技创新提供数据支撑;北京大学开放研究数据平台为基于数据的研究、决策提供国际一流的支撑平台;中国学术调查数据资料库致力于服务科学研究和政府决策。华东师范大学人文社科大数据平台支持不同学科、不同领域的交叉研究创新。

(3)致力于提高机构或者国家的影响力。这是科学数据仓储最高层次的目标。例如人口健康科学数据中心的服务目标包括提高国家数据掌控能力、安全保障能力,保障国家数据安全和维护国家数据主权;复旦大学社会科学数据共享平台致力于为复旦大学履行大学传承、记录文明的职责和成为 “国家智库”提供重要和基础性的支撑。

4.2 服务对象

科学数据仓储的服务对象,可以分为个人用户和机构用户。个人用户从身份上来说,包括科研人员、教学人员、学生和其他人员。机构用户从类型上来说,包括科研机构、出版机构、资助机构等。科学数据仓储开展的不同服务项目对应的服务对象不同。

对于数据存储服务和数据发布服务而言,科学数据仓储的服务对象是拥有(或产生)科学数据的个人和机构。国家人口健康科学数据中心和地球系统科学数据中心等国际级科学数据中心的服务对象侧重于各级政府资金资助的科技项目的负责人及其成员。复旦大学社会科学数据共享平台和华东师范大学人文社科大数据平台的服务对象仅包含本校师生。北京大学开放研究数据平台、中国人民大学中国学术调查数据资料库对所有的注册用户开放数据存储与发布服务。科学数据银行侧重面向传统学术成果的作者和学术期刊开展数据存储与出版服务,为学术期刊提供大容量的存储及规范的数据出版支持,配套完善的数据许可协议,使支持学术论文的科学数据得到合法的权益保障,扩大期刊的影响力。对于数据获取服务与定题服务,常常是面对注册用户开展。而其他服务,通常是面向所有人开放的,不论注册与否。

4.3 服务项目

基于对样本的调查,目前科学数据仓储开展的服务包括数据发现服务,数据下载服务、数据存储服务、数据发布服务、数据引用指导服务和特色服务,其中特色服务包括专题数据服务、定题服务、工具服务、科普服务以及推广与培训服务,具体情况详见表2。

表2 我国科学数据仓储服务项目开展情况

4.3.1 数据发现服务

数据发现是科学数据重新利用的开始,只有准确地发现并定位科学数据,才能顺利获取数据,从而利用数据。数据发现服务是科学数据仓储基于存储与保存的大量科学数据,面向数据需求者提供的服务,通过提供数据检索入口或浏览页面来帮助数据需求者快速、便捷、高效地发现数据。

经调查,除了科学数据银行仅提供基本检索外,国家人口健康数据中心、北京大学开放研究数据平台、复旦大学社会科学数据共享平台、中国学术调查数据资料库、华东师范大学人文社科大数据平台均提供了基本检索和高级检索两种方式。基本检索是利用单一检索项检索,而高级检索是利用布尔逻辑将多个检索项进行组配检索。国家地球系统科学数据中心虽然没有开通高级检索,但向用户提供了配合基本检索使用的筛选项,包括主题词、学科、空间位置、数据生产来源、数据类型、空间分辨率、时间分辨率、空间尺度、卫星/传感器、比例尺、空间观测类别、天文观测波段、天文数据类型、设备类型、空间观测平台、时间范围等,其检索效果与高级检索异曲同工。

不同的科学数据仓储提供的检索项(筛选项)侧重不同,通常与该仓储建设所依据的元数据标准和系统原型有关。例如国家人口健康数据中心设置数据集名称、数据集描述、数据集关键词、数据资源创建者、数据集英文名称、科技资源标识符、DOI、数据资源申请者、创建者ORICD、数据记录内容等10个检索项,均出自《国家人口健康科学数据中心仓储PHDA元数据规范V1.0》。北京大学开放研究数据平台和复旦大学社会科学数据共享平台,采用的系统原型均为Dataverse,因此二者提供的检索项相同,包括标题、作者姓名、作者机构、学科、关键词术语等。

4.3.2 数据获取服务

数据获取,是指数据需求者从科学数据仓储获得数据集实体,不同科学数据仓储的数据获取流程不同,同一个科学数据仓储中不同共享级别的科学数据数据集的获取流程也不相同。国家人口健康科学数据中心将科学数据分成公开共享数据和协议共享数据。对于公开共享的科学数据,数据需求者需注册账号才可在线下载。对于协议共享的科学数据,有两种获取方式。一是在线填写数据申请下载表单,内容包括申请人姓名、机构、联系电话、邮箱等个人身份信息及数据用途等数据使用信息,数据仓储通过申请后即可获取。二是线下获取。部分科学数据出于保密的原因,仅支持线下现场访问,数据需求者需要提前按照提示中的联系方式,提前与管理员联系约定机房地点和时间。国家地球系统科学数据中心开通了数据直通车服务,将公开共享的科学数据集中在一个数据专题,数据需求者注册后即可下载。科学数据银行除了在保护期的科学数据,其余数据集全部开放获取,非注册用户也可直接在线下载数据集实体。北京大学开放研究数据平台、复旦大学社会科学数据共享平台、人文社科大数据平台和中国学术调查数据资料库所有数据都对注册用户开放在线下载通道,其中前三者下载权限由数据提交者在上传数据集时自主设置。总体来说,我国科学数据仓储都开通了线上获取服务,包括注册后直接下载和申请通过后直接下载,而对于涉及被试者个人数据的科学数据,提供了现场获取的方式。

4.3.2 数据存储服务

科学数据仓储提供的存储服务就是面向科学数据生产者提供的服务,不仅为科学数据提供存储空间,还协助数据提交者将科学数据存入其中。2018年国家出台《科学数据管理办法》[18]和《国家科技资源共享服务平台管理办法》[19]两个文件,突出科学数据“开放为常态,不开放为例外”的共享理念,特别指出政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心。并要求各级科技计划(专项、基金等)管理部门应建立先汇交科学数据、再验收科技计划(专项、基金等)项目的机制;项目/课题验收后产生的科学数据也应进行汇交。在这样的背景下,科技部和财政部确定的国家人口健康数据中心、国家地球系统科学数据中心等20个国家数据中心承担了科学数据的存储任务。例如国家人口健康数据中心、国家地球系统科学数据中心分别承担了医学领域和地球科学领域的科技计划(专项、基金等)项目所产生的科学数据的存储任务。存储流程为:①登录系统;②项目负责人在线新建项目信息并提交审核;③审核通过后通知项目责任人,项目负责人在线填写元数据信息、凭证信息并上传全部实体数据;④项目负责人提交审核;⑤管理员进行数据与凭证审核、数据按共享协议发布。

相较于自然科学领域,我国人文社科领域数据管理起步晚、规模小,还没有统一的国家层面的科学数据仓储。基于此,有能力的高校开始建设面向本校师生的科学数据仓储,例如复旦大学的社会科学数据共享平台和华东师范大学人文社科大数据平台,为本校师生产生的人文社科类科学数据提供存储服务,通过线上存储系统进行提交。

北京大学开放研究数据平台和科学数据银行面向全社会全学科的研究者提供数据存储服务,其中科学数据银行更倾向于存储期刊论文的支撑数据。所有科学数据仓储都承诺对存储的科学数据进行备份和长期保存。

4.3.3 数据发布服务

科学数据发布服务是指科学数据仓储将数据信息发布在仓储,供数据需求者使用。发布流程包括数据集描述和质量审核。

科学数据从形式上看,是一组观测数值、实验数据、问卷数据或者计算机代码,如果不对其进行描述,用户则无法明白科学数据的具体含义。因此科学数据的发布页面,不仅有数据集本身,还有相关描述信息。总体来说,数据集出版页面的描述项一般包括数据基本信息、引用信息、统计信息、项目信息以及其他信息。①数据集基本信息是指科学数据集的名称、作者名称、发布日期、数据唯一标识符、摘要、关键词、数据集大小及数量、数据使用说明和数据许可协议等,这是每个科学数据仓储通用的基本描述项目。例如科学数据银行在出版页面提供数据名称、作者名称、DOI号、PID标识编号、出版时间、摘要、关键词、数据量、文件数量等。②数据集的引用信息是科学数据仓储规定的引用格式和致谢格式。科学数据仓储通常会提供引用信息和致谢信息的复制功能。③统计信息是对科学数据使用信息的统计,包括数据集出版页面访问次数、数据集下载次数、收藏量、使用本数据的用户数等。科学数据银行用条形图、扇形图等可视化的方式展示了统计信息。④项目信息是指科学数据产生的项目相关信息。国家级的科学数据仓储承担着学科领域内的财政支持项目的科学数据的汇交任务,所以在数据出版页面有详细的项目信息,例如国家健康人口科学数据中心描述的项目信息包括项目名称、项目类别、项目负责单位、项目起止时间、学科领域、项目相关关键词、项目资助机构、项目摘要、项目负责人姓名、单位等。

科学数据的质量包括形式质量和科学质量。形式质量是指数据集的可理解性、可访问性、一致性、完整性、脱敏性。科学质量是指科学数据的科学性,需要专业人员进行审查。不同科学数据仓储对数据集质量审核的侧重点不同。通常国家级学科领域科学数据仓储对科学数据集的科学质量和形式质量都进行审核,例如国家人口健康科学数据中心对提交的科学数据从形式质量和科学质量两个方面审核,审核科学数据是否齐全、是否符合形式要求、是否符合保密要求、是否符合脱敏要求、是否符合伦理问题要求、是否符合汇交指标等形式质量;审核科学数据是否符合规定的质量要求、是否具有科学价值和使用价值等科学质量。而各学科通用的科学数据仓储通常对科学数据的形式质量进行审查,而对数据集的科学性不做审查和保证,例如科学数据银行从3个方面进行审核:(1)对数据内容是否符合相关规定,制定了《服务条款》[20]《ScienceDB的数据政策》[21]中“关于数据提交者须遵循的行为规范”,主要涉及隐私伦理问题的数据。(2)对元数据和数据文件的一致性和完整性进行检查。(3)对数据文件格式检查,确保有良好的可访问性。此外,机构级的科学数据仓储,例如北京大学开放研究数据平台、复旦大学社会科学数据共享平台和华东师范大学社科大数据平台则对数据集的质量不做保证,其质量完全由数据提交者来保证。例如北京大学开放研究数据平台明确表明,在向公众开放数据前不会对提交的数据进行审查,数据提交者在提交数据前需要按照仓储的数据条款和条件对数据集进行格式化、脱敏化、完整性、可读性和科学性的处理,若在数据共享中产生任何质量问题,由数据提交者全权负责和承担[22]。

4.3.4 特色服务

科学数据仓储除了面向数据生产者和数据需求者开展基于数据生命周期的数据服务外,还基于庞大的数据资源开展适合本仓储用户的特色服务。

(1)辅助性服务

开展数据配套工具服务。国家人口健康科学数据中心向用户提供了数据配套工具服务,按照工具用途将其分成数据采集工具、数据处理工具、数据分析工具、数据可视化工具、数据存储工具、数据管理工具、数据检索工具、数据查询工具,提供了每个工具的摘要、用途、使用许可、获取网址。

开展定题服务。用户向科学数据仓储提交数据需求,科学数据仓储工作人员确定用户需求后,进行数据检索,将检索结果及数据集提供给用户。例如国家人口健康科学数据中心面向用户开展定题服务,流程为:在线填报,注册用户通过“定题服务申请表”填写用户信息和数据用途信息;中心受理,数据中心收到数据申请后根据数据的需求情况联系用户,明确用户的数据需求,数据申请者签署数据共享使用责任书;提供数据,以协议约定的形式为用户提供数据服务。定题服务具有个性化特征,需要仓储工作人员有一定的学科背景和数据检索能力。目前国内开展定题服务的科学数据仓储不多,是科学数据仓储服务发展的方向。

开展专题服务。专题服务是指以专题的形式对科学数据进行组织,方便用户浏览和查询数据。不同类型的科学数据仓储用不同的标准组织数据。学科类科学数据仓储常常以主题为专题组织数据,如国家地球系统科学数据中心[23]按照事件组织数据,形成了伊春3.28鹿鸣矿业尾矿砂泄露治理专题、四川芦山地震救灾专题、中国2020年夏季洪涝救灾专题等;中国人口健康科学数据中心按照学科组织数据,形成中医药、基础医学、公共卫生、药学等专题[24]。而高校科学数据仓储通常按照学院、学科等组织数据。

(2)推广性服务

开展用户培训服务。科学数据仓储是基于数字技术和网络技术搭建的平台,多数服务功能是用户自助实现的,而开展用户培训服务,是帮助用户更好地利用平台管理和共享数据。培训内容通常包括两种,一种是平台使用方法培训,在调研的7个各类型科学数据仓储中,都提供了文字版的仓储使用方法培训,此外,国家人口健康数据中心提供了培训视频,包括如何注册账号、如何注册项目信息、如何汇交数据等。一种是数据使用相关培训,例如复旦大学社会科学数据共享平台向本校师生提供定量研究方法、统计分析、数据处理等培训,既包括体系化的研究方法课程,也包括组织国际合作的暑期班、研究班和培训班。

举办数据竞赛活动。数据仓储举办数据竞赛活动,既可以鼓励用户基于本仓储数据进行研究创新,又可以推广本仓储服务。例如国家人口健康科学数据中心开展人口健康“共享杯”大学生科技资源共享服务创新大赛,面向在校本科生和研究生,发挥人口健康平台的资源优势,提供各种类型的科技基础条件资源支持,为大学生的科学数据挖掘分析、毕业论文选题、科研指导、创新创业等提供支持服务[25]。

开展科普服务。国家级学科领域科学数据仓储是本学科领域的重要信息服务机构,承担着科学普及任务。例如国家地球系统科学数据中心,开设了知识百科栏目,为用户普及关于地球的百科知识。

4.4 服务经费来源

从调研结果来看,我国科学数据仓储的依托单位为科研机构,包括中科院系统的科研院所、国家部委下属的研究院以及教育部系统的高校,上述机构均为国家财政支持的事业单位。因此,可推测科学数据仓储的服务经费大多数来源均源于国家财政。但少数科学数据仓储提供有偿服务,以补充仓储建设经费。例如科学数据银行向注册账户提供20GB免费存储空间,超出空间现阶段暂不计费,并保留定价权,不承诺永久提供免费服务[20]。

4.5 存在的问题

总体来说,我国各类型科学数据仓储发展不平衡。一是自然科学领域科学数据仓储发展快于社会科学领域。受到科技部、财政部政策影响,自然科学领域科学数据仓储建设起步早,发展速度快,平台注册用户人数多,服务功能齐全,服务资金充足;而社会科学领域缺少国家政策和资金的支持,目前还没有国家级的具有强制性的科学数据汇交平台,仅存在依托于个别高校的科学数据仓储,平台功能简单,用户黏度低,服务推广难度大。二是学科领域科学数据仓储发展快于机构科学数据仓储。科学数据具有学科属性,不同学科科学数据的描述与组织角度不同,因此科学数据仓储最早在学科领域出现。近年来,作为科学研究的中坚力量,高校也开始着手建立面向本校学者的科学数据仓储,为“小学科”领域的科学数据提供存储与发布的平台,但还处于发展初期,存在资金来源不稳定、服务功能单薄、用户依赖度低等问题。本研究从具体服务对象、服务项目、服务资金三个方面展开分析。

(1)在服务对象方面,我国更侧重于个人用户,忽视了机构用户。而机构用户十分重要,机构对科学数据的态度与政策直接影响科研人员发布与共享数据的意愿与行动。科学数据仓储直接面向机构开展和推广数据服务,一方面,增加科学数据仓储的用户数量,巩固科学数据仓储的用户群体;另一方面,有助于在我国形成科学数据共享的氛围。机构用户一般包括科研机构、学术出版机构。调研的7个科学数据仓储中,仅有两个仓储面向机构开展服务。国家人口医学科学数据中心面向科研机构开展,为机构提供数据统计和用户统计服务。科学数据银行面向学术出版机构开展服务,助力学术期刊出版与保存数据,扩大学术期刊的影响力。

(2)在服务项目方面,我国科学数据的数据检索、数据获取、数据存储和数据发布等基础服务较为完善,而在附加服务和推广服务等特色服务方面较为欠缺。尤其表现在机构级的科学数据仓储上。例如华东师范大学社科大数据平台、复旦大学社会科学数据共享平台还未开展特色服务。

(3)在服务资金来源方面,资金来源单一,主要是从资助机构、科研机构获取的资金,缺少其他经费来源渠道。

5 我国科学数据仓储服务的对策建议

针对我国科学数据仓储的发展现状和存在的问题,本研究提出以下几点对策建议。

5.1 制定政策,促进各类型科学数据仓储均衡发展

我国各类型科学数据仓储发展不均衡,自然科学领域科学数据仓储发展快于社会科学领域,学科领域科学数据仓储发展快于机构科学数据仓储。而科学数据仓储的发展速度和服务水平,与政策倾斜和资金支持密切相关。从2002年“科学数据共享工程”、2018年国务院办公厅的《科学数据管理办法》到2019年《科技部 财政部关于发布国家科技资源共享服务平台优化调整名单的通知》,无一不体现出国家政策对自然科学领域国家级科学数据仓储的支持。因此,要促进机构级科学仓储和社科领域科学数据仓储的发展,国家应制定相应的数据政策,一方面强制要求科研人员汇交科学数据,为这两种类型的数据仓储发展提供温床;另一方面,制定科学数据仓储建设方案,为科学数据仓储的建设提供政策依据和资金支持。

5.2 承担责任,建设机构级科学数据仓储服务平台

在这样的共享理念与实践的影响下,在高校内也兴起了科学数据共享热潮。高校是科学数据研究的中坚力量,是“小学科”领域科学数据的主要生产者和使用者,因此高校应与国家部门形成互补,在“小学科”领域建设机构级科学数据仓储服务平台,为本校的师生提供存储与发布研究过程中产生的科学数据服务。根据高校的实际情况,可以选择多种建设模式,一是独立建设本校科学数据仓储服务平台,数据存储在本地服务器。二是与科学数据银行这样的通用型科学数据仓储合作建设,利用第三方仓储服务平台,实现本校的数据服务。

5.3 完善服务,提升科学数据仓储的服务影响力

对于我国已在运行与服务中的科学数据仓储而言,应不断完善服务功能,提升科学数据仓储的服务影响力。具体做法有:①拓宽服务对象。在调研中发现,目前机构对象还未引起科学数据仓储的重视,尤其是国家级科学数据仓储应承担该学科领域科学数据长期保存与共享的职能,主动加强与期刊等出版机构和高校等科研机构的联系与合作,将其纳入服务对象之列,为整个机构提供存储和出版数据的便利,提供统计与分析报告,缓解机构因资金和人员短缺造成的数据服务压力和填补数据服务空白;同时,以科研机构为对象提供服务,能够激活科学数据仓储的活力,有助于服务的可持续开展,扩大仓储的影响力。②增加用户数量。用户数量是衡量一个仓储服务绩效与价值的标准之一,如何增加用户数量成为我国数据仓储尤其是机构数据仓储的需要解决的问题之一。与国家级科学数据仓储的强制性汇交制度相比,机构科学数据仓储的自存储制度不能保证用户数据的稳定增长。机构级科学数据仓储应通过宣传和推广,例如举办比赛、开展用户培训、开展科普服务等,吸引用户,增加服务对象的数量。③完善基础服务。在调查中发现,各类型科学数据仓储均开展了数据发现、数据获取、数据存储和数据发布服务,但国家级仓储的服务水平高于机构级仓储,因此机构级仓储应致力于提供简单易用的检索页面、高效便捷的获取方式、用户友好的存储流程、全面细致的数据描述和多途径严审核的数据发布服务。④开展特色服务。如果说开展基础服务是科学数据仓储存在的意义,那么开展特色服务则是科学数据仓储增加存在价值的途径。通过开展特色服务,能够帮助科学数据仓储扩大影响力。目前我国现存的科学数据仓储较少开展特色服务,鉴于此,我国的科学数据仓储,尤其是学科领域中的国家级的科学数据仓储,应该凭借其地位优势、资金优势和资源优势,开展符合本仓储使命的特色服务,例如基于数据资源举办比赛、开展用户培训、举办学术讲座、开展科普服务等。⑤拓宽经费来源渠道。目前我国科学数据仓储的经费来源较为单一,基本来源于财政资金的支持。为了更好地开展高质量的服务,科学数据仓储应适当地开展有偿服务,以拓宽经费来源渠道。

6 结语

我国科学数据仓储服务已经取得了一定的成绩,建立了20个国家级学科领域科学数据仓储,有稳定的用户基础和资金支持,开展了基于数据生命周期的服务项目;高校也着手开始建设机构科学数据仓储,目前“双一流”高校中有5所学校的数据仓储已建设完成并投入使用,虽然注册用户数量少,但数据检索、数据获取、数据存储与发布等基本服务功能已比较完善。但目前,还存在不少问题。基于现状,放眼未来发展,国家应制定相关政策,推动各级各学科领域科学数据仓储协调发展,高校应主动承担责任,建设本机构科学数据仓储,已投入使用的科学数据仓储应拓宽服务对象和资金来源渠道,完善服务功能和提升服务影响力,三方合力推动科学数据仓储服务朝着全面化、特色化、个性化方向发展。