APP下载

高校科研数据机构库联盟运行风险及防范对策分析
——以荷兰4TU.ResearchData 为例

2021-03-04

图书馆研究与工作 2021年3期
关键词:数据管理科研人员机构

封 洁

(中南财经政法大学图书馆 湖北武汉 430073)

大数据时代,科学研究向数据密集型范式发展,科研数据的保存、管理和共享受到科技界的高度重视。当前高校中小型科研数据机构库的数据保存和共享能力有限,迫切需要高校之间优势互补,资源共享,走向合作,共同构建高校科研数据机构库联盟,以最大限度地发挥科研数据的研究价值,推动科学研究发展。联盟的形态优势显著,但同时也会让组织成员面临除自身风险外的组织合作风险。因而,预先分析高校科研数据库联盟的运行风险并探讨相应的风险防范对策,可以有效提高联盟运行的成功率,从而更好地为高校科研数据的存储、组织、共享提供平台和保障。由于目前我国还未构建起高校科研数据机构库联盟,本文选取荷兰4TU.ResearchData作为案例进行分析,以期为我国未来构建高校科研数据机构库联盟提供借鉴和参考。

1 荷兰4TU.ResearchData 的发展概况及风险管理指标

荷兰4TU.ResearchData是4TU科研数据中心(4TU.Centre for Research Data,简称4TU.ResearchData),是由荷兰埃因霍芬理工大学(Eindhoven University of Technology)、特文特大学(University of Twente)和代尔夫特理工大学(Delft University of Technology)三所高校共同发起并建立的科研数据联盟,其宗旨是使科研数据得到长期保存和再利用,提高科研数据的可见性、可获得性以及可引用性。4TU.ResearchData为科研人员提供数据管理计划、数据存储与出版、数据管理专业培训等服务,以规范、安全的组织方式保存管理科研数据,致力于科研数据的共建共享和科研数据的管理监护服务。

联盟的风险从其性质来看,可划分为关系风险和绩效风险。具体来看,高校科研数据机构库联盟的关系风险主要是指在管理与合作中所面临的风险,联盟运行阶段的绩效风险可以划分为数据采集风险、数据组织风险、数据存储风险以及数据服务风险。将这五大类风险列为一级指标,对其进行进一步分析,构建风险管理二级指标,如表1所示。

表1 高校科研数据机构库联盟风险评估指标

2 荷兰4TU.ResearchData 的风险识别与分析

2.1 数据采集风险分析

由于科研数据的价值性和利益相关性,科研人员通常不愿意主动共享自己的科学研究数据。荷兰SURF基金会曾对荷兰科研人员的数据存储和访问需求进行调研,发现科研数据的存储和获取仍存在缺乏共享动力和缺乏信任的障碍因素,说明科研人员共享意愿风险仍然存在。4TU.ResearchData采取了一系列措施努力提升科研人员的共享意愿,在一定程度上降低了科研人员的共享意愿风险。如通过完善的元数据标引政策严格保护科研人员的科研数据知识产权,且只有经过科研人员提交许可书,才会正式发布科研数据,以增强科研人员对联盟的信任。此外,4TU.ResearchData积极与汤森路透等专业机构合作,允许数据引文索引(DCI)、DataCite等收割和保存联盟的公开数据或元数据[1]。2018年,4TU.ResearchData的数据集在引导页面嵌入schema.org元数据,使数据集可以在Google中实现检索,以提升数据资源的可见度,扩大研究者的影响力,降低科研人员的共享意愿风险。

4TU.ResearchData支持两种数据采集方式,一是由科研人员自己上传,二是由联盟工作人员协助上传。由科研人员自行上传的数据需要经过数据管理人员的审核才能够存储在数据库中,管理人员对数据格式的规范性进行审查,以保障数据的长久存储和再次利用。并且,联盟制定了完整的数据提交流程和详细的指导手册,帮助科研人员顺利上传科研数据,降低数据提交风险。但由于联盟没有对所提交的科研数据进行内容方面的质量把控,并且数据的采集依赖科研人员的自愿提交,数据的采集效率和完整性存在一定的风险。

2.2 数据组织风险分析

在元数据风险方面,4TU.ResearchData为科研数据的组织制定了较为完整的元数据方案,采用DC元数据标准进行数据组织,包括题名、创建者、创建日期、主题、描述、语言等核心元数据以及扩展元数据。联盟为机构库中发布的所有数据集赋予数字对象标识符(DOI),并且可由科研人员选择为数据集的任意粒度赋予DOI进行标注,从而为该资源提供永久标识,方便未来其他研究者的引用,因而4TU.ResearchData的元数据风险较低。

4TU.ResearchData的数据组织遵循DSA(Data Seal of Approval)所提出的16条数据组织指导原则,获得了DSA的质量认证[2]。该原则从数据生产者、知识库、数据使用者三个层面对存储在知识库中的数据质量进行了标准规范,其中包含了对元数据等数据组织方面的规范要求,说明收录在4TU.ResearchData中的科研数据经过了较好的组织规范和标引,具有较低的数据组织风险。

由于缺少定制元数据、数据分析以及针对特定主题的同行评审这些高级功能,4TU.ResearchData难以与特定的研究社区建立牢固的联系。研究者目前仅把4TU当作一个偶尔使用的工具,而不是每天的研究必备工具。为降低元数据风险和数据分析风险,4TU.ResearchData在其2020—2023年的发展战略中提到,平台目前虽然无法实现复杂的分析管理过程,但应围绕科研过程开展支撑培训与讨论,包括如何使用NetCDF格式、如何促进FAIR数据在不同学科领域实施等内容。

2.3 数据存储风险分析

为保障联盟中数据资源的安全性和可读性,4TU.ResearchData制定了详细的数据资源保存计划[3]。首先对存储的数据格式进行明确的规范,建议用户使用标准且可转换的数据格式来存储数据,以保障数据的兼容性和可读性,为未来的数据迁移做准备。其次,采用安全的存储方式和数据备份计划。联盟的数据资源存储由代尔夫特理工大学的IT部门提供技术支持并进行管理,使用RDID6技术将科研数据资源存储在硬盘上,进行每日同步备份,并且每隔两周将数据资源备份于不同存放位置的磁盘之中,备份的数据会保存一年。此外,为确保数据恢复系统的正常运行,联盟会将根文件系统进行三个月的异地备份。

由于4TU.ResearchData中存储的科研数据数量大且类型复杂,联盟采用OPeNDAP技术存储数据文件,主要采用NetCDF网络通用数据格式,实现OPeNDAP服务器和客户端之间的数据传输。Fedora操作系统主要用于存储联盟的所有元数据信息以及非NetCDF格式的数据集。强大的操作系统和数据中心技术保障了联盟的数据存储和服务,有效降低了联盟的技术风险。

在存储空间方面,4TU.ResearchData通过规定免费存储空间范围和提供在线动态存储服务来保障存储空间的充足。联盟付费成员的研究者每人每年可以免费拥有1TB的存储空间,其他科研人员每年可以享有10GB的免费存储空间,超出部分按每GB4.5欧元收费。此外,4TU.ResearchData为联盟成员的科研人员提供了在线动态存储的数据实验室(Data-lab),可用来存储、处理并共享在研究进程中的科研数据,联盟成员的研究者可免费享有50GB的动态存储空间[4]。但由于联盟存储权限的区分不利于联盟更多科研数据的获取以及树立国家级乃至世界级科研数据机构库联盟的形象,4TU.ResearchData在最新的发展战略中提出要努力建立与荷兰国内高校以及世界上其他高校的合作,获取更多科研数据,这也对联盟现有的存储空间及存储技术提出挑战。

2.4 数据服务风险分析

在科研数据资源的存储利用过程中,联盟制定了完善的数据保存政策和数据存档与获取流程,以详细的元数据描述方案保障数据创建者信息记录的完整性,并要求用户在使用科研数据前签订用户使用协议,严格保护科研人员的知识产权和隐私信息,有效降低了科研数据在共享利用过程中的知识产权和隐私风险。

在科研数据的共享方面,4TU.ResearchData建立了统一的数据管理平台,实现了联盟成员高校之间的数据共享和统一检索。用户在该平台上可以使用布尔逻辑进行检索,或按照数据创建年份、创建者、数据类型、格式、馆藏类别、地理位置等字段进行分类浏览。在联盟官网上进行注册后,用户即可下载包括一般数据集、硕士论文数据集在内的部分科研数据,而联盟成员用户可以下载所有的科研数据资源,较好地实现了联盟内部科研数据资源的共享利用。此外,4TU.ResearchData采用CCO协议(Creative Commons)作为研究人员共享数据集的默认方法,研究者在上传科研数据时,也可以从预定列表中选择许可证,以促进科研数据的共享和利用。

在数据监管方面,4TU.ResearchData以嵌入科学研究全过程为服务目标,其网站的类目也按照科学研究过程进行组织,从科学研究的计划、执行和发布阶段分别指导研究者利用联盟的服务。为应对荷兰科学研究组织(Netherlands Organization for Scientific Research,NWO)、荷兰皇家科学院(Koninklijke Nederlandse Akademie Van Wetenschappen,KNAW)等研究资助机构对被资助科研人员提出的制定数据管理计划要求,4TU.ResearchData为科研人员提供了数据管理计划的模板服务[5],该模板包含数据收集、数据存储和备份、数据文件、数据获取、数据共享与再利用、数据保存与存档六个部分,帮助研究者在正式开展研究之前制定合理的科研数据计划。联盟在科研的执行阶段提供数据检索浏览以及数据的动态存储服务,并在科研项目完成后提供数据存档和发布服务,通过DataCite为数据分配DOI,并且可精细到数据的任何粒度,以保障数据的检索、定位、获取和再利用。但4TU.ResearchData在其制定的2020—2023年发展战略中提到,目前研究者对于科学数据管理的需求在不断扩展,而4TU.ResearchData所实现的服务功能还仅仅停留在刚成立的时候。当前研究者越来越关注科研的整个生命周期以及其所在的特定研究领域,4TU.ResearchData也应重视这些需求。

在数据可获得性方面,4TU.ResearchData自2018年起开始解决其数据获取流程中的功能缺陷问题。计划到2020年,4TU.ResearchData将能够实现提供应用程序编程接口(API),限制访问,链接至Github,使用情况的高级统计,以及自定义元数据等各种改进的功能,以提升数据集的可获得性。此外,为提高联盟管理人员的专业素养,培养更多的数据管理人员,4TU.ResearchData提供数据管理专业课程、研讨会以及系列讲座[6]。其中,“科研数据支持四要素”(Essentials 4 Data Support)是联盟与DANS和SURFSara共同合作开展的培训课程,包括基本概念介绍、规划阶段、研究阶段、用户阶段、科研数据政策法规、数据支撑六个部分,帮助数据管理人员更好地了解科研数据的生命周期,提高科研人员的数据管理和支持能力,降低专业科研数据管理人员不足的风险。

2.5 管理合作风险分析

4TU.ResearchData为荷兰4TU联盟合作计划的一部分,4TU联盟是荷兰四所高校为增强科研实力、培养更多高质量研究者、创造更多有价值的科研成果而合作建立的高校联盟,其成员包括代尔夫特理工大学、埃因霍芬理工大学、特文特大学和瓦赫宁恩大学(Wageningen University)。目前4TU联盟中的代尔夫特理工大学、埃因霍芬理工大学、特文特大学三所高校参与了4TU.ResearchData数据共享联盟项目。4TU.ResearchData由代尔夫特理工大学图书馆负责运作,其组织结构包括项目管理组、项目执行组、支撑组、研究与知识转移部和专家委员会,是目前为数不多的由图书馆主导的科研数据联盟模式[1]。4TU联盟的研究管理委员会(The Research Management Committee)负责监督和管理4TU.ResearchData的合作和运行,协调并监管联盟各成员间的合作关系,以保障联盟的顺利运行[7]。此外,参与4TU.ResearchData科研数据共享联盟的三所高校均为理工科性质的大学,其学科分布具有共同点,便于共同开展科研数据的保存和共享服务,有利于高校间的协调合作。从整体上看,4TU.ResearchData依托4TU高校联盟而建立运行,具有规范的组织结构和监管部门,但并没有制定具体的联盟成员管理计划,如明确联盟成员的绩效考核标准、制定联盟的利益分配计划等,存在一定的管理合作风险,需要引起联盟管理者的重视。

3 我国高校科研数据机构库联盟运行风险防范对策

3.1 数据采集风险的防范对策

(1) 有效提升科研人员共享意愿。提升科研人员的科研数据共享意愿对联盟的顺利运行至关重要。高校科研数据机构库联盟应定期在联盟各成员高校中开展面向全校科研人员的科研数据素养培训,使科研人员可以熟悉科学数据共享平台的使用方法,提升联盟科研人员检索和获取科研数据资源的能力,进而使其体会到科学数据共享的益处。同时,可以设立专人通过对高校科研数据机构库联盟的数据资源及相关数据库资源进行组织加工,向科研人员推送最新的学科前沿信息,帮助科研人员了解高校科研数据机构库联盟的存在价值,从而使其在有效利用他人科学数据的情况下逐渐改变自己的共享意愿。

(2)制定统一的数据采集政策。数据采集是高校科研数据机构库联盟运行中的首要环节,采集的数据质量和采集效率极大影响后续对数据的加工和利用,并且联盟涉及不同高校之间的数据采集合作问题,因而需要制定统一而完善的数据采集政策。高校科研数据机构库联盟的数据采集政策需要对数据采集模式、数据采集标准、质量控制体系做详细规范和控制,并且需要设置相关数据指标检查已采集入库的数据。高校科研数据机构库联盟各成员需要遵循统一的上传资源采用标准,通过同行专家评审和学科馆员审核,对提交入库的资源进行质量控制,必须是具有学术价值,能够代表一定的科研实力和水平的数据资源才可入库。高校科研数据机构库联盟的管理部门需在各成员高校挑选评审专家,对提交内容进行严格审核,以保证联盟数据资源的质量[8]。

3.2 数据组织风险的防范对策

(1)建立完善的元数据管理方案。由于科研数据具有短暂性、临时性、数量庞大的特点,只有经过组织标引的资源才能被用户充分利用和共享[9]。高校科研数据机构库联盟的元数据方案直接关系到联盟能否满足联盟用户的不同需求,影响着联盟数据服务质量及可持续发展。因而需要建立完善的元数据管理方案,满足联盟成员间不同学科、不同用户的元数据需求,使科研数据具有可扩展性数据结果,从而降低联盟在数据组织方面的风险。我国高校科研数据机构库联盟需要在建设前期确立目标和功能定位,针对未来收录的科研数据的学科特征和属性特征,结合各类元数据标准的特点选择适当的元数据标准,以保证高校科研数据机构库联盟元数据标准的适用性。为尽量降低数据标引错误率,减小数据组织风险,高校科研数据机构库联盟的元数据管理方案还应包括对元数据的质量控制。

(2)应用语义分析、挖掘技术和工具。高校科研数据机构库联盟中的科研数据具有动态性和复合性特征,需要根据科研数据的生命周期对数据进行标注,并分析数据集之间和数据集内部的逻辑关系。因而高校科研数据机构库联盟的数据组织应充分应用基于本体的语义化组织,以实现对联盟机构库内科研数据的细粒度描述,将不同学科的元数据方案进行有效交换和互联,进行可共享的语义化描述,为计算机的自动识别处理打下基础。此外,高校科研数据机构库联盟的重要功能之一是为联盟用户提供数据监护服务,将服务嵌入到研究者的科研过程之中,为科研人员提供最前沿的数据信息资源。为实现这一功能目标,高校科研数据机构库需要在数据组织环节将科研数据与其他信息资源进行整合集成,深入挖掘科研数据的语义内涵和关联关系,将科研数据发布为关联数据,从而进行逻辑层面的数据集成。

3.3 数据存储风险的防范对策

(1)建立数据安全保障体系。高校科研数据机构库联盟的数据安全是联盟正常运行的基本保障,也是专家学者高度关注的风险项。联盟内科研数据的安全性不仅涉及到高校科研数据机构库联盟整个管理体系的科学性,也包含联盟管理人员的工作态度和联盟用户的素质等因素。我国高校科研数据机构库联盟应建立完善的管理体系,构建包括数据管理、机房管理、设备管理、网络管理、人员管理的数字资源安全管理制度,提高安全防范意识。建立机房、设备安全管理办法,形成制度化的工作规范,加强安全漏洞检查,定期对软硬件设备进行维护,并对数据进行及时备份,以保在风险发生时将损失降到最小。此外,高校科研数据机构库联盟在运行中还要加强工作人员的安全意识,对机房设备管理人员进行安全知识培训,确保管理人员掌握数据安全方法,提高工作人员的责任心与安全管理能力。

(2)制定科研数据的保存政策。合理保存科研数据是高校科研数据机构库联盟的重要功能之一,科研数据的存储和保存是实现科研数据共享的基础,也是对科研数据进行重用和增值的必要条件。由于高校科研数据机构库联盟所需要保存的科研数据种类多、体量大,在尽可能提升存储技术、扩大存储空间的基础上,制定完善合理的科研数据保存政策十分必要。高校科研数据机构库的数据保存政策首先应明确规范科研数据的保存期限,以免科研数据因为过早被剔除而无法重用。其次,应对超出保存期限的科研数据的处理方式进行规范。部分已经超出保存期限的科研数据可能仍具有很高的利用价值,应进行慎重考量,不能一律剔除。最后,科研数据的保存政策还应对数据保存要求进行规范,以保证数据的可获得性。如匹斯堡大学规定保存的科研数据必须具有足够的细节来保证他人可以检验和复制该科学研究,从而保障数据的真实性和可靠性[10]。

3.4 数据服务风险的防范对策

(1)建立科研数据知识产权保护体系。高校科研数据机构库联盟应该针对联盟的实际情况,制定适合联盟发展的科研数据知识产权保护体系,构建合理的科研数据使用授权许可协议。科研数据的使用许可是对使用人合法使用科研数据行为的规范,无论是免费使用还是有偿使用,都需要对科研数据进行授权[11]。高校科研数据机构库联盟的授权许可可以参照知识共享协议(Creative Commons License)制定联盟的科研数据使用授权许可。此外,高校科研数据机构库联盟还需要明确科研数据发布者的版权信息,在数据提交环节就应对科研数据发布者的版权信息及贡献程度进行详细记录,以保障数据发布和研究者的知识产权。同时,高校科研数据机构库联盟应制定统一的数据引用标准规范,提高科研人员对于数据引用的重视程度,保障科研数据发布者的权利。

(2)提高联盟的整体服务质量。高校科研数据机构库联盟的服务质量对联盟的知名度和长期发展具有十分重要的作用,因而提高联盟的整体服务质量是防范联盟服务风险发生的重要举措。首先,应强化联盟的数据监护服务,使联盟服务有效嵌入科研。从科研数据的生命周期出发,整理记录科研数据处理情况,为科研人员提供面向科研流程全过程的服务,如帮助学者制定数据管理计划,对科研数据进行合理保存和发布,提供数据整合和分析服务等。其次,建立统一的科研数据管理与共享平台,将联盟各成员的科研数据资源整合在该平台,为联盟用户提供统一的数据管理与监护服务。再次,提高联盟管理人员的信息素养,配备专业的科研数据管理人员,为科研数据创建选择元数据标准、为用户提供科研数据管理计划的指导、提供数据分析与数据发现服务等。

3.5 管理合作风险的防范对策

(1)确立资金支持计划保障联盟经费。高校科研数据机构库联盟的建设和运行需要人力、物力、财力的长期投入和支持,联盟的系统配置、平台开发、数据管理、服务提供等均需要资金的投入,因而资金保障是联盟顺利运行的重要因素。当前,国内外知识机构库的经费支持主要有三类,一是国家或者政府的资助;二是高校或研究机构的资助;三是社会机构或企业的捐赠。如莫纳什大学的国家数据服务中心由澳大利亚联邦政府提供经费支持[12];香港科技大学机构库由本校提供经费资助;美国校际社会科学数据共享联盟(Inter-University Consortium for Political and Social Research,ICPSR)由政府机构和私人基金会共同提供资助。而目前国内大多数机构知识库的资金支持主要来源于图书馆经费。由于图书馆经费的有限性,很容易出现经费短缺的现象,甚至造成项目中断等严重后果,因而建立起良好的资金保障机制十分必要。我国高校科研数据机构库联盟的建立可以一定程度上减轻各高校单独建立科研数据机构库的经费负担,形成规模效益,但也需要国家和政府的大力支持,还可在运行中通过会员制度和适当的有偿数据服务来补充资金缺口。此外,积极寻求基金会或其他社会资金的支持,拓宽经费来源,也是保障联盟顺利运行的重要措施。

(2)建立合理的利益分配及协调机制。高校科研数据机构库联盟作为利益共同体,联盟中各成员高校有着共同的利益驱动,也有着各自不同的利益要求,成员间利益分配的平衡与否直接影响着成员参与合作的动力和积极性,进而决定着联盟的成败。高校科研数据机构库联盟中的利益平衡指各成员高校在参与科研数据共建共享活动中,所投入的人力、资金、信息资源等生产要素和所得到的产出是否平衡。在进行成员利益分配时要做到公平合理,遵循平等协商、互惠互利、权责对等原则。在联盟正式开始运行之前,各成员高校需共同确定一个合理的分配方案,将责任、权利、成本风险、利益分配进行预期和规定,并在实际的运行环节中,根据联盟各成员高校的实际贡献程度对分配方案进行适当协商并调整,以保障联盟成员参与共建共享的积极性和主动性。

4 结语

总体来看,荷兰4TU.ResearchData联盟具有共建共享、一体化服务等特点,有效推动了科研数据的保存、共享和再利用。4TU.ResearchData虽然在管理合作、数据采集等方面存在着一定的风险,但其所面临的整体风险较低,是当前较为成功的高校科研数据机构库联盟案例,可以为我国未来建立高校科研数据机构库联盟提供参考。

猜你喜欢

数据管理科研人员机构
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
基于大数据管理的管道智慧检验系统的研发及应用
企业级BOM数据管理概要
科研人员揭示油桃果实表皮不长毛的奥秘
定制化汽车制造的数据管理分析
科研人员破译黑猪肉特征风味物质
CTCS-2级报文数据管理需求分析和实现
企业科研人员激励问题及对策研究
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名