科学数据发布平台的组织管理机制探析
2022-01-10屈亚杰黄国彬
屈亚杰 黄国彬
(1. 北京舞蹈学院图书馆,北京 100081;2. 北京师范大学政府管理学院,北京 100875)
0 引言
数据密集型科学的发现使得科学数据的价值逐步凸显,在自下而上的数据管理需求和自上而下的共享政策的共同推动下,越来越多地建立了科学数据发布平台。从本质上看,科学数据发布平台是科研人员之间交流的载体与渠道。目前,国内外关于对科学数据发布平台的表述形式多样,主要有“科学数据平台”“科学数据管理平台”“科学数据共享平台”“科学数据监护平台”“科学数据存储与共享平台”“科学数据管理与共享服务平台”等。从广义上看,与科学数据管理有关的项目与服务也在发布平台的范畴之内,它们不直接存储原始科学数据,而是通过收割其他发布平台的数据目录开展各项数据服务;从狭义上看,科学数据发布平台指的是存储、管理与共享科学数据及其元数据的知识库,通过访问平台能够直接获取科学数据本身。相比广义概念,狭义概念的科学数据发布平台直接存储科学数据,在数据采集、分类、描述、质量控制等方面都有具体要求,在一定程度上保证了科学数据的质量。因此,本文采用狭义概念,即科学数据发布平台指的是依托网络数字化技术建立,采集、存储、管理与发布科学数据及其相关描述性文件的数据仓储。
1 研究综述
(1)科学数据发布平台的建设情况调查分析,调研的角度可分为总体调研、单一学科领域调研和单一国家调研。汤子钰等[1]选择了20个国外代表性数据监护平台,对其使用的数据生命周期模型、技术规范、组件、软件工具、功能等各方面进行了全面的调研。姜颖[2]以英国环境领域数据发布平台为调研对象,张莎莎等[3]则选取英国247个科学数据发布平台为研究对象,研究了英国科学数据发布平台的特点。
(2)科学数据发布平台案例分析。王丹丹等[4]以德国社会科学数据管理与服务平台Sowi Data Net|Datorium为例,重点阐释其构建情况、功能与特色以及先进经验。Rousidis等[5]以Dryad科学数据存储库为例,阐释了Dryad的主题元数据元素和数据质量问题。
(3)科学数据发布平台中某方面内容建设的研究,包括数据管理、数据组织、系统选型、元数据等。司莉等[6]分析了国家科技基础条件平台项目下的6家科学数据共享平台在数据组织方面的现状及改进意义 。
(4)科学数据发布平台的比较研究,以国内外比较研究为主。袁梦雪[7]从建设基础和管理过程两个维度对比分析了国内外11个健康医学科学数据管理平台的建设实践。
(5)科学数据发布平台的优化与评价研究。Silva等[8]提出将Dendro(原型研究数据管理平台)与EUDAT B2Share模块进行整合,以实现为研究人员提供从数据准备、描述到存储的简化且完整的工作流程的目标。李赞梅等[9]研究并构建了针对人口健康平台资源的综合评价指标体系,从资源主题、资源质量、数据规模、服务能力、服务成效和来源版权等维度对资源进行综合评价。
建设科学数据发布平台需要考虑选择何种系统软件进行构建、建设的资金从哪些渠道获取、科学数据的采集存储与组织如何开展、平台的检索和使用有哪些注意事项等很多因素。但总的来说包括组织管理、内容建设和功能设计3个层次。现有文献对科学数据发布平台的组织管理问题虽有涉及,但系统探讨的较少。因此,本文将科学数据发布平台的组织管理作为研究重点,以英、美国家建设的科学数据平台为调研样本,探讨平台的组织管理机制。
2 调研对象与方法
re3data是一个汇集全球不同学科与类型科学数据发布平台的注册目录系统,由德国研究基金会资助,于2013年5月正式启动。截至2021年2月28日,共有2 635个科学数据发布平台在此注册。其中,排名前三位的国家分别是美国(1 103个)、德国(435个)、英国(297个)。由于受语言的限制,兼顾平台类型的均衡性,本文选择英、美国家建设较好的8个科学数据发布平台为调研样本,具体情况如表1。笔者采用网络调查法访问各平台,并基于调研结果,从依托软件、建设模式、资金来源和管理政策等4个方面分析其组织管理机制。
表1 科学数据发布平台样本概况
3 组织管理机制内容剖析
科学数据发布平台的组织管理机制指的是为保证平台的顺利建设所需要的前提条件,是平台建设的基础保障,可细分为依托软件、建设模式、资金来源和管理政策。
3.1 依托软件
科学数据发布平台建设离不开系统软件的支撑,这是平台建设的技术基础。当前,可用于构建科学数据发布平台的软件类型主要有商业软件和开源软件。这些软件在商业模式、学科范围、核心功能等方面存在差异,而如何选择适合的依托软件是建设科学数据发布平台时不可忽视的重要问题。
所谓商业软件,指的是作为商品进行交易的软件,所有权属于商业公司,一般需要付费并在严格的商业协议下被授权使用,附有一定年限的技术支持,不提供源代码,基本上不能进行二次开发。例如,Nesstar是由UKDA和NSD(挪威社会科学数据服务局)共同开发的商业软件,能够处理调查数据、多维表、文本资源等,支持数据的检索、浏览、上传与下载、在线分析、数据可视化、数据关联文献等功能。而开源软件,指的是源代码可以被公众使用的软件,其所有权一般属于某个开源团体,用户可以免费使用,虽然没有承诺提供免费的技术支持,但可以通过各种社区和论坛寻求帮助,并且由于提供了源代码,具备开发能力的个人或机构都可以进行二次开发。目前应用较多的开源软件有Dataverse和DSpace。
调研发现,样本平台中只有英国国家数据存储库(UKDA)选择了商业软件,采用Nesstar作为平台支撑,其他平台选择开源软件作为其技术实现方式。例如,奥德姆研究所数据存储库(Odum Institute Data Archive)依托Dataverse建设平台,明尼苏达大学数据存储库(DRUM)依托DSpace建设平台。总体来说,开源软件因其便于开发、节省成本等优点受到平台建设主体的青睐。但是在进行科学数据发布平台建设时,依托软件的选择受到多种因素的制约,包括建设主体的资金情况、平台所存储和管理数据的学科范围、平台拟实现的核心功能情况等,因此平台建设主体应综合考虑。
3.2 建设模式
所谓建设模式,指的是建设者协调分配所需资源的具体方法和形式。从建设参与主体类型的角度,可将平台的建设模式分为自行建设与合作建设。这两种建设模式并无优劣之分,不论何种建设方式都有其优缺点。
自行建设指的是平台建设主体仅有一种类型(如研究机构),该主体自行解决平台建设中可能遇到的技术、资金、管理等方面的问题。这种建设模式的优点是由于不涉及机构之间的协调沟通工作,避免了不必要的沟通协调的麻烦,建设效率较高,而其缺点是资金来源渠道少,在技术和管理工作方面存在挑战。合作建设指的是平台的建设主体有多种类型(如研究机构、科研资助机构、政府部门、基金会组织等),在进行平台建设时多种主体之间相互协作,承担的职责包括提供资金、提供技术支持和提供一般协助等。这类建设方式有两种类型:一是合作建设主体中仅有一个研究机构,平台的具体建设和维护工作主要由该机构负责,其他主体一般是科研资助机构或政府机构等类型;二是合作建设主体中存在多个研究机构,一般会选择某一个研究机构负责平台的具体建设或维护工作,其他研究机构和其他类型主体提供资金、技术或资源方面的协助。不论何种类型,合作建设具有无可比拟的优点,即有充足的资金来源与保障、有成熟的技术支持和管理经验。其缺点是由于多种主体之间需要相互沟通协作,对建设效率产生一定影响。
调研发现,样本平台中仅有明尼苏达大学数据存储库和利兹大学数据存储库选择了自行建设模式,其他平台选择了合作建设模式。明尼苏达大学数据存储库主要依靠学校科研基金的支持,由明尼苏达大学图书馆进行建设;英国数据存储库的建设模式是多个主体合作建设,主要是埃塞克斯大学、经济和社会研究理事会、国家档案馆、联合信息系统委员会等,其中后三者提供资金支持,埃塞克斯大学提供技术支持并负责具体建设和维护[10]。总结来说,对于收录范围不大和服务对象不多的机构级存储库来说,选择自行建设方式能够提高建设效率;对于联盟性质的数据存储库或大型数据中心而言,合作建设的方式有助于获取多个主体在资金、技术及管理方面的支持。
3.3 资金来源
稳定、充足、集中的经费支持是保障科学数据发布平台顺利建设的重要条件之一。那么,能够从哪些途径获取平台建设的所需资金是建设主体必须思考的问题。所谓资金来源,指的是科学数据发布平台建设所需资金的获取渠道。调研发现,平台获取建设资金的渠道主要有科研资助机构资助、政府机构拨款、高校科研基金、其他渠道(如基金会、会员费用)等样本平台的资金来源情况如表2所示。
表2 样本科学数据发布平台的资金来源统计表
3.3.1 科研资助机构资助
不论是学科型科学数据发布平台,还是机构型科学数据发布平台,科研资助机构资助都是其开展建设的主要经费来源。这是因为,一方面,科研资助机构的职责就是为科学研究提供资金支持,而科学数据发布平台是管理科学数据的重要载体;另一方面,很多科研资助机构在其资助政策中明确要求研究人员将产出的科学数据存储在平台中,必然会支持科学数据发布平台的建设。例如,英国科学数据档案存储库主要由经济与社会研究理事会(ESRC)资助建设,同时英国联合信息系统委员会(JISC)、欧盟委员会第七框架计划、环境研究理事会(NERC)、工程与物理科学研究理事会(EPSRC)及生物技术和生物科学研究理事会(BBSRC)等也提供了资金支持[11]。
3.3.2 政府机构拨款
对于国家级科学数据发布平台而言,其经费来源还包括政府机构拨款。这类平台所存储和管理的数据通常是国家大型项目所产出的数据,服务范围一般是面向全国或全球,因而更容易受到政府部门的重视。如管理和分发关于冰冻地区研究而产出的雪、冰、冰川、冰冻地面、气候等科学数据的美国国家冰雪数据中心(NSIDC),该平台的建设受到国家航空航天局(NASA)、国家海洋和大气管理局(NOAA)等联邦机构的资金支持[12]。同时,随着政务公开实践的发展,行政记录数据和事务数据的共享程度逐步提高,政府机构愿意通过科学数据发布平台存储、管理与共享其政务数据,因此会与平台建设者开展合作,相应地也会给予资金支持。
3.3.3 高校科研基金
对于机构型科学数据发布平台而言,高校科研基金是其开展建设的重要经费来源。这类平台一般是由某个高校主要负责建设,建设目标通常是存储、管理和共享本机构内科研人员通过项目或研究产出的科学数据,以提高科学数据的利用价值,为科研人员提供便利,在某种程度上对高校科研能力产生积极影响。基于此,高校在开展经费预算工作时会将部分科研基金用于科学数据发布平台的建设方面。例如,美国明尼苏达大学数据存储库、英国布里斯托大学数据存储库的建设都离不开所在高校科研基金的支持。
除了科研资助机构资助、政府机构拨款和高校科研基金,科学数据发布平台建设的资金来源还包括基金会、会员费用等。如英国布里斯托大学数据存储库的建立还得到了Leverhulme Trust基金会的资助。美国校际社会科学数据共享联盟存储库是由密歇根大学社会研究中心建立,实行会员制管理,目前有750多家科研机构是其会员,除政府机构和私人基金会外,会员费用是其重要的资金来源。
3.4 管理政策
管理政策指的是为促进平台顺利建设及持续发展而制定的关于平台数据资源与用户管理的各项制度与规则。调研发现,样本平台的数据管理政策主要包括数据采集、数据存储、数据访问、用户使用条款及隐私等方面的内容。这些管理政策一方面有助于平台建设者有序开展科学数据管理工作;另一方面有助于用户明晰科学数据的管理流程,提升其对平台的信任度,从而愿意将研究中产出的科学数据存储到相应的平台进行管理。
3.4.1 数据采集政策
采集数据是平台管理或共享科学数据的前提条件,而数据采集政策会对数据来源、数据范围、数据格式、数据采集标准等内容做出相应的规定。如《ICPSR数据收集发展政策》规定,ICPSR主要收集社会学、政治学、经济学、人类学、考古学等人文社科类科学数据;在数据格式方面,ICPSR倾向于收集可在各种计算和技术环境中访问的数据格式,如SAS格式、SPSS格式及Stata格式。非社会和行为研究数据、带有直接标识符的数据、有限访问权的数据等不属于ICPSR的数据收集范围[13]。《UKDS数据收集发展政策》要求采集的科学数据具有高质量、权威性、可靠性等特点,具有重要的科学或历史价值,属于新的数据来源或类型并对国际研究具有价值等[14]。
3.4.2 数据存储政策
数据存储政策会对存储内容、存储方式、存储要求等作出规定。明确的数据存储政策能够为研究人员提交数据提供便利。也能够减轻平台数据管理人员的咨询压力。如《BODC数据存储通用指南》规定,BODC提供多种数据提交方式,包括电子邮件、DVD,CDROM或软盘(Zip或软盘)上的标准邮件、可访问的ftp站点等;提交的数据集必须包含相关描述文件(元数据)[15]。关于元数据,《RDL数据存储指南》规定,其内容应包括数据集标题、创作者、数据集描述(抽象)、项目名称、资助者、授权号、学术科目等[16]。在存储要求方面,《DRDR数据存储指南》规定,除了存储的数据之外,顶级文件夹还必须包含一个名为“readme.txt”的文件,该文件包含数据集清单信息、使用数据所需的任何特定操作系统或软件信息、表格数据的描述信息等。文件格式最好用开放文件格式[17]。
3.4.3 数据访问政策
虽然科学数据发布平台尽可能地促进科学数据的共享、发现与重用,但并不是所有的科学数据都适合完全开放的发布方式,比如有些涉及受试者个人信息的数据就需要设置一定的限制。因而,数据访问政策要对不同级别的数据设置相应的访问条件。如《UKDS数据访问政策》将平台发布的数据分为开放数据、保护数据和控制数据3个级别,并规定了相应级别数据的访问条件。开放数据不要求用户在UKDS注册,但可能需要遵循开放政府许可证(OGL)或知识共享许可协议(CC),而受保护和受控数据除要求用户注册,还会有一些附加条件,如填写特殊许可表单[18]。《DRDR数据访问指南》对受限数据的访问申请做了详细规定:受限数据不提供给个人;接受任何组织的任何申请;当平台管理者收到访问申请后,会检查申请者所提供信息的完整性和是否满足相关条件,如所申请的数据集是否可以通过该存储卡获取、是否提供了可验证的机构信息和机构联系方式、是否有机构签署人等;符合条件的申请者所在机构签署人会收到数据访问协议,签署并返回协议后,平台管理者将会安排对数据集进行安全访问[19]。
3.4.4 用户政策
用户是科学数据发布平台所存储和发布数据的使用者,平台建设过程中除了考虑如何管理数据的问题,也应当对用户予以重视,制定有关用户的相应政策,如《用户使用条款》和《用户隐私政策》。一方面能够规范用户对平台的使用行为,另一方面能够保障用户的合法权益。如《UNC Dataverse使用条款》在用户对象、用户注册、用户提交数据、用户使用数据许可协议等方面做出了相关规定。针对用户注册,要求用户需向奥德姆研究所数据存储库提供准确、完整和更新的注册信息,同时应全权负责个人账户的活动,确保服务密码的机密性,未经其他用户的明确许可,不得使用其他用户的账户[20]。《DRUM用户使用条款》规定了用户在下载或使用数据时应当遵循的一些条款,如用户使用从DRUM获取的数据时应对数据作者标注引用;如果数据需要获得许可,请直接联系数据作者[21]。《ICPSR隐私政策》指出,除非用户向ICPSR提供信息,否则ICPSR不收集除了用户访问平台时自动收集和存储信息之外的任何信息。而平台自动收集和存储的信息主要包括访问平台的计算机IP地址、访问的日期、访问网页、访问者计算机的操作系统、访问平台时使用的Web浏览器版本[22]。
4 对我国科学数据发布平台建设的启示
4.1 我国科学数据发布平台的建设现状
近年来,我国政府部门、高校及研究所等主体在平台建设方面做了很多积极的探索。2013年5月,《国务院关于印发“十二五”国家自主创新能力建设规划的通知》强调,要加快科学数据平台建设,构建科技资源从数据获取、存储、处理、挖掘到开放共享的完整信息服务链[23]。2018年4月,国务院办公厅发布了《科学数据管理办法》,指出国务院科学技术行政部门统筹推进科学数据中心建设与发展,有关科研院所、高等院校和企业等法人单位是科学数据管理的责任主体,按照有关标准进行科学数据采集生产、加工整理和长期保存,确保数据质量[24]。科技部“科学数据共享工程”建设了6家学科性平台,并且复旦大学社会科学数据管理平台、高校科学数据共享平台、北京大学开放研究数据平台等先后建成。
近年来,虽然我国科学数据发布平台发展迅速,但是因处于发展初期阶段,与国外较成熟的科学数据发布平台相比,还存在着诸如资金来源渠道单一、数据管理政策数量不均衡等组织管理问题。具体表现:一是我国科学数据发布平台的建设经费主要来源于国家财政支持。如国家地球系统科学数据共享平台的建设资金来源主要是国家科技基础条件平台建设与运行服务经费。二是数据管理政策数量不均衡。有的平台制定了完善的数据管理政策,基本涵盖数据管理全生命周期的各个阶段,而有的平台的数据管理政策仅涉及某个管理阶段。如地震科学数据共享平台先后制定了《地震科学数据共享中心运行管理规范》《地震科学数据发布规范》等12个标准规范,农业科学数据共享中心仅有1个涉及数据管理的规范。因此,在建设科学数据发布平台时,我国相关主体可借鉴国外科学数据发布平台组织管理的经验。
4.2 我国科学数据发布平台的建设思路
4.2.1 理性选择依托软件
科学数据发布平台的构建方式包括自主开发软件系统、购买商业软件系统和利用开源软件进行二次开发。由于自主开发的难度较大,商业软件系统价格昂贵,建议国内科学数据发布平台优先选择利用开源软件进行二次开发这种构建方式。目前,应用较广的开源软件有Dataverse、DSpace等,这些开源软件各有特点,支持的数据管理功能也存在差异。国内科学数据发布平台的建设者在选择开源软件时,需要结合实际情况,对开源软件在学科范围、核心功能、服务模式等方面进行比较评估,必要时对这些软件进行实地部署测试,以选择适合的开源软件。另外,在二次开发时可适当增加一些本地化功能,如平台与单位统一认证系统的对接、数据申请与审核功能的优化、权限管理更加灵活等。
4.2.2 密切机构合作交流
在建设科学数据发布平台时,无论是采用自行建设模式还是合作建设模式,都离不开多个机构或部门之间的协调配合。在自行建设模式下,虽然平台建设所需的资金、技术等要素都来自于某一个建设主体,但具体开展建设时,依然需要该主体下属的其他部门的帮助和支持。如明尼苏达大学数据存储库主要依靠学校科研基金的支持,由明尼苏达大学图书馆进行建设,但数据管理的全面性超出了任何一个单一的大学单位甚至单一机构的能力,所以该校图书馆努力与明尼苏达超级计算机研究所、明尼苏达信息学研究所等协调合作。在合作建设模式下,平台的建设主体通常包括多种类型,如研究机构、科研资助机构、政府部门、基金会组织等,他们各司其职,或者提供资金支持,或者提供技术指导,或者负责平台的日常维护。其典型的案例是英国数据存储库,由经济和社会研究理事会、国家档案馆、联合信息系统委员会等资助机构提供资金支持,由埃塞克斯大学提供技术支持,并负责具体建设和维护。因此,我国科学数据发布平台在建设过程时,无论是采用何种建设模式,都要积极加强机构或部门间的合作交流,积极寻求如国家自然科学基金委员会或国家哲学社会科学规划办公室的经费支持,或者与单位内的技术部门进行合作,以推动平台的顺利建设。
4.2.3 拓宽资金来源渠道
建设科学数据发布平台时,不论是软件开发、数据处理还是网站设计都需要充足的经费,这是平台建设的基础保障。然而,目前我国科学数据发布平台的建设经费通常来自国家财政支持,存在资金来源渠道单一的问题,一旦国家财政的支持力度减小,平台建设就举步维艰。因此,建议国内科学数据发布平台的建设者借鉴国外平台的相关经验,积极拓宽资金来源渠道,丰富经费获取方式。如除了以申请项目的方式从科研资助机构(国家自然科学基金委员会、国家哲学社会科学办公室等)和政府部门获得经费支持外,还可以通过行业内专业学会、公益基金会寻求建设资金,部分联盟性质的平台建设者可以采用收取少量会员费用的方式。
4.2.4 完善平台管理政策
明确而完善的平台管理政策,为平台建设者在数据采集、分类、描述、质量控制、存储等方面提供指导,也对用户的使用与隐私信息进行了规范,具有重要意义。然而,我国已建成的科学数据发布平台中仅有少数制定了较为完善的管理政策,大多数平台缺乏管理政策,存在管理政策不均衡的问题。因此,建议科学数据发布平台建设者应重视平台管理政策的制定工作,发挥其对平台建设的指导与约束作用。具体而言,完善的平台管理政策应包括数据管理政策和用户管理政策。其中,数据管理政策应对数据全生命周期的各个阶段予以规范,包括数据采集指南、数据分类依据、数据描述标准、数据质量控制流程、数据存储要求、数据访问权限等;用户管理政策主要是关于用户获取使用数据与用户个人信息保护的相关规定,如用户使用条款、用户隐私政策等。
5 结语
本文综合采用文献调研法、网站调研法、比较分析法等,以英、美国家发展较成熟的8个科学数据发布平台为分析对象,探析科学数据发布平台建设的组织管理机制。创新之处在于对科学数据发布平台的组织管理机制内容进行了系统剖析,尽管已有文献对组织管理问题有所涉及,但多集中于某一方面的研究,系统探讨的较少。而本文通过调查分析英、美国家发展较成熟的科学数据发布平台在依托软件、建设模式、资金来源、管理政策等方面的内容,总结科学数据发布平台的组织管理机制,并基于我国实际,提出了推动科学数据发布平台发展的建设策略:理性选择依托软件,密切机构交流合作,拓宽资金来源渠道,完善平台管理政策。在样本对象上,本文选取了英、美国家的8个发展较成熟的科学数据发布平台,后续相关研究可以考虑扩大样本对象,以求研究结果更加全面。