多学科科学数据仓储元数据方案比较研究
2022-05-30贾欢李泽锋刘越男
贾欢 李泽锋 刘越男
摘 要:科学数据的元数据是开展数据描述组织、加工、出版、利用与服务的重要基础,因而是科学数据仓储建设的核心环节之一。从多学科的角度,参考国际数据仓储认证机构re3data,选取5种科学数据仓储的元数据标准,在概述各种元数据标准的基础上,分别对元数据的基础信息、元数据元素、元数据应用举例以及元数据标准的映射四个方面进行调查及比较分析,以期为我国的科学数据仓储元数据标准的构建及应用提供借鉴。
关键词:科学数据;数据仓储;元数据
Abstract: The metadata of scientific data is an important basis for the organization, processing, publication, utilization and service of data description, so it is one of the core links in the construction of scientific data warehousing. Combined with re3data, an international data warehousing certification organization, this paper selects five metadata standards for scientific data repository from a multidisciplinary perspective. On the basis of summarizing various metadata standards, the basic information of metadata, metadata elements, metadata application examples and the mapping of metadata standards are investigated and compared respectively in order to provide reference for the construction and application of metadata standards for scientific data repository in my country.
Keywords: Scientific data; Data repository; Metadata
1 引言
科学数据(又称科研数据),指在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。[1]科学数据仓储是为科学数据提供存储空间,以促进数据集开放访问和利用的平台。[2]元数据是科学数据仓储建设的核心环节之一,可用于描述科学数据的内容及形式等特征,是对科学数据开展描述、组织、出版等工作的重要工具。[3]
随着学科分化与融合的不断加剧,交叉学科在科学突破和创新中的作用越来越凸显。据统计,最近25年交叉研究获得诺贝尔奖的比例已接近一半(49.07%)。科学数据是交叉科学研究的重要原材料,交叉学科涉及多个学科。因此,从多学科的视角研究科学数据仓储中的元数据方案,为我国相关科学数据仓储元数据方案的制定提供借鉴至关重要。
2 国内外相关研究现状
国内外学者主要从科学数据仓储出发选择元数据标准和直接选取元数据标准两方面进行研究。
2.1 从科学数据仓储出发选择元数据标准。如Greenberg J等介绍了Dryad存储库的元数据最佳实践[4];Prabhune A提出基于NoSQL数据库的自适应元数据管理框架MetaStore[5];Dietrich D描述DataStaR 的元数据体系结构,重点关注促进元数据重用和根据多种标准创建元数据的语义Web组件[6];Curdt C研究地球科学项目数据存储库中的元数据管理[7];Loffler F等研究生物多样性研究中的数据集搜索问题,即数据存储库中的元数据是否反映了学术信息需求[8];Marc DT等评估健康科学数据仓储的元数据质量[9];黄如花和邱春艳从元数据标准的选择、元数据记录的创建、元数据的收割以及元数据的复用等元数据生命周期的不同阶段对Dryad科学数据仓储的元数据管理进行分析[10];完颜邓邓选取DataCite、Harvard Datavers、3TU.Datacentrum等8個国外科学数据仓储,从元数据标准选择、元数据元素设置、元数据创建方式、元数据质量控制4个方面调查分析国外科学数据仓储的元数据实践[2];胡芳从功能目标、元数据元素和元数据方案特点三个维度,分析四个国外典型的科学数据仓储(DataCite、GBIF、DataStaR和OTA)的元数据方案[11]。
2.2 直接选取元数据标准。崔佳伟等对国外现有科学数据仓储相关的元数据标准(选取3个通用的科学数据仓储元数据标准,分别为Dublin Core、DataCite和Dataverse科学数据仓储元数据标准,以及3个生物医学领域科学数据仓储元数据标准,分别为DatA Tag Suite、W3C HCLS Dataset Description和Dryad)的内容设计及实际应用情况进行系统梳理与深入探究。[12]国本文从多学科的角度,调查分析科学数据仓储元数据标准方案。
3 科学数据机构知识库建设调查研究
3.1 调查对象。re3data由德国研究基金会(German Research Foundation,DFG)资助,于2012年秋季上线,截至2022年1月,已有2782个数据仓储在re3data上注册,是全球范围内应用最广泛、发展最快和最“年轻”的国际数据仓储认证机构,[13]本文搜集到包括Dublin Core、DataCite Metadata Schema、Data Documentation Initiative 等在内的元数据标准共27种,如表1所示。结合英国数字化监管中心(Digital Curation Centre,DCC)列举的主要研究领域的科学数据元数据标准,选出以下5种元数据标准(分别为综合、社会与人文、自然科学)作为研究对象,如表2所示。[14,15]
3.2 科学数据元数据标准概述
3.2.1 Dublin Core。都柏林核心(Dubin Core)的第一届研讨会于1995年3月1日—1995年3月3日在美国俄亥俄州的Dublin召开。在都柏林核心元数据倡议的赞助下,都柏林核心于2009年2月作为ISO标准15836发布[16,17]DC包含15个元素,DC中的每个元素都是可选的、可重复的。
3.2.2 DataCite Metadata Schema。DataCite Metadata Schema是由国际联盟The DataCite Consortium制定,此联盟于2009年底成立,现在遍及全球,从欧洲和北美到亚洲和澳大利亚。DataCite的目的是提供与领域无关的服务,以使各学科的学者受益。[18]
3.2.3 DDI-Data Documentation Initiative。数据文档倡议(DDI)是一个国际标准,用于描述社会、行为、经济和健康科学中的调查和其他观察方法产生的数据[19]。
3.2.4 ISO19115。ISO19115元数据标准于2003年完成,由ISO技术委员会(Technical Committee)的地理信息/地球信息科学(Geographic information/Geomatics)专业委员会制定,在2010年被联邦地理数据委员会(Federal Geographic Data Committee,GFDC)认可。[20]ISO19115:2003的状态为撤销状态,[21]已经被修订为ISO19115-1:2014,即Geographic information--Metadata--Part1:Fundamentals。ISO19115-1:2014适用于各类信息资源、信息交流中心活动的编目和数据集与服务的描述。[22]
3.2.5 EML-Ecological Metadata Language。生态元数据语言(EML)是专门为生态学科开发的元数据规范。版本EML2.1.1于2011年发布,是由社区维护的规范。EML定义了用于记录研究数据的综合词汇表和可读的XML标记语法。[23]
3.3 科学数据元数据标准比较分析。本文从元数据的基础信息、元数据元素、元数据应用举例以及元数据标准的映射四个方面对科学数据元数据的标准进行分析。为了行文简洁,下文以简称代替全称,表2中的5种元数据标准的简称分别DC、DataCite、DDI、ISO19115和EML。
3.3.1 基础信息。元数据标准的基础信息如表3所示。
发布国家为多国和美国,如DataCite成员来自10个国家的11个图书馆和研究机构。[11]元数据的标准需要不断修订,DataCite、DDI和ISO19115的修订更为及时,分别为2021、2020和2019年。元数据的版本也在不断更新,如DataCite,最新版本为4.4;EML,最新版本为2.2.0。
3.3.2 元数据元素。元数据元素的总数如表4所示。
综合学科的元数据总数较少,如Dublin Core1有5个,DataCite Metadata Schema有20个。社会与人文、地球科学和生态学的元数据元素较为复杂,如DDI3.0包括12个元数据元素模块。[24]
ISO19115包括13个元数据包,每个元数据包中又有众多元素。在元数据级别方面,有的元数据无级别划分,如DC;有的有级别划分,如DataCite Metadata Schema,分为必选、推荐、可选三种,如表5所示。
3.3.3 元数据应用举例。表6为5种元数据在科学数据仓储中的应用实践举例。有的科学数据仓储不仅使用一种元数据标准,如Dublin Core和DataCite Metadata Schema两种元数据在OpenAIRE仓储中都有应用。
(1)Dublin Core在UK ADS-UK Archeology Data Service中的应用。其元数据分为3种类型,分别为项目级元数据、资源级元数据和文件级元数據。其中项目级元数据的常用格式是Dublin Core,其包含了许多描述性和资源发现的重点元素,提供整个项目的详细概述,包括地理覆盖范围、时间日期、方法、纪念碑和证据类型。ADS的项目元数据、描述以及所对应的DC元素如表7所示,[25]ADS项目元数据元素和DC元素相比,除了微小的差别,即用词的不完全一致,如类似ADS项目的版权(Copyright)对应DC的权限管理(rights)之外,所表述的内涵一致
(2)DDI在ICPSR中的应用。美国高校政治与社会研究联盟(Inter-university Consortium for Political and Social Research,ICPSR)是1962年在美国密歇根大学社会研究所(Institute for Social Research,ISR)建立的高校科研数据机构库联盟。[26]ICPSR是目前世界上最大的高校科研数据机构库联盟,也是世界上最大的社会科学数据与定量研究方法教学资料储存中心,拥有超过250000个社会和行为科学的数据档案。
ICPSR严格执行国际DDI元数据标准。[27]ICPSR根据数据存储者和其他来源提供的信息使用DDI创建研究级元数据记录(study-level metadata),包括Version(版本)、Study Title(研究标题)、Alternate Title(备用标题)、Funding Agencies(资助机构)、Geographic Coverage Areas(地理覆盖范围)、Collection Dates and Time Frames(收集日期和时间范围)等在内的31种元数据元素。[28]
(3)ISO19115在GRIIDC中的应用。GRIIDC团队为墨西哥湾研究人员生成的科学数据构建数据管理系统。GRIIDC数据管理系统为研究人员提供了多种工具来帮助其在项目的整个生命周期中管理数据,它提供ISO19115-2元数据编辑器。[29]
3.3.4 元数据标准的映射。映射是实现元数据互操作的主要方法。映射适合于在元數据记录被创造出来之前,在项目创建的初始阶段应用,是对现有元数据的派生和修改,也可从根本上提高互操作的范围。[30]映射的实质是为一种元数据格式的元素和修饰词在另一种元数据格式里找到相同功能或含义的元素和修饰词。[31]
已与6种元数据建立映射的元数据如表8所示,其中综合学科(DC和DataCite)和社会与人文学科(DDI)之间元数据关系更加密切,如DC和DataCite、DC和DDI、DataCite和DDI之间互相建立了映射关系,ISO19115分别与同为地球科学领域的两个元数据标准(FGDC/CSDGM和DIF)建立了映射。
4 结论与启示
研究发现,相比综合学科,社会与人文、地球科学和生态学的元数据元素较为复杂,部分元数据有级别上的划分,应用实践广泛,综合学科和社会与人文学科之间元数据关系更加密切,互相建立映射关系。研究得出两点启示:一是交叉学科背景下多学科科学数据元数据互操作性有待加强。2020年国家自然科学基金委员会增设交叉科学部,2021年初国务院学位委员会、教育部增设“交叉学科”门类。应加强综合学科、社会科学和自然科学之间科学数据元数据的互操作性;二是注重元数据语义互操作方法的多样化。为增强元数据之间的互操作性,可选择通用性强的元数据如DC,将其作为中间格式,实现其他元数据到它的映射。除了映射之外,语义互操作方法还包括应用规范、元数据注册系统等,应注重元数据语义互操作方法的多样化。
*基金项目:本文系2021年度教育部人文社会科学研究青年基金项目“多领域科学数据元数据互操作方法研究”(项目号:21YJC870005)的研究成果之一。
参考文献:
[1]国务院办公厅关于印发科学数据管理办法的通知[EB/OL].[2022-1-18].http://www.gov.cn/gongbao/content/2018/content_5283177.htm.
[2]完颜邓邓.国外科学数据仓储元数据实践调查及启示[J].新世纪图书馆,2016(05):81-84.
[3]黄如花,邱春艳.国内外科学数据元数据研究进展[J].图书与情报,2014(06):102-108.
[4]Greenberg J,White H C,Carrier S,et al.A Metadata Best Practice for a Scientific Data Repository[J].Journal of Library Metadata,9(3-4):194-212.
[5]Prabhune A,Ansari I,Keshav A,et al.MetaStore:A Metadata Framework for Scientific Data Repositories[C]IEEE.,2016.3026-3035.
[6]Dietrich D.Metadata Management in a Data Staging Repository[J].Journal of Library Metadata,2010,10(2-3):79-98.
[7]Curdt C.Metadata Management in an Interdisciplinary,Project-Specific Data Repository:A Case Study from Earth Sciences[C]Communications in Computer and Information Science.2016.357-368.
[8]F L,V W,B K,et al.Dataset search in biodiversity research:Do metadata in data repositories reflect scholarly information needs?[J].PLOS ONE,2021,16(03)
[9]Marc D T,Beattie J,Herasevich V,etal.Assessing Metadata Quality of a Federally Sponsored Health Data Repository.[J].Annual Symposium proceedings,2016:864-873.
[10]黄如花,邱春艳.Dryad数据仓储的元数据管理[J].图书馆杂志,2014(01):68-73.
[11]胡芳.国外典型科学数据仓储实施的元数据方案及启示[J].图书与情报,2015(01):117-121.
[12]崔佳伟,吴思竹,邬金鸣,等.科学数据仓储元数据标准研究与启示[J].数字图书馆论坛,2019(06):19-28.
[14]List of Metadata Standards[EB/OL].[2022-1-22].https://www.dcc.ac.uk/guidance/standards/metadata/list.
[15]刘峰,张晓林.科学数据元数据标准述评及其通用化设计研究[J].现代图书情报技术,2015(12):3-12.
[16]Dublin Core[EB/OL].[2022-1-23].https://www.dcc.ac.uk/resources/metadata-standards/dublin-core.
[17]Dublin Core? Metadata Element Set,Version1.1:Reference Description[EB/OL].[2022-1-23].https://www.dublincore.org/specifications/dublin-core/dces/.
[18]DataCite Metadata Schema Documentation for the Publication and Citation of Research Data and Other Research Outputs[EB/OL].[2022-2-6].https://schema.datacite.org/meta/kernel-4.4/doc/DataCite-MetadataKernel_v4.4.pdf.
[19]Document,Discover and Interoperate[EB/OL].[2022-2-6].https://ddialliance.org/.
[20]ISO GEOSPATIAL METADATA STANDARDS[EB/OL].[2022-2-7].http://www.fgdc.gov/metadata/iso-standards.
[21]ISO19115:2003 Geographic information-Metadata[EB/OL].[2022-2-7].https://www.iso.org/standard/26020.html.
[22]ISO19115-1:2014 Geographic information--metadata--part1:fundamentals[EB/OL].[2022-2-7].https://www.iso.org/standard/53798.html.
[23]Ecological Metadata Language(EML)[EB/OL].[2022-2-7].https://eml.ecoinformatics.org/.
[24]朱玲.基于内容结构视图的研究数据元数据标准比较研究[J].大学图书馆学报,2019,37(06):78-84.
[25]Archaeology Data Service / Digital Antiquity[EB/OL].[2022-1-25].https://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.
[26]刘尧,司莉.美国高校政治与社会研究联盟(ICPSR)发展经验借鉴——基于1995—2017年年报的深度分析[J].国家图书馆学刊,28(03):12-24.
[27]黄国彬,屈亚杰,王舒.UKDA和ICPSR社科数据发布平台数据管理功能剖析[J].图书情报工作,2017,61(21):40-48.
[28]Metadata[EB/OL].[2022-1-25].https://www.icpsr.umich.edu/web/pages/datamanagement/lifecycle/metadata.html.
[29]ISO19115-2 Metadata Editor[EB/OL].[2022-1-25].https://data.gulfresearchinitiative.org/metadata-editor-start.
[30]宋琳琳,李海涛.大型文献数字化项目元数據互操作调查与启示[J].中国图书馆学报,2012,38(05):27-38.
[31]孔庆杰,宋丹辉.元数据互操作问题技术解决方案研究[J].情报科学,2007,25(05):754-758.
(作者单位:贾欢、李泽锋,郑州航空工业管理学院;刘越男,中国人民大学 来稿日期:2022-04-20)