国外科学数据仓储元数据实践调查及启示
2016-05-14完颜邓邓
完颜邓邓
摘 要 论文选取DataCite、Harvard Datavers、3TU.Datacentrum等8个国外科学数据仓储,主要采用网络调查、案例分析法,从元数据标准选择、元数据元素设置、元数据创建方式、元数据质量控制4个方面调查分析国外科学数据仓储的元数据实践,在此基础上得出对我国的启示:根据元数据类型与数据仓储的功能需求选择元数据标准,根据数据资源特征与用户需求设置元数据元素,发展自动元数据创建方式,制订元数据质量控制措施。
关键词 科学数据 数据仓储 元数据
分类号 G254.364
DOI 10.16810/j.cnki.1672-514X.2016.05.019
Metadata Practice Investigation and Enlightenment in Scientific Data Repositories Abroad
Wanyan Dengdeng
Abstract This paper selects 8 scientific data repositories abroad including DataCite, Harvard Datavers, 3TU.Datacentrum, etc.,and utilizes the methods of network investigation and case analysis mainly to research the metadata practice of foreign scientific data repositories from selecting metadata standard, setting metadata element, creating metadata and its quality control. Based on the analysis of foreign practice, it obtains some enlightenments to our country: metadata standard should be chosen according to the requirement of metadata types and function of data repositories; metadata elements be set should according to the characteristics of data resources and users needs; development of automatic metadata creation method; formulation of quality control measures for metadata.
Keywords Scientific data. Data repositories. Metadata.
科学数据(或研究数据)是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。元数据已经成为各个领域信息资源的组织方式,利用元数据的组织功能,对资源的组织整合起到规范作用,实现对资源集合的有序化和保存,并以提供利用为目标[2]。科学数据仓储是为科学数据提供存储空间,以促进数据集开放访问和利用的平台,元数据是科学数据仓储建设的关键问题之一。本文通过调查分析国外科学数据仓储的元数据实践现状与典型案例,总结国外实践经验,以期对我国相关实践以启示。
1 调查对象与内容
根据科学数据仓储建设主体的国别、收录数据的学科类型,选择国外8个科学数据仓储,综合性和学科性数据仓储各4个,如表1所示。登录各数据仓储网站,从元数据标准选择、元数据元素设置、元数据创建方式、元数据质量控制4个方面调查各数据仓储的元数据实践。
表1 调查对象
2 调查结果
2.1 元数据标准的选择
2.1.1 根据元数据标准的类型选择
从描述对象的学科领域进行划分,现有的科学数据元数据标准可分为综合性和学科性元数据[3]103。综合性的科学数据仓储由于包含多学科数据,一般使用与学科无关、可扩展可移植的综合性元数据,形成较固定的元数据描述标准,元数据描述元素除了主题外不反映学科特征。DC是一个与学科无关的通用元数据标准,易于理解和实施,可以方便地根据需求进行扩展,应用范围广泛,因而受到综合性科学数据仓储青睐。
特定学科的数据仓储根据其数据资源的特征与需求选择使用学科元数据,满足具体学科对全面准确描述本学科数据要求。英国数据监护中心(Data Curation Center,DCC)网站列出生物学、地球科学、物理科学、社会科学与人文科学4个学科的共34个元数据标准,如社会科学与人文科学领域的DDI,地球科学领域的FGDC,生物科学领域的Darwin Core,物理科学领域的CSMD等,这些学科元数据标准已经被超过94个不同学科的数据仓储采用[4]。被调查的4个学科数据仓储中有3个采用了学科元数据标准,SND采用了DDI,NCDC采用了FGDC,ALA采用了Darwin Core。
2.1.2 根据科学数据仓储的功能需求选择
制定科学数据仓储元数据方案首先需要考虑该仓储的功能定位[5]。由于每个科学数据仓储的目标定位与功能不同,对元数据标准的需求也不同。因此,在科学数据仓储功能需求分析的基础上选择元数据标准尤为重要。特定的科学数据项目和仓储等需要在建设前期对元数据功能需求进行调查和分析,为设定合理的科学元数据方案奠定基础[3]103。
国外科学数据仓储选择元数据标准时进行功能需求分析,针对数据的属性特征,结合元数据标准的特点与优劣选择出适当的元数据标准,以此保证元数据标准的适用性。ADS在元数据标准的选择与制定前分析了元数据制订的原因和过程、考古数据对元数据的需求,认为用于描述或发现资源的元数据的主要目的是对数据进行全面的描述并易于检索。选择DC元数据作为描述标准,是其标准中集中包含了一些描述和发现资源的核心元素,而分析考古数据特征,元数据类型方面与考古项目相关的三类元数据是项目级元数据、资源级元数据和文件级元数据,因此,确立了包含项目元数据、资源元数据、文件元数据的三级元数据体系[6]。ALA的大部分数据来源于标本馆、博物馆、其他生物馆藏、国家保护机构等,每个机构采用的元数据标准不同,面临的挑战之一是整合元数据标准各异的生物多样性数据[7]。
2.2 元数据元素的设置
元数据标准确定后,要决定从元数据标准中选择哪些元数据元素。国外科学数据仓储的元数据元素是在元数据标准确定的情况下,根据数据仓储的目标定位、数据资源特征与用户需求制订元数据元素,以实用性为目的对元数据标准进行拓展与恰当的粒度划分,既具备满足数据描述需要的元素内容,使数据被准确地描述,又使用户易于理解和使用。RDA、SND分别作为综合性和学科性科学数据仓储,其元数据元素的制定在支持数据仓储目标的实现、资源特征、用户需求等方面具有典型性,本文以其为案例就其元数据元素进行分析(见表1)。
RDA是一个综合性的科学数据仓储,提供了澳大利亚100多个组织、政府机构、文化机构的科学数据,其目标是帮助研究人员发现、获取、再利用科学数据,其元数据描述元素的设置从目标定位出发,包括发现(discovery)、获取(access)、决定(decision)、再利用(re-use)四个方面的内容。RDA考虑到数据来源、类型、格式等的复杂性,其元数据方案采用了基于ISO 2146的RIF-CS schema作为元数据标准,RIF-CS schema提供了一个灵活的结构以适应不同模式、不同标准的数据描述,而且支持不同数据仓储的互操作[8]。RDA的元数据元素由21个组成,区分必备和可选,大多数元素是可重复的。
SND是瑞典的一个人文社科与健康科学的数据服务平台,其目标是组织、维护、传播社会科学、人文科学和健康科学的研究数据,帮助研究人员与研究团体发现、获取数据,为整个研究过程提供支持。因此,选择人文社科领域、支持数据生命周期管理的DDI作为元数据标准。SND根据用户需求与人文社科领域科学数据的特征设置元数据描述元素,在此基础上对DDI进行调整,针对需求增加与删减了一些描述元素,精减了元素的粒度划分,形成24个元素,旨在通过这些元数据元素使科学数据可以被用户理解、二次分析和再利用[9]。元数据元素由3部分组成:项目描述、研究说明和变量描述,分为必备元素和可选元素,仅标题、访问级别、主要调查者为必备元素,其他均为可选元素,具备缺省值。
对上述2个科学数据仓储元数据元素的对比分析,发现二者既有共同特点又有区别。2个科学数据仓储的目标定位、数据特征不同,选择了不同的元数据标准,元数据元素的设置有差异,二者的相同点是元数据元素的分类与设置均体现了自身的目标定位与用户需求,元数据元素丰富,区分必备和可选,注重设置有助于数据发现与再利用的元素。RDA的元数据元素的特色是用于“决定”“获取”和“再利用”数据的元素,如数据的质量和相关性描述、研究人员、组织和项目的声誉、联系方式、权利、许可采样方法、仪器设置等,体现出从用户需求出发,帮助用户快速判断出数据的价值,提供从数据生产者的获取途径,使科学数据得到最大程度地利用。SND的元素中有详细的对研究说明、项目描述、数据研究方法与过程的描述,用于研究说明和项目描述的元素非常丰富,便于数据发现,用户可以通过用于项目描述的元数据元素,发现该项目的其他数据;用于变量描述的元数据元素针对人文社科与健康科学的数据属性和特征,支持数据二次分析与再利用;详尽的访问级别设置帮助用户了解某一项数据的可获取性与获取方式。
表2 RDA、SND的元数据元素
2.3 元数据创建方式
元数据创建方式有手动创建和自动创建两种。调查发现目前国外科学数据仓储主要采取用户手动的方式创建元数据,由科学数据仓储提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写。如SND、NCDC的元数据文件都采用了元数据文件模版的自行创建方式,DataCite采用了元数据生成软件,用户在软件中填写或在下拉列表中选择。随着科学数据数量的增长,为了减轻用户创建的负担,国外一些科学数据仓储开始探索自动和半自动创建的方式,使元数据的创建与提交智能化。RDA提供手动创建和自动创建两种方式,自动创建采用OAI-PMH协议自动、定期地收割元数据,用户只需在系统中输入元数据配置文件,收割机即可对元数据元素进行自动抽取和赋值,系统可以对元数据配置文件进行格式转换,支持多种收割方式,用户可自行选择[10]。Harvard Dataverse采用元数据数据模版复用的方式减轻用户的手动输入,在Dataverse 4.0中用户可自由创建、复制、修改、删除元数据模版,当用户有多个相同领域的数据集与相似的元数据标引时,可以复制元数据模版,在模版中修改必要的元数据标引,而不必重新创建[11]。
2.4 元数据质量控制
国外科学数据仓储在元数据的质量控制方面一是为用户制订元数据创建指南或最佳实践,详细说明创建流程,元数据格式、各元素的标引要求等,提供标引词表的链接,便于用户了解与选择恰当的词,从用户创建之始提高元数据质量,确保元数据的规范性;二是用户提交元数据文件后,由科学数据仓储安排专人进行检查,评估元数据质量,通过审核才能正式提交。目前,国外科学数据仓储的元数据质量控制主要是从完整性、充分性、一致性、准确性等方面提高元数据的质量,减少输入错误与不规范,还没有制定出系统的质量控制机制;主要采用人工方式进行审核评估,还没有应用自动化的评估和控制技术。
SND的元数据文件采用电子表单形式,每项元素旁有该元素的解释说明或提供DDI控制词表的链接,点击即可展开查看,鼓励数据提交者尽可能详细地提供元数据信息,元数据文件填写完成后提交到SND,工作人员进行审核,审核通过后通知提交者上传数据文件。RDA制订的元数据原则第5条指出,好的质量、准确性和及时更新的元数据有利于科学数据的长期获取和利用,应该加强元数据记录的质量控制过程[12]。RDA为用户提供元数据描述的最佳实践,解释说明每一个元数据元素并指导用户如何标引每个元素,用户完成元数据文件后,工作人员帮助评估元数据的质量。NCDC制订了元数据指南草案(DRAFT Guidelines for NCDC Metadata),指南草案中规定了元数据必须维护,必须进行审查与更新,通过两次评审保证元数据的质量,用户创建完元数据文件后应该邀请一个同行从元数据的准确性、充分性和完整性方面进行初步评审,提交到系统后再由专业人员进行最终评审,评审员将评审结果反馈给用户,用户重新修改,直到满足质量要求[13]。
3 对我国的启示
通过上述调查分析,结合我国科学数据仓储元数据实践的现状,国外在以下几方面值得我国借鉴。
3.1 根据元数据类型与仓储功能需求分析选择元数据标准
已通过评审的23个国家科技基础条件平台的科学数据仓储的元数据标准选择与元数据元素设置,主要依据科学数据共享工程技术标准《科学数据共享元数据内容》、国家质量监督检验检疫总局和国家标准化管理委员会发布的《科技平台资源核心元数据》、数据资源的特征与专家知识,对科学数据仓储的功能需求、目标定位、元数据标准类型的考虑还有欠缺。因此,我国科学数据仓储在选择元数据标准时需要进行元数据类型、数据仓储功能需求的分析,结合元数据标准的特点与优劣选择出适当元数据标准。此外,科研基础设施之间的互操作是一个发展趋势,科学数据仓储在选择元数据标准时要注意其共享性和通用性。
3.2 以数据特征和用户需求为中心设置元数据元素
我国科学数据共享工程制订了核心元数据标准,包含各学科数据涉及的共同元素,由于学科数据的差异性,核心元数据标准不能满足具体学科的需求。我国科学数据仓储在使用核心元数据、结合需求进行扩展时,应考虑数据仓储的目标定位,分析数据的学科类别、数据特征与用户需求,以数据特征和用户需求为中心,设置适用的元数据元素,促进科学数据的有效管理与共享。
3.3 发展自动元数据创建方式
国外为用户提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写,积极探索与实践自动、半自动的元数据文件创建与提交方式。半自动、自动的元数据创建方式可以减轻数据提交者手动创建的负担,特别是对于元数据素养不高的提交者而言自动提交的方式能够保证元数据的规范性。我国科学数据仓储应该为用户提供元数据文件模版,发展自动元数据创建方式,减少用户录入,为用户提交元数据提供便利,提高用户提交与共享数据的积极性。
3.4 制订元数据质量控制措施
在元数据互操作、数据共享的环境下,如何保证元数据的质量是一个关键问题,是用户提交数据过程中必不可少的一项措施。借鉴国外,我国的科学数据仓储应从以下两方面加强元数据质量控制:一是在提交者创建元数据文件之前,着手元数据质量控制方案的制订,例如为提交者制订元数据创建指南、制订最佳实践、提供标引词表的链供提交者查看等;二是建立元数据质量评估指标,提交后由专业人员进行审核和评估,并加强专业人员对元数据质量控制素养的培训。随着科学数据量的增长,采用人工评估的效率低,自动评估技术的应用有助于减轻人力,提高评估效率,增强评估的客观性,可以预见自动评估将是未来科学数据仓储元数据质量控制的主要方式。
参考文献:
[ 1 ] 司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66.
[ 2 ] 凌云,徐革,李一平,等.特色数据库建设中的元数据标准选择[J].情报杂志,2006(1):131-133.
[ 3 ] 黄如花,邱春艳.国内外科学数据元数据研究进展[J].图书与情报,2014(6):102-108.
[ 4 ] Disciplinary metadata[EB/OL].[2015-08-02].http://www.dcc.ac.uk/resources/metadata-standards.
[ 5 ] 胡芳.国外典型科学数据仓储实施的元数据方案及启示[J].图书与情报,2015(1):117-121.
[ 6 ] Project metadata[EB/OL].[2015-08-03].http://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.
[ 7 ] The different challenges of integrating data from many sources[EB/OL].[2015-09-07].http://www.ala.org.au/blogs-news/data/the-many-and-varied-challenges-of-integrating-data-from-different-sources/.
[ 8 ] Research data australia content providers guide:RDAbest practices[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/rdabestprac.
[ 9 ] Metadata profile[EB/OL].[2015-08-06].http://snd.gu.se/en/deposit-data/documentation.
[10] Research data Australia content providers guide:Intr-oduction to metadata harvesting[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/harvestintro.
[11] Dataverse management[EB/OL].[2015-08-05].http://guides.dataverse.org/en/latest/user/dataverse-manage-ment.html#dataset-templates.
[12] Metadata content requirements[EB/OL].[2015-08-05].http://ands.org.au/resource/metadata-content-require-ments.html.
[13] DRAFT guidelines for NCDC metadata National Clim-atic Data Center(NCDC)[EB/OL[20150810].http://www.ncdc.noaa.gov/oa/metadata/metadataresources.html
#ds.