国家农业观测数据共享元数据标准研究
2020-03-16樊景超张翔鹤周国民
樊景超 满 芮 张翔鹤 周国民
1 引言
国家农业科学观测工作,包括对土壤、水、肥、气象等农业生产关键要素及农业生物多样性、病虫害等的长期系统动态监测,为推动农业科技创新提供数据支撑,为农业科学研究、生产管理、灾害预警和粮食安全生产提供科学依据。农业农村部从2017 年构建了以11 个数据中心为“塔尖”、456 个观测实验站为“中坚”、4 万多个生态环境国控监测点为“塔基”的“金字塔”式观测监测网络[1],形成了实验观测和定点监测相结合的网络体系[2]。农业基础性长期性科技工作的实施是对农业生产要素及其动态变化进行科学观察研究,明确其内在联系,及其发展规律的重大开创性举措,为农业基础性长期性科学数据监测体系的建成健全了机制并提供了组织保障。
国内外野外观测网络对元数据的建设进行了深入全面的实践研究:美国国家生态观测网络(Nation‐al Ecological Observatory Network,NEON)重点在监测系统中规范了设施设置与指标规定,着力在应对关键科学问题的有效回答[3];全球陆地监测系统(Glob‐al Terrestrial Observing System,GTOS)归定了对象的属性[3];英国的环境变化研究监测网络(Environment Change Network,ECN)[4]对数据传输和共享制定了规范方法。中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)研讨制订了数据分类分级的管理办法,并通过共享系统平台实践这一标准。中国农业科学院农业信息研究所承担观测数据汇聚系统的建设工作,通过近几年的实践不断满足农业不同学科多领域的需求,数据汇交总量稳定上升。农业观测数据如何更好服务科研创新、解决国家重大需求,实现农业基础性长期性科技工作的初衷,共享元数据标准的研制成为下一步亟待开展的工作内容。
2 需求分析
2018 年国家《科学数据管理办法》的颁布,促进农业基础性长期性科学数据的全速发展,在现有农业基础性长期性科技工作门户基础上,形成“数据总中心—数据中心—科学观测试验站”三级网络工作门户。在规范化整理、数字化、质量控制和产品开发的基础上,将已经形成的数据产品对全社会开放共享,实现农业观测数据非涉密数据分级分类的共享服务,提升农业基础性长期性观测工作的影响力。
在基础性长期性科技工作中,数据采集者本身承担着复杂繁重的科研任务,通过表1不难看出,农业观测数据采集是需要符合专业行业工作标准的科研人员才能完成,很多观测数据尤其是野外台站数据的产生具有不可重复性,为保证他们不被误用并长期保持可用,尤其需要在共享环节相应地说明数据产生的方法和条件,特别是数据采集人员在采集过程中,能够有意识的注意到,观测数据不仅仅是为了完成科研任务,更重要的是能够方便数据使用者了解数据采集的时空环境、数据质量的控制标准、数据采集的方法、数据使用的权益机制,这就对元数据技术有了相当高的要求。
表1 国家农业观测指标体系Table 1 National agricultural observation index system
根据元数据标准,在定制期间,会遇到数据颗粒的甄选问题以及延伸到成本计算,不同的用户类型所侧重的数据集不同,关注的数据集范围也不同。核心元数据针对特定类型或特定范围数据集的完备性和适用性不是很高;过细的元数据会给著录者带来繁重的工作量以及心理影响。农业观测数据共享元数据应重点考虑元数据格式规范设计和长期维护的复杂性以及国际化环境和互操作的需要,一般选择复用相关领域现有标准。
3 共享元数据标准研究
3.1 国内外相关元数据标准发展现状
目前,国际上科学数据元数据标准已经从标准制定阶段发展到实际应用阶段,我国元数据标准的研究起步较晚,但也已出具规模,国内相对成熟的元数据标准已展开相关应用。上世纪90 年代以来,影响力较大的通用科学元数据标准有都柏林核心(Dublin Core)、DateCite和Dataverse元数据标准等。
3.1.1 都柏林核心
在90 年代中期,首届元数据科学论坛上正式发布都柏林核心(Dublin Core)数据集[5],我国与其对应的标准为GB/T 25100—2010。Dublin Core 是应为最为广泛,最被科学研究界接受的通用元数据标准,科学数据元数据(Dataverse)①https://dataverse.harvard.edu/是基于此核心数据集诞生的。
3.1.2 DataCite元数据标准
DataCite 国际联盟(the DataCite Consortium)制定了Datacite 元数据标准[6],该联盟的主要目标是支持科学数据存储并将科学数据的地位提升至合法的、可被引用的科学记录,使科学数据更易在网上获取。其创建的DataCite 元数据标准包含一系列核心元数据元素,通过为数据集提供永久性唯一标识符(DOI)以及准确、一致性的描述,辅助科学数据的检索、共享、重用、应用和关联。
3.1.3 Dataverse元数据标准
麻省理工学院研发的Dataverse 元数据标准是以DDI(Data Document Initiative)为原始数据集开发的,根据不同的类型分为不同的区块,包括引用通用元数据区块和学科专有元数据区块。其中,引用通用元数据区块包含引用数据集所需的相关信息,是平台所有数据集的必备元数据区块,适用于描述所有类型和所有学科的数据集;学科专有元数据区块则提供针对某一学科数据的元数据元素,覆盖生命科学、人文与社会科学、地理空间、天文与天体物理和政治学等多个领域。
在科学数据元数据标准发展过程中,更多的学科领域数据平台参与到标准的制作当中[7],这些平台有大量的学科专业数据,所以制定的元数据标准更专注于特定的学科领域[8]。学科领域科学元数据标准有ISO 19115[9]、Dryad①https://datadryad.org/元数据标准[10]、空间地理元数据内容标准CSDGM(Content Standard for Digital Geo‐spatial Metadata)、FGDC 元数据标准、生物多样性领域的Darwin Core 元数据标准、气象学领域元数据标准CF(Climate Forecast)、社会学科领域元数据标准DDI(Data Documentation Initiative)等。
近年来,我国科学数据元数据发展迅速,自2002年科技部主导实施国家科学数据共享工程启动。目前,在我国现用的科学数据元数据标准有以下:(1)GB/T 20533—2006《生态科学数据元数据》、(2)GB/T19710—2005《地理信息元数据》、(3)GB/T 26499.3—2011《机械科学数据第3 部分:元数据》[11]。在农业领域,主要有中国农业科学院提出建立的农业科技信息核心元数据标准框架和农业资源空间信息元数据标准。国家农业科学数据中心成立以来,制定了农业科学数据核心元数据标准,适用于农业科学数据共享、编目、元数据交换和网络查询服务。
我国农业领域关于元数据标准的工作尚未全方位展开。农业科学数据包含的种类具有多维度的特征,具有时间性、季节性的显著特点,依照环境的不用,种类繁杂,而且衍生性能复杂多变[12]。很多观测数据尤其是野外台站数据的产生依据气候、环境等条件不可复制。如何保障这些数据采集质量并采用合适的方式存储,建立农业观测数据的元数据标准势在必行。
3.2 标准结构研究
国家农业观测数据共享元数据标准的研制以科技部科学数据共享工程技术标准、国家农业科学数据共享中心制定的《农业科学数据共享标准体系及参考模型》为主要的指导标准[13],参考国内外相关良好实践作为制定依据。从观测数据的总体结构出发,所有的观测数据都经历采集、存储、汇交、加工整理、应用共享、归档等生命周期过程。
如图1 所示,观测数据元数据包括内容结构、句法结构和语义机构。在图中,每一部分信息都用UML包来表示。每个包(元数据子集)包括一个或多个类(元数据实体),它们可以是特化的(子类)或泛化的(超类)。类(元数据实体)包含若干属性(元数据元素)。类(元数据实体)可以与一个或多个其他类(元数据实体)相关。类(元数据实体)可按需要聚集或重复。
3.2.1 元数据内容结构
元数据的基本组成及其元素描述进行了规范定义,可以使按照层级划分为核心要素以及非核心要素,同时也可以按照属性分区,例如某些为必选要素,某些为可选择性要素以及部分根据条件的不同所选取的要素[14]。主要分为以下几方面:
(1)描述元数据:主要在采集加工时期完成,包括名称、概述、时间、数据质量描述、观测环境等。
(2)责任元数据:主要说明观测数据的来源、产生的具体时间,图1中的观测信息属于责任元数据。
(3)权益元数据:主要说明观测数据的权益属性,例如权益所有者,权益变更说明、权益申明信息等。
(4)安全元数据:主要说明观测数据的安全属性,例如分级信息、法律限制信息等。
(5)服务元数据:用于数据共享服务,并对共享服务相关信息进行描述,主要功能是实现观测数据的共享。
(6)保存元数据:主要说明的是数据在需要长久储存时候所需的条件要素,用于存管某些特定的数据,用作信息输出模型需遵照执行的体系,便于数据在未来的二次使用。
(7)管理元数据:主要贯穿于整个数据的生命周期,涵盖了数据的保持模式、保存介质、数据的安全、是否合理有效备份,联系人等具体情况。
3.2.2 元数据句法结构
句法结构是指元数据内容的格式结构及其描述方式,它对元数据的编码语言和数据格式有直接影响。元数据句法应采用开放的结构,推荐采用较为通用开放的描述句法,如利用XML、SGML、RDF、HT‐ML等标记语言进行置标[15]。
3.2.3 扩展与裁剪原则
元数据的使用重点在于其著录应用中,对于使用者来说理应根据实际情况允许适当的扩展与裁剪。使用者在扩展观测数据共享元数据之前,必须仔细地查阅本标准以及其他由本标准扩展而成的正式规范或标准中现有的元数据元素,确认合适的元数据元素尚不存在。对于扩展的每一个基本数据类型,应定义其数据类型、内容组成及元数据元素。对于扩展的每一个元数据元素,应定义其名称、定义、英文名称、短名、数据类型、值域、约束/条件和最大出现次数,并可以给出适当的例子。
对于著录者来说,如果元数据标准中的元素过多,导致数据著录过程过于烦琐和冗长,势必影响用户上传数据的效率,反而不利于科学数据的共享,因此可以对元数据使用过程中适当裁剪。元数据裁剪的原则应在保障不降低数据资源的揭示程度的前提下,达到减轻著录负担的目的。
4 讨论
共享元数据标准是农业科学数据信息化的理论研究重要组成部分,其制定过程不是一蹴而就的,特别需要在实践过程中通过国家农业基础性长期性科技工作与广大农业科研领域使用者进行反复实践才能实现良好的落地应用,以期为我国农业观测数据共享元数据标准的构建和应用提供理论研究和实践参考。