APP下载

元数据技术在海洋观测数据集成中的应用研究*

2014-04-19坤,周

海洋开发与管理 2014年6期
关键词:赤潮观测海洋

宋 坤,周 雪

(1.国家海洋技术中心 天津 300112;2.国家海洋信息中心 天津 300171)

元数据技术在海洋观测数据集成中的应用研究*

宋 坤1,周 雪2

(1.国家海洋技术中心 天津 300112;2.国家海洋信息中心 天津 300171)

文章分析、研究了元数据技术及其发展情况和元数据在数据管理、交换中的应用,并对国际上几种海洋元数据的特点进行了归纳、分析和比较。并在此基础上针对海洋环境观测数据的多源性、多态性、多样性以及其分散性等特点,依托重大项目 “赤潮监测与预警系统集成与示范”对数据通信与集成的需求,分析了元数据在海洋环境观测数据集成中的应用,以实现对海洋观测数据有效的、合理的集成管理及共享。

元数据;数据集成;核心元数据;海洋观测数据

1 引言

当代海洋科学技术的发展明显呈现出大科学、定量化、重过程研究等特点,越来越依赖于系统的、高可信度的、长时间序列的基本科学数据及其衍生的数据产品。海洋科学的基本科学数据来源于海洋科学调查及海洋观测,获取数据的背后是艰苦的工作和高昂的成本,非常珍贵。海洋观测数据作为国家基础性公益科学数据资源的重要组成部分,是国家海洋维权、国民经济建设、海洋生态保护和防灾减灾等领域的科研、规划的基础依据。

海洋观测数据和相关信息包括海洋水文、海洋表面气象、海洋生物、海洋化学、海洋环境质量、海洋地质、海洋地球物理、海洋基础物理、海洋航空与遥感、海洋经济、海洋资源等,数据总量大、涉及范围广。由于数据观测、获取的手段不同,以及其在精度、格式、表述形式、数据结构等方面的差异,海洋观测数据及资料与其他的数据资料相比呈现出了多源性、多态性和多样性等特点。

元数据是对信息资源的规范化描述,是按照一定标准,从信息资源中抽取出相应的特征,组成的一个特征元素集合。这种规范化描述可以准确和完备地说明信息资源的各项特征。考虑到海洋观测数据包含的数据结构复杂,观测要素种类繁多,涉及不同的时间尺度、空间参照系统、坐标系统等特殊性,为有效、合理地实现对数据的集成与管理,引入元数据技术是需求的必然。

2 元数据技术

元数据(metadata)是用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息[1]。其最本质、最抽象的定义是关于数据的数据(data about data)。元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;为分布的、由多种数字化资源有机构成的信息体系提供整合的工具和纽带,实现简单高效地管理大量网络化数据。其主要功能有如下几方面。

(1)元数据是对信息资源的描述,能比较完整地反映出资源的全貌,并为数字化信息资源建立一种机器可理解框架。

(2)元数据能够很好地组织信息资源,建立各信息资源间的关系,为用户提供多层次、多途径的检索体系。

(3)元数据能让用户在不必浏览信息资源本身的情况下,对信息资源有基本的了解和认识,从而决定信息的取舍。

3 国际上几种海洋元数据

国际上已经有一些专门用于海洋领域的元数据,如国际海洋资料和信息交换IODE的MEDI(海洋环境数据目录),欧洲的EDIOS (欧洲海洋观测系统数据目录)以及ODAS(海洋数据获取系统)元数据等[2]。下面具体分析、比较一下这三种海洋元数据。

MEDI(Marine Enviromental Data Inventory)是IODE资料交换系统采用的元数据格式。其使用目录交换格式(Directory InterChange Format),描述对象是数据集,共包括33项,其中目录标识、目录名称、参数、数据中心以及数据集概要描述是必须提供的,其他都是可选项。在MEDI元数据项中,虽然有些是可选项,但是需要提供内容的要求比较高,覆盖面广而细。

ODAS(Ocean Data Acquisition System)元数据是由海洋气候学小组(Commission of Marine Meteorology,CMM)为了建立数据获取系统(包括系泊浮标、漂流浮标、海上平台等)综合元数据库而开发的。其内容从结构上分为标题信息(对整个观测平台的描述,提供明确的平台类型和浮标类型等)和数据描述信息 (对观测平台上不同测量参数所用的传感器特征的描述)。ODAS元数据主要针对海洋观测数据获取系统,以观测平台为描述对象,侧重于观测平台的特征和一些技术参数,缺少对应用元素的描述。

EDIOS(European Directory of the Initial Ocean-observing System)是在欧洲海洋观测、测量和监测系统中投入运行的元数据,以描述原始资料为主,侧重对观测方法、观测内容和使用仪器的精度相关信息的描述。其主要包括观测平台、地理位置、仪器、调查参数、观测计划信息和质量管理体系和有关数据的联系信息等。EDIOS元数据侧重描述调查资料、重视资料的质量,地理位置的描述也比较全面。

4 海洋核心元数据应用

4.1 海洋核心元数据组成

元数据可以分为两个层次,即全集元数据和核心元数据。全集元数据是对数据集进行的全面描述。核心元数据是表示唯一标识信息单元文档所需要基本的最少数量的元数据元素和元数据实体。核心元数据在基本的最少元数据元素集合的基础上,完整地描述数据集最重要的信息,满足元数据的完整性。

本研究所设计的海洋观测数据核心元数据模型主要根据国家海洋局发布的海洋行业标准《海洋信息元数据》并依托 “赤潮监测与预警数据通信与集成系统”所需集成数据的特点以及后端赤潮预警预报应用系统及用户对数据的需求设计的。“赤潮监测与预警数据通信与集成系统”是实时获取并收集、集成船载现场监测系统、浮标监测系统 (大型深海浮标、生态浮标、哈希浮标、光学浮标等)、岸基站监测系统等海洋环境观测数据,对数据进行初步质量控制建立原始数据库、实时数据库,为赤潮预警预报系统提供实时数据并集成、管理赤潮预报产品、数据分析产品和遥感监测产品等。最终实现对长江口区域的赤潮预警、监控为赤潮灾害应急处置提供有效的信息服务并丰富赤潮监控区的监测手段。

本研究设计的海洋观测数据核心元数据打破了以数据的获取手段及观测平台为基础的习惯数据集成方式,针对赤潮监测、预报的需求,该元数据以观测站位为基础粒度,所以该核心元数据主要由数据标识信息、数据内容信息、数据质量信息、数据发布信息和元数据信息等5个部分组成。此核心元数据能够为后端数据应用、分析处理系统明确的提供数据集覆盖的区域、时间范围;数据集质量;数据集内容及数据集存在形式、获取方法等主要信息。图1为海洋核心元数据基本组成图。

图1 海洋核心元数据基本组成

4.2 海洋核心元数据描述

海洋核心元数据主要由数据标识信息、数据内容信息、数据质量信息、数据发布信息和元数据信息等5个元数据子集组成,既描述了数据集的主要信息、数据质量信息和发布信息,又提供了元数据的格式和创建时间等相关信息[3]。

4.2.1 数据标识信息

标识信息是唯一标识数据集的信息,包括数据集引用、摘要、关键字、数据集安全限制、数据分类和观测站位等。引用、摘要和关键字等元素是显示数据集内容的主要信息;数据分类是对数据所属观测要素类别的说明,如生态、动力、水文、气象等;观测站位明确了观测数据获取的站位信息由设定的站代码表示,每个站位都对应着一个明确的地理位置;用途限制是对数据集适用性的说明;考虑海洋观测数据的敏感性,安全限制用于描述数据集使用的限制,明确哪些用户有权限使用该数据集及使用该数据集需要遵守的相关规定。数据标识信息描述了数据集的基本信息,是元数据的重要组成部分。图2为数据标识信息UML类图。

图2 数据标识信息UML类图

4.2.2 数据内容信息

数据内容信息是提供数据集内容特征的描述信息,关于数据要素的说明,如数据集包含海洋观测要素的类型以及相应要素的名称、单位、精确度等相关内容特征信息。图3为数据内容信息UML类图。

图3 数据内容信息UML类图

4.2.3 数据质量信息

数据质量信息是对数据集质量的总体评价,包括数据覆盖范围、数据质控方法、数据质控标识等。数据覆盖范围是对数据集的时间范围和空间范围的描述,由于连续、长期的海洋观测数据才能被应用于海洋预报等数据分析中,所以需要明确数据集的时间序列及采样频率等;考虑到海洋观测数据的地理空间分布性,空间范围用于描述观测数据的地理位置、采样深度等。数据质控方法是为甄别异常数据所采用的数据质量控制方法;数据质控标识则是在该种质控方法下数据的质控结果的标识。图4为数据质量信息UML类图。

图4 数据质量信息UML类图

4.2.4 数据发布信息

数据发布信息主要描述数据的格式及获取数据的渠道等,包括数据量、数据传输选项和发布单位。数据格式是对数据集文件格式及其所占存储空间大小的说明;数据传输选项则是获取数据的传输路径及方式的说明;发布单位描述了该数据集发布单位及相关责任人的基本信息。图5为数据发布信息UML类图。

图5 数据发布信息UML类图

4.2.5 元数据信息

元数据信息主要用于描述元数据使用的语种、字符集、创建时间以及所依据的标准等关于元数据的主要信息。图6为元数据信息UML类图。

图6 元数据信息UML类图

4.3 海洋元数据应用

本研究的海洋环境数据核心元数据是在“赤潮监测与预警数据通信与集成系统”的研发过程中设计的,并在该系统数据集成、管理、共享中得到了有效地应用。该系统涉及了船载现场监测、岸基站监测、浮标监测等多种观测平台获取的实时数据,主要的观测要素包括海洋动力环境观测要素、生态观测要素、水文气象观测要素等。根据后端赤潮预警、数据应用等对观测数据的需求,本系统基于观测站点为基础粒度的核心元数据实现对海洋环境观测数据的抽取。

在数据处理中心站建立实时数据库服务器、元数据服务器以及数据共享服务器。后端应用系统首先根据数据集的站位代码和数据分类,确定数据标识,进而明确数据集的时间和空间覆盖范围,数据质量信息等,并通过数据发表信息获得可用数据[4]。图7为海洋元数据应用流程。

图7 海洋元数据应用流程

5 结束语

海洋核心元数据是海洋环境观测数据集成、管理及应用、共享的基础。本研究所设计的核心元数据是依据海洋行业标准 《海洋信息元数据》,主要为满足 “赤潮监测与预警数据通信与集成系统”的需求,作为一种精简的海洋元数据模型,为元数据在海洋观测数据集成、管理、共享等领域中的应用提供了一个框架。随着项目的进展、信息产品等不断的集成,还将不断地完善、扩充该元数据以实现各种形式数据、信息产品的集成,并满足更为广泛的数据应用的需求。

[1] 赵文涛,郭晓利.元数据技术研究[J].船舶科学技术,2011,33(增刊):88-99.

[2] 薛惠芬.国际上几种海洋元数据内容剖析[J].国外海洋信息技术,2004(3):25-28.

[3] 孟令奎,李三霞,张文,等.面向水文数据共享的水文核心元数据模型研究及应用[J].水文,2012,32 (1):1-12.

[4] 张英俊,谢斌红,郭勇义.元数据技术在科学数据共享平台中的应用[J].太原理工大学学报,2009, 40(4):341-344.

国家高技术研究发展技术(“863”计划)“赤潮监测与预警系统集成与示范”项目(2007AA092004).

猜你喜欢

赤潮观测海洋
爱的海洋
2018年18个值得观测的营销趋势
第一章 向海洋出发
天测与测地VLBI 测地站周围地形观测遮掩的讨论
可观测宇宙
高分辨率对地观测系统
揭秘韩国流
征子与引征
揭秘韩国流
揭秘韩国流