APP下载

海洋综合调查数据集成管理方法研究*
——以广东省近海海洋综合调查与评价数据集集成为例

2013-04-11韩春花耿姗姗杨锦坤

海洋开发与管理 2013年3期
关键词:广东省海洋标准

韩春花,耿姗姗,杨锦坤

(国家海洋信息中心 天津 300171)

海洋综合调查数据集成管理方法研究*
——以广东省近海海洋综合调查与评价数据集集成为例

韩春花,耿姗姗,杨锦坤

(国家海洋信息中心 天津 300171)

文章探讨了海洋综合调查数据集成管理的方式方法,提出不同学科、不同类别的海洋综合调查数据集成管理的关键在于制定统一的数据技术标准、规定统一的标准数据集制作流程、制定严格的质量管理措施和采取恰当的质量控制方法,采用核心元数据方式描述数据,最终形成元数据导航下的具有统一技术标准与格式,并经过严格质量控制的标准化数据集。采用这种思路与方法,笔者对广东省近海海洋综合调查与评价获取的全部原始数据进行了数据集成,并通过制作光盘数据产品,可使用户方便快捷地查询、浏览与使用集成成果。研究成果已被广东省908专项办公室采用,为广东省海洋科学研究、海洋综合管理提供本底数据信息与服务。

海洋综合调查;数据集成;广东省;数据管理

近年来,我国在国家层面及各沿海地区组织开展了多个海洋综合调查与评价项目,获取了大量的调查与评价原始数据。负责具体实施这些项目调查与评价的单位有多家,各自使用的调查设备不尽相同,所执行的调查标准也不完全统一,因而获取调查数据的类型、格式与涵盖的学科更是五花八门、多种多样的,对其进行整编、处理与集成,对数据的后续应用有着重要的意义。尤其对于管理者来说,在进行综合管理与决策时,需要的往往是多源、多种类、多学科数据的集成与显示服务。因此,对海洋综合调查多源数据的集成与管理应用方法研究作用日益凸显。笔者通过对广东省近海海洋综合调查与评价专项获取的各类原始数据进行集成,对海洋综合调查多源数据集成管理方法与过程做了有益的尝试与探讨。

1 集成内容

海洋综合调查获取的数据类型多种多样,涵盖的学科范围也相当广泛。以广东省近海海洋综合调查与评价专项获取的原始数据为例,数据类型既包括二维数据表、仪器自记录的原始数据集,又包括文字班报、图形图像、视频影音等;涵盖的学科包括海洋水文、海洋气象、海洋生物、海洋化学、海洋底质、水深地形、海域使用、海洋经济、海洋统计、海洋综合管理等多个学科。

结合广东省近海海洋综合调查与评价实际,将广东省近海海洋综合调查与评价数据集集成的具体内容概括为六大类,在每大类数据集下又包含小类数据集。

(1)近岸水体环境综合调查数据集,包括:水文、气象、生物、化学、底质等内容;

(2)滨海湿地及其特色生态系统和珍稀濒危海洋动物调查数据集,包括:珊瑚礁生态系统、红树林生态系统、海草床生态系统和珍稀濒危海洋动物调查数据;

(3)海域使用现状调查数据集,包括:海籍调查、海域使用基本情况、海域使用金征缴情况和海洋功能区划数据;

(4)海洋灾害调查数据集,包括:海岸侵蚀灾害调查和赤潮灾害调查数据;

(5)沿海地区社会经济调查数据集,包括:海洋经济、人口与城镇、社会经济调查数据;

(6)近海海洋综合评价数据集,包括:环境容量、环境质量、滩涂围垦变迁、咸潮入侵规律、海洋污染灾害、海岸线利用现状、海岸线开发利用功能分区、渔业资源现状、潜在增养殖区、港口资源、海砂矿产资源、滨海潜在旅游区数据。

2 集成方法

2.1 总体思路

对于调查所获取的原始数据,必须经过专业的甄别、加工整理后方能方便研究者和管理者所使用。对整个数据集成的总体思路如下。

(1)按照不同资料来源进行资料收集,并在资料收集过程中根据实施方案、任务合同书等依据性文件对所收集到的资料进行反复核查、反馈、再补充收集;

(2)给收集到的资料编制统一的编号,制作资料清单目录、进行立卷、归档、备份等,保证原始资料的完整与安全;

(3)对整理后的原始资料进行预处理,包括合并或重新划分数据集、代码添加或转换、经纬度和时间记录形式检查与修改、调查项名称和计算单位检查与修改等;

(4)对预处理后的数据集进行数据分析,对于目前已经具备比较成熟的标准数据记录格式的数据,按照标准数据格式进行标准化与质量控制规范进行处理,形成标准化数据集,对于暂无标准化数据记录格式的数据,按照相关的专业规范进行格式编制、数据整编、质量控制,最终形成标准化数据集、数据库文件及相关说明。

2.2 主要步骤

2.2.1 制定统一的数据技术标准

制定统一的数据标准是数据集成、信息共享、与业务协同的前提[1]。有了统一的技术标准作为依据,数据集成的过程就可以遵循一致的数据标准,不同学科、类别的数据就可以做到数据含义和格式的一致性。针对不同数据的不同特点,编制相关技术标准,包括术语标准、数据元标准、信息分类编码标准和数据交换标准等[2]。在广东省近海海洋综合调查与评价数据集中编制了标准数据集记录格式、基础数据库标准与综合数据库标准、公共代码表 (调查单位、调查船、调查项目、密级代码)、标准数据集命名方法、元数据标准等,以便于使用者在使用数据时只用一套标准便可遍历整个集成数据成果。

2.2.2 制定统一的数据制作流程

为实现集成数据的科学、高效管理,保证集成后的数据信息一致性、兼容性、完整性和准确性,数据的集成过程需遵守一定的原则和规则[3]。结合实际,广东省近海海洋综合调查与评价数据集成的流程如下。

(1)数据预处理。根据汇交的航次报告、实施计划、研究报告等素材,核对资料的真实性、完整性和可靠性。核实数据集中调查单位、调查船、断面号等内容是否齐全、检查格式是否符合汇交格式要求。对有异议或者不符合要求的数据,需与数据源单位相关人员沟通,解除疑惑或令其整改后重新汇交。

(2)格式转换。按照有关数据标准记录格式进行格式转换,在格式转换过程中将 “调查单位”“调查海区”“调查船”“调查项目”等按照公共代码表转换为代码。

(3)质量控制。选择适合的质量控制参数,编制相关质量控制软件,对转换后的标准格式数据进行质量控制或进行人工、人-机交互的质量控制。发现错误数据进行修正,对可疑数据加注质量符,生成质控后标准数据集。

(4)标准数据集命名。按照数据集标准文件命名方法对质量后数据进行文件的标准重命名。

(5)统计数据集时空范围,进行数据集站次数、数据量统计,编写数据集元数据,完成元数据文档的编写。

(6)编写资料处理记录与资料处理报告,由同专业的人员进行交叉审核,最后经专业审核通过后方可完成数据集集成制作。

2.2.3 制定合理的质量管理体系

数据的质量是数据的生命,是保证数据是否可用的重要措施。制定合理的数据管理措施,通过控制数据集成过程控制数据集成成果是一个有效的措施。质量管理体系的建立包含建立体系文件、执行现行有效的标准、确保量值的溯源性、提高人员素质及提供符合要求的环境和设施等内容[4]。

在广东省近海海洋综合调查与评价数据集成过程中,通过执行国家海洋信息现有的质量管理体系认证标准,填写质量认证的相关表格。包括集成过程中的实施方案和评审表、会议记录表、数据资料收集记录表,数据资料交接记录表,资料质量控制表,资料处理记录表、海洋资料处理报告等,各项记录表都严格经过审核,通过控制数据集成的过程控制数据集成的成果。

2.2.4 数据处理质量控制

各类数据的质量控制方案是根据具体数据的属性与其变化特征及各要素之间的制约关系而制定,经过计算机软件反复试验,并与人工审查结果相比较[5]。在广东省908综合调查与评价数据集集成的数据质量控制中,对海洋水文、海洋气象、海洋生物、海洋化学、海洋底质等海洋环境基础数据进行了各数据要素的质量控制[6-10]。采用的主要方法包括:合理性检验、范围检验、尖峰检验、代码检验、梯度检验、良好率百分比检验、图形检验等方法,编制了质量控制程序软件,进行数据的自动质量控制,或采用人工审核、人-机交互等多种方式对原始数据进行质量控制,质控后对质控的要素标注质量控制符,给后续用户利用该数据时提供参考。

2.2.5 制定元数据标准,提取元数据

数据集集成的最终目的是供不同用户所使用,在数据使用过程中,元数据发挥了重要的作用。元数据最本质、最抽象的定义为 “说明数据的数据”,在不同的领域有广泛的应用[11]。元数据标准可分为核心元数据标准和特定功能的元数据标准[12]。在广东省近海海洋综合调查与评价数据集成过程中采用核心元数据标准。用户通过浏览核心元数据,可基本了解数据的来源、时空分布、要素、数据量及数据处理、联系方式等基本信息。用户使用集成数据集时,首先浏览元数据信息,根据元数据信息,找出自己最感兴趣的数据,进而进一步获得成果数据。

根据不同级别的数据集编制相应的元数据。本例中提取的元数据核心内容包括:

(1)实体集信息,具体内容为元数据名称、元数据创建日期、负责单位、电话、联系人。

(2)标志信息,具体内容为数据集名称、数据集创建日期、表示方式、数据集摘要、关键词、数据集联系单位、联系人、联系方式、数据集维护和更新频率、数据集格式及说明、数据集安全级别、语种、字符集、时间采样间隔、数据集类别名称、时空范围、站次数、数据量。

(3)内容信息,具体内容为资源域、要素名称。

(4)分发信息,具体内容为分发单位、联系人、联系方式、分发格式。

(5)数据质量信息,具体内容为数据志说明、数据处理人、处理人联系方式、数据处理步骤、数据源负责人、数据源联系信息。

(6)参考系统信息,具体内容为水深参照系统、投影参数等[13]。

2.3 制作光盘数据产品

为方便集成后的成果数据使用,将所有集成后的成果数据集成到数据光盘中,编制原始数据清单、标准化数据集清单,实现清单与数据的联动,实现元数据与原始数据的联动,即通过数据清单和元数据可以直接浏览原始数据,实现元数据导航下的数据查询检索,方便用户的使用。

通过以上原理和方法对调查数据集进行集成,集成后的数据集不再仅仅是单一的数据文件,而是在统一技术标准下、具有统一标准格式、统一标准命名、并配有数据源说明、处理过程说明及经过质量控制后的标准数据集。

3 结束语

采用以上原理和方法,笔者组织完成了广东省近海海洋综合调查与评价数据集的集成,内容包括近海水体综合环境调查数据集、滨海湿地及其特色生态系统和珍稀濒危海洋动物调查数据集、海域使用现状调查数据集、海洋灾害调查数据集、沿海地区社会经济基本状况调查数据集、近海海洋综合评价数据集六大类数据的集成,集成后的数据集包括6大类、215个小类、567个数据集,总计184 594站次,数据总量为369.09 MB。并形成相应的元数据、资料格式说明、资料处理报告与质量评价报告、站位矢量数据、站位分布图等。制作了广东省近海海洋综合调查与评价数据集光盘查询检索系统,为广东省海洋科学研究、海洋综合管理提供本底数据。

[1] 吴志刚,林宁.信息共享、业务协同的前提:数据标准化[J].信息技术与标准化,2003(1-2).

[2] 刘发军,何方,赵明丽.四大基础数据库数据标准化建设研究[J].信息技术,2010(9):80-82.

[3] 施仲添.城市规划多源数据组织管理的总结与思考[J].城市勘测,2010(6):13-14.

[4] 康寿岭.海洋环境监测数据质量管理[J].气象水文海洋仪器,2003(3):1-6.

[5] 康寿岭.海洋监测数据集成系统概论[J].气象水文海洋仪器,2004(3):1-9.

[6] JI Fengying,WANG Fan.A calibration method of Argo floats based on multiple regression analysis [J].Chinese Journal of Oceanology and Limnolog, 2006,24(2):118-124.

[7] 匡晓迪,郭心顺,范洪涛.CTD资料预处理规范化的探讨[J].海洋技术,2009,28(2):33-36.

[8] 刘小宁,任芝花,地面气象资料质量控制方法研究概述[J].气象科技,2005,33(3):199-203.

[9] 王伯民,基本气象资料质量控制综合判别法的研究[J].应用气象学报,2004,15(Suppl):50-59.

[10]许自舟,宋德瑞,赵辉,等.海洋环境监测数据质量计算机控制方法研究[J].海洋环境科学,2009,28 (3):320-323.

[11]赵文涛,郭晓利.元数据技术研究[J].舰船科学技术,2011,33(Suppl):88-92.

[12]樊隽轩,迟昭利,陈峰,等.元数据标准及其在古生物数据库中的应用[J].地层学杂志,2009,33(4): 391-397.

[13]陈继香,石绥祥,夏登文,等.HY/T 136-2010.中华人民共和国海洋行业标准:海洋信息元数据[S].北京:中国标准出版社,2010.

广东省近海海洋综合调查与评价数据集集成(GD908-JC-01).

猜你喜欢

广东省海洋标准
2022 年3 月实施的工程建设标准
广东省铸造行业协会十周年会庆暨第四届理事会就职典礼成功举行
忠诚的标准
美还是丑?
爱的海洋
广东省海域使用统计分析
第一章 向海洋出发
一家之言:新标准将解决快递业“成长中的烦恼”
广东省10年将投1187亿治水
广东省今后5年将投7226亿建高速公路