APP下载

基于大数据的海洋环境监测数据集成与应用

2016-10-25解鹏飞刘玉安朱容娟

海洋技术学报 2016年1期
关键词:监测数据异构虚拟化

解鹏飞,刘玉安,赵 辉,朱容娟

(国家海洋环境监测中心,辽宁 大连 116023)

基于大数据的海洋环境监测数据集成与应用

解鹏飞,刘玉安,赵 辉,朱容娟

(国家海洋环境监测中心,辽宁大连116023)

面对多源异构的海量数据的集成,传统的集成方法和技术无法实现,直到大数据技术的出现才有了可能。应用大数据技术实现多源异构的海洋环境监测数据集成,有利于海洋环境监测数据的共享,避免信息孤岛的出现,同时为数据的分析、挖掘等提供了所需的数据。文中重点讨论了基于大数据和数据虚拟化平台技术,参照ODM2信息模型和MMI ORR本体语义框架来实现多源异构的海洋环境监测数据的集成问题,并在数据集成的基础上,探讨了多源异构数据查询、综合展示应用的实现方法。此研究有利于解决海量海洋环境监测数据管理难题、满足海洋环境科研工作者的大数据需求、实现数据驱动决策、提升海洋环境管理水平。

大数据;数据虚拟化;元数据;ODM2模型;本体语义框架

自20世纪70年代至今,我国的海洋环境监测体系已基本形成,建成了国家(海区)、省(直辖市、自治区)、市、县四级海洋环境监测网络,开展约8 000多个监测站位的现场监测,在我国管辖的300万km2海域开展岸基站、船舶、飞机、卫星、浮标、雷达、智能终端等多种手段监测工作,每年获得各类监测数据(结构化数据)约200余万条,此外还包括:遥感数据(仅国家海洋环境监测中心近几年遥感影像加工产品就接近70 TB),其它业务化系统、实验室、数值模型、档案系统的长尾科学数据,虽然每个数据集合在规模上并不大(一般不会超过1 TB),但这种小数据集合数众多且异构性强,它们汇聚后的规模和复杂性都不容小觑。

海量的海洋环境监测数据(以下简称:监测数据),加上其多源性、多态性、多时相的特性,使监测数据成为了大数据。大数据时代的一个重要任务是监测数据集成,其意义如下:

(1)从数据分析及管理角度来看,这些分散的结构化、半结构化、非结构化的监测数据,蕴藏着大量的信息和知识,但是,目前的海洋监测系统集成一般只是系统的集成,针对数据集成的很少,即使有也只是用传统的关系型数据为主导的集成方案,这种方式不能满足多源异构数据集成和共享的需求,容易导致分析结果缺乏权威性、科学性,最终使管理者的决策缺乏可靠性。

网格技术在实现更深层次、更大范围的资源共享,以及消除数据孤岛方面发挥了重要作用,但对组织成一体的资源如何共享使用上着力不多,在易用性上存在不足[1],云计算和大数据技术采用分布式计算模式,克服了网络计算的缺陷,为海量多源异构数据收集、存储、集成、共享、分析、决策提供了技术保障。

(2)从科研者的角度来看,大数据时代科研工作者已经不再满足利用单一的数据源和分析方法进行研究,而是希望整合来自不同渠道的数据,从而得到一个更加全面与宏观的认识,这意味着数据集成对科学研究至关重要的需求。

(3)从大数据的价值链—大数据的发现(采集、准备、组织)、集成(数据源管理、通用数据表示)、数据探索(数据分析、可视化、决策)[2]来看,大数据集成(Big Data Integration,BDI)起着承上启下的作用,具有非常重要的作用,是目前研究热点之一。著名信息技术研究咨询公司Gartner在其发布的《2013年数据集成工具魔力象限报告》中表示,对集成选项功能完整性的需求在快速上涨[3]。

(4)从科学研究方法论来看,大数据时代,科学研究更多的是“数据驱动的”协作和跨学科的,这就是微软发布的基于数据密集型计算的科学研究第四范式[3]。监测数据的大数据特性和海洋科学研究工作的跨学科性需要大数据技术去解决上述场景中遇到的问题,实现多源异构数据透明访问,统一展示并利用起来。

基于大数据技术对海洋环境监测数据集成相对于传统的数据集成有如下优势:

(1)能够集成多源异构的海洋环境监测数据(包括历史数据和实时数据),并实现数据共享。

(2)大数据环境下,基于数据虚拟化技术,利用双层元数据技术和本体语义框架(海洋相关的本体语义框架有MMI ORR:Marine Metadata Interoperability project Ontology Registry and Repository[8,13],POKM:PlatformforOceanKnowledgeManagement[31],MarineTLO:Top Level Ontology等)来实现对多源异构数据的快速统一的检索。

(3)解决海量数据管理难题,满足海洋环境科研工作者的大数据需求,实现数据驱动决策,提升海洋环境管理水平。

本文的组织结构如下:首先,对大数据集成的4个特性问题与数据虚拟化国内外研究现状展开了研究,提出针对海洋环境监测数据集成的关键问题;针对这些关键问题提出大数据计算模式、数据虚拟化平台、双层元数据、本体主义框架等在海洋环境监测数据集成中的实现思路和方法;最后给出集成大数据集成实现多源异构数据共享、检索、综合展示等应用架构模式。

1 国内外研究现状

面对海量数据的挑战,基于大数据的海量数据集成与应用研究也提到日程上来,从国内外研究成果来看,目前研究主要集中在三方面。

1.1大数据集成的4个特性问题

大数据集成与传统数据集成的区别恰巧体现在大数据的4个特性上[4]。

1.1.1大数据维度—量尽管现有关系型数据库管理工具能处理超量数据所需的突发性需求,但它们并不是大数据背景下各类新使用案例的最佳管理者[5]。处理海量的密集型数据集成问题,一般的解决方法是采用分布式计算模型。

Google提出了云计算的Map/Reduce模型[6],同时,开源的Hadoop[7]为该模型提供了Java实现。由于MapReduce具有可扩展性强、容错性高、编程模型简单、成本低,Hadoop已被广泛应用,成为云计算和大数据领域事实上的标准。

在海洋监测领域,欧洲海洋信息系统(European Marine Information System,EUMIS)实现了海洋和卫星观测、现场观测、模拟数据的搜索、下载,并集成了这些数据[8];美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)综合海洋观测系统(The U.S.Integrated Ocean Observing System,IOOS)也实现了数据整合框架(Data integration Framework,DIF)[9],但此框架只是一个试点项目,集成的数据和适用的用户均有限,2014年2月24日,NOAA宣布了利用RFI(Request for Information)系统实施大数据领域放权[10],此系统得到信息技术产业理事会同意[11],这标志着NOAA也走向了大数据管理的道路;我国的海洋环境监测体系已基本形成,出现了一些海洋集成应用系统,比如“863船载海洋生态环境现场监测集成示范系统(2001AA635010)”、“航空遥感多传感器集成与应用技术系统(2001AA633080)”等。这些系统主要是完成了监测手段的系统集成,而对于综合的海洋环境监测系统和数据的集成考虑较少,特别是针对海量监测数据的集成的技术方法并未考虑。

1.1.2大数据维度—多样性在大数据技术支撑下,数据分析者除可以分析数据库数据外,还可以分析文档、电子邮件、音频和视频等多种类型数据。而集成不同类型数据的关键是使用元数据“标签”,对非结构化数据那些可以被链接的属性进行“标签”,然后链接到数据库中的主键和索引,从而将结构化数据和非结构化数据融合[5]。

除了在大数据中的作用外,元数据可以促进数据集的高效利用,帮助数据管理者有效维护和管理数据,经常用于应用系统之间的交互。国际上已有海洋元数据,如国际海洋资料和信息交换(International Ocean Data Exchange,IODE)的海洋环境数据目录(Marine Environment Data Directory,MEDD),欧洲海洋观测系统数据目录(European Directory of the Initial Ocean-observing System,EDIOS)以及海洋数据获取系统(Ocean Data Acquisition System,ODAS)元数据等[12]。国内,国家海洋局发布了《海洋信息元数据》行业标准,宋坤、周雪等人依据此标准提出了一种精简的海洋元数据模型。

此外,元数据交互管理及知识管理方面也有一些研究和实际应用,比如欧洲海洋信息系统(European Marine Information System,EUMIS)使用基于ontology注册和存储的元数据交互项目MMI ORR来识别和访问诸如近实时、预测和历史海洋观测等分布式数据,此外MMI还采用了观测数据模型(Observations Data Model version 2,ODM2)。国内,Xiong等[14]作了本体技术在海洋生态知识管理方面的应用和研究。

1.1.3大数据维度—速度随着海洋环境监测规模扩大,物联网技术的应用,浮标、在线传感设备等实时传感数据处理要求将与日俱增。

数据实时或近实时处理,是大数据区别于传统海量数据处理的重要特性之一,数据实时处理包括数据的实时采集、计算、查询。

目前,关于大数据研究,主要集中在大数据的存储及分析技术上,实时处理研究很少。Facebook发表一篇利用HBase/Hadoop进行实时数据处理的论文(Apache Hadoop Goes Real time at Facebook)[15]。沈来信、王伟[16]探讨了基于Infobright列式数据仓库和Mysql Cluster分布式集群技术实现大数据的实时并发分析、管理,但是不足之处是Infobright是分析型数据仓库,而对操作性数据不太适合。

传统的数据仓库及Hadoop技术适合大数据的批处理,不太适合流数据的实时处理(如上所述,需和其它技术结合)。对于实时数据的处理,目前可用的解决方案有Yahoo的“S4”,Twitter的“Storm”,Facebook的“Puma”,其中Storm被广泛应用,有“实时的Hadoop”之称。

此外,随着云计算和大数据技术的发展,新的数据虚拟化技术让实时数据集成变得可行,特别是在和数据仓库技术结合的情况下,新兴的内存数据存储技术以及其他虚拟化方法使快速数据集成成为可能,并且不再依赖于数据仓库和数据集市等中间形式的中间形式的数据存储。

在这一新领域内,Hadoop的MapReduce将成为关键的(但并不是唯一的)开发框架[17]。目前可用的数据虚拟化产品有开源的JBoss Data Virtualization 6[18]和Teiid等数据虚拟化系统[19]。

1.1.4大数据维度—真实性结构化数据在数据真实性(数据质量)方面可以通过策略管理、数据提取转换加载(Extract-Transform-Load,ETL)工具去实现。

虽然也可以利用结构化数据质量控制方法去实现大数据质量的控制,比如基于元数据的质量控制方法,ETL等方法。但是大数据的多维特性增加了数据质量控制的难度,传统的方法无法实现海量数据的质量控制,大数据质量的控制应从技术、管理、数据流向控制等多个方面考虑,大数据分析的结果才更加精准、可信、可用,才能更好地发挥大数据在科学研究、管理决策中的作用。目前,关于大数据数据质量方面的研究相对较少,成熟的数据质量控制方法相对较少。

国外,Benjamin T.Hazen,ChristopherA.Boone等人提出了在数据科学、数据分析和大数据的供应链管理(Supply Chain Management,SCM)中监测和控制数据质量的方法,提出了基于统计的过程控制(Statistical Process Control,SPC)的多维度数据质量控制方法,此外还从交叉学科的角度探讨了大数据环境下,数据质量的控制的焦点[20]。国内,宗威等[21]从流程、管理、技术等角度探讨了大数据的质量管理,黄冬梅、陈括等人[22]提出“基于块嵌套循环的海洋大数据质量检验方案选择算法”。

1.2数据虚拟化与大数据集成

数据集成技术经过几十年的发展,如今发展到第四阶段,如图1所示[23]:

图1 数据集成技术发展曲线

传统的数据集成以关系型数据为主,数据集成主要技术依靠于数据抽取转换工具(Extract-Transform-Load,ETL)和数据仓库。大数据时代,集成的对象包括可扩展标记语言(Extensible Markup Language,XML)、非关系型数据库(Not Only SQL,NoSql)、文档、视频等多源异构数据,集成技术因此发生了很大的变化。

数据虚拟化是大数据集成的解决方案,虽然van derlans等人认为数据虚拟化与数据集成有区别,但也确认了多数情况下,数据虚拟化是为了数据集成[24]—数据虚拟化方案可以向数据使用者提供一个实时集成的数据视图,这个视图将来自不同的数据整合在一起并转换成所需要的格式。

可以获取的虚拟化平台及方案,开源方面有Pentaho、JBoss、Altamira等多家供应商,商业领域有Informatica、IBM、Oracle、Terracotta等供应商[25]。以这些平台为基础,有不少应用平台,比如:Oracle的大数据平台能够完成多源异构数据的采集、集成、分析、决策等功能[26];Informatica Big Data Edition专门针对大数据平台提供了无需编程整合各种数据的功能[27];Altamira公司的Lumify是一个开源的大数据整合、分析和可视化平台,可以以2D、3D和GIS方式显示分析结果[28];SnapLogic Elastic Integration Platform是一个可以集成各种类型的大数据平台,包括:物联网、应用app、企业系统、移动等多种数据类型[29]。

这些大数据集成平台基本都基于Hadoop大数据技术,采用数据虚拟化技术对多源异构的海量数据进行整合,且侧重点有所不同。此外集成的大数据模式较少,大多数只有MapReduce和Hive,没有流式、迭代等其它计算模式。“大数据集成的4个特性”一节提到的相关学术研究,主要集中在数据集成技术或集成模型方面,针对大数据平台的集成研究也相对较少。

1.3大数据集成的相关应用

目前业界已成功搭建了很多基于云环境的大数据计算平台,主要专注于大数据技术采集、存储、集成、分析与挖掘、可视化、大数据与云计算深度融合、人工智能等多个方向。

大数据可以应用于互联网、金融、环保、健康、生物等多个行业。Vizzuality与GBIF和EOL合作的“Heatmapping Biodiversity”项目整合了超过2亿条以上的生物多样性数据,且能实现在全球地图上自由浏览;百度、新浪、淘宝等知名公司应用大数据技术于客户行为分析、应用推荐、商业决策等,这都离不开数据集成。这些都表明,大数据技术已经相对成熟,在国内外得到大规模的应用。但是,在海洋环境保护领域,大数据集成应用还是相对较少。

2 大数据集成关键问题与海洋环境监测数据集成现状

2.1大数据集成关键问题

通过对大数据集成国内外现状的深入分析,可以得出以下几个需要解决的关键问题。

2.1.1大数据计算模式大多数据虚拟化平台只使用了MapReduce等计算模式,此模式不适合数据写入频率高、实时性要求高的应用。为此需研究如何在数据虚拟化平台上集成更多的计算模式(Storm等流式计算模型,适应于实时数据处理,比如传感器数据的实时处理;Spark适合迭代运算频率高的科学计算和应用)以适应不同的应用情况。

2.1.2元数据相关技术国内,海洋监测相关的业务系统很少用到数据集成技术,而欧美一些国家在海洋监测方面有较成熟的数据集成框架,在某些领域还应用到本体语义框架。如何扩展并应用这些元数据技术到数据虚拟化平台中去,以解决多源异构数据的集成及集成中遇到的数据质量、系统间交互问题,是一个研究重点。

2.1.3数据模型构建数据虚拟化平台主要是通过数据模型和配置信息构建虚拟数据库,从而实现访问层对多源异构数据的访问。所以构建一套适用于海洋观测的统一数据模型,显得尤为重要,这是一个需要解决的关键问题。

2.2海洋环境监测数据集成现状

从1.1.1节可知,目前海洋环境监测系统的集成,主要是完成前端监测手段的系统集成,而对于综合生综合的海洋环境监测系统和数据的集成考虑较少,特别是针对海量监测数据的集成的技术方法并未考虑。

国外在海洋数据集成方面相对国内来说要成熟些,EUMIS,IOOS均有自己的数据整合框架和数据模型。比如EUMIS开发了MMI ORR本体语义框架和ODM2信息模型。IOOS也有自己的DIF数据整合框架。

但是基于大数据技术对多源异构的海量海洋环境监测数据的集成框架,目前未曾报道过。

从1.2节可知,Informatica、Pentaho等众多的数据虚拟化平台使用了大数据技术,用于大数据的集成、分析、可视化展示等应用。

可见,借签国外海洋环境数据集成框架和相关数据模型,把这些框架和模型集成到数据虚拟化平台,并借助于数据虚拟化平台对海洋环境监测数据的集成是可行的。

3 海洋环境监测数据的集成框架、模型及数据的选择

3.1集成相关的框架和模型

海洋环境监测系统主要有海洋生态环境监督管理系统、航空遥感监测系统、卫星遥感监测系统、水下无人自动监测站监测系统、生态浮标监测系统、海洋环境常规监测业务系统、海洋常规水文气象观测业务系统等。由于这些数据的时空分布、监测频率、数据格式、空间观测尺度及、数据复杂程度等都不一样,让海洋环境监测数据的数据集成变得难以实现。这也是目前海洋监测系统的集成大多数是前端系统的集成,而在综合性的海洋观测数据上的集成很少的原因。

但是大数据技术(Hadoop、Spark、…)、数据虚拟化平台技术(Pentaho、Informatica、…)、海洋元数据交换标准(EDIOS、ODAS、IOC、…)、海洋观测数据集成相关框架(DIF、MMI ORR,POKM、MarineTLO、…),使得海洋环境监测数据的集成成为可能。

本体语义框架,可以解决海洋监测领域内的概念和术语上的分歧,使不同的用户之间可以顺畅的沟通和交流并保持语义等效性,同时让不同的工具软件和应用系统之间实现互操作,有助于集成系统的构建。MMI ORR框架如图2所示,MMI ORR和IOOS的DIF可以作为海洋环境监测数据集成的参考框架。

图2 语义框架主要组件的协作图

MMI ORR是面向海洋观测的本体主义框架,其使用的ODM2信息模型(如图3所示)在许多观测系统中用到,比如:CUAHSI/HIS,EarthChem,CZOData,IEDA,IOOS(Integrated Ocean Observing System)等,ODM2包含了现场观测数据、采样数据、传感数据、地理空间数据等常见观测系统的数据模型,这正好满足了目前海洋环境监测数据常见观测数据类型。此外,ODM2还有良好的可扩展性,可适应于具体的观测系统数据集成应用。

图3 ODM2观测信息模型简图

本研究将根据国内海洋观测数据的特征,参照一些开源数据集成框架和数据模型,对选用的MMI ORR框架和ODM2模型进行扩展,并集成到选用的大数据虚拟化平台中去,最终实现大数据技术背景下,海洋环境监测数据的集成。

3.2海洋环境监测数据的选择

根据ODM2信息模型的分类,从目前国家海洋环境监测中心的数据库中选择有代表性的数据进行数据集成研究。

这些数据将包括观测数据(ODM2中的采样等数据)、浮标数据(ODM2中传感数据)、遥感数据和地理信息系统数据(ODM2的地理空间数据)及其它数据(ODM2其它类型数据)。

由于数据量大、类型复杂,研究将从海洋环境监测相关数据库中的生态环境、污染源、海洋灾害与风险、社会调查、监测资料(监测报告、遥感影像、图像、视频、专题图件等)、浮标监测数据中选择现场观测数据、实时观测数据、地理观测数据作为数据集成对象(包括半结构化、非结构数数据,比如图片、影像、档案资料)。

4 拟解决关键问题的技术研究

4.1大数据计算模式集成

Hadoop的MapReduce计算模式只适合离线历史数据的批处理情形,在监测数据集成时,经常需要对表1中的计算模式进行选择。

表1 典型大数据计算模式与系统

需根据现场观测、实时传感和遥感数据中不同的数据处理需求,选择需要的大数据计算模式,然后利用Mesos、Yarn等资源管理框架把这些模式集成到数据虚拟化平台中去。

4.2元数据研究

元数据的“标签”功能可以很好地把多源异构的监测数据有效地联系起来,从而实现大数据集成,元数据包含4个层次,用户数据→元数据(模型)→元模型→本体(元—元模型),因此研究内容主要如下。

4.2.1元数据标准由于数据虚拟化平台自带元数据组件,可以实现数据源的元数据自动导入、存储和管理等功能,所以元数据研究的一个重要内容是元数据的标准。

需要研究内容包括:国家海洋局及欧美等国家的海洋监测相关的元数据标准,ISO/IEC JTC1 SC32、ITU等国际和国内大数据标准化工作组的元数据标准(主要是内容标准和格式标准);研究EUMIS和IOOS等应用系统中的海洋现场观测、传感、地理影像数据的元数据标准。最终确定切实可行的元数据标准,并在数据虚拟化平台构建元数据时,按照选择的元数据标准规范进行,以便生成高质量的元数据文档(库)。

4.2.2数据虚拟化平台上的数据建模(元模型)数据虚拟化平台在导入数据时自动导入数据源的元数据,但在构建虚拟数据库时,还需要对这些元数据进行建模,形成元模型,这个过程在数据虚拟化平台上叫“数据建模”(详见图4“第二阶段:数据的组织”一节),数据建模是数据集成中的关键一步。

ODM2是一个先进且通用的信息模型,可以根据需要扩展。要实现数据虚拟化平台上的数据建模,方法是以其为核心并扩展ODM2模型,利用PowerDesigner等数据建模工具构建适合于国内海洋环境监测数据的数据模型,最后应用到数据虚拟化系统中虚拟数据库的构建中去。

4.2.3本体语义框架借鉴数据管理框架OODT的元数据实现原理、架构思想,参照MMI语义框架,需研究的内容有:对现有开源语义框架或MMI语义框架扩展并集成到数据虚拟化平台中去;实现海洋环境监测专业词汇库构建、注册(产生符合OWL标准的语义内容,一般采用RDF/XML格式);实现语义映射(词汇和词汇之间的映射)。

4.3开源数据虚拟化平台上的应用构建

目前,大数据集成主要通过数据虚拟化平台来实现,数据虚拟化平台对数据的集成主要包括数据源的连接→组织→访问3个重要阶段。

第一阶段:数据的获取。此阶段主要是通过元数据和主数据管理完成多源异构数据的连接。

通过转换组件、适配器、查询引擎来实现数据的连接。查询引擎借助元数据找到数据源,转换组件将查询命令转换成数据源特定命令,然后通过源和虚拟化数据库之间的视图模型,提供一个优化的标准查询计划,其中适配器提供交互功能。

第二阶段:数据的组织。组合并转换数据到一个通用、可复用的虚拟数据模型和视图层。

主要是建立虚拟数据库来提供多个物理数据源统一视图。虚拟数据库由数据模型和配置信息组成。配置信息描述了哪些数据源需要集成以及如何集成的。

第三阶段:数据的消费。通过标准的开放接口,使数据的访问更容易。可以通过JDBC、ODBC、Web Service访问虚拟数据库。

根据以上三阶段内容,数据虚拟化平台架构如图4所示。

图4 数据虚拟化平台架构

前文已讨论了与数据虚拟化平台密切相关的大数据计算模式、元数据等研究内容。在完成以上研究内容后,构建主数据库后(相对容易,这里不多做叙述),即可构建多源异构的大数据集成应用了,主要包括以下3方面内容:

(1)数据的查询应用:数据查询是数据共享中最重要的功能,基于数据虚拟化平台提供的功能统一访问接口,实现大数据的查询,特别是半结构化和非结构化数据查询是一个重要的应用方向。

(2)综合展示:参照开源Lumify、Pentaho等平台的实现方式,实现GIS应用中多源异构数据的可视化展示(含半结构化和非结构化数据)。

(3)Rest服务:基于数据虚拟化平台的接口,构建Rest风格的数据服务,以方便应用之间数据交互。

5 实验技术路线

根据前述内容,绘制的技术路线如图5所示。

6 结论

本文针对多源异构的海洋环境监测数据面临的大数据问题,提出了在构建数据虚拟化平台和大数据计算模式集成的基础上,通过双层元数据(数据虚拟化平台中,数据连接层的元数据生成,数据消费层的元数据建模)和本体语义框架,来实现海量海洋环境监测数据的集成,并提出了基于这些技术的应用架构。这些思想基于国外大数据集成先进思想,对解决海量的多源异构数据集成有指导性意义。

本研究目前正处于起步阶段,将会面临诸多问题,有待于在实践中不断地发现和解决新问题。

图5 研究技术路线示意图

[1]SzalayS,GrayJ.Science in an Exponential Word[J].Nature,2006,440:23-24.

[2]H Gilbert Miller Peter Mork,Noblis.FromData toDecisions:AValue Chain for BigData[J].ITProfessional,2013,15(1):57-58.

[3]Andrew Brust.Gartner Releases 2013 Data Warehouse Magic Quadrant[EB/OL].2013-05 http://www.zdnet.com/article/gartnerreleases-2013-data-warehouse-magic-quadrant/.

[4]Xin Luna Dong,Divesh Srivastava.BigData Integration[C]//IEEE 29th International Conference on Data Engineering(ICDE),2013: 1245-1248.

[5]April Reeve.Managing Data in Motion Data Integration Best Practice Techniques and Technologies[M].San Francisco:Morgan Kaufmann Publishers,2013:142-156.

[6]J Dean,SGhemawat.Mapreduce:Simplified Data Processingon Large Clusters[C]//OSDI,2004.

[7]CuttingD.Scalable Computingwith MapReduce[C]//Proc ofO’ReillyOpen Source Convention,Poland.2005.

[8]Overview.The Open Service Network for Marine Environmental Data(NETMAR)[EB/OL].2009-06 http://netmar.nersc.no/.

[9]Jeffde La Beaujardière.The NOAAIOOSData Integration Framework:Initial Implementation Report[R].IEEE Publishers,2008:1-8.

[10]NOAA Announces RFI to Unleash Power of'Big Data'[EB/OL].[2014-02-24]http://www.noaanews.noaa.gov/stories 2014/20140224 _bigdata.html,.

[11]Comments ofthe Information Technology Industry Council.Response to the Big Data Request for Information[EB/OL].2014-03-27 http://www.itic.org/dotAsset/bcae1b74-eb8e-4f01-a02d-7e8aa8bdaf0f.pdf.

[12]Miaomiao,Bin Zhou,Zhun Zhou.The Interoperation Framework ofOcean Observation Data UsingSpatial Information Service[C]//2nd International Conference on Computer Science and Network Technology,Changchun,2012.

[13]John Graybeal,Anthony W Isenor,Carlos Rueda.Semantic Mediation of Vocabularies for Ocean Observing Systems[J].Computers& Geosciences.2012:120-131.

[14]Jing Xiong,Jipeng Wang,Feng Gao.Research and Application of Ontology-Based Marine Ecology Knowledge Management[J].Informatics and Management Science II,2013,205:465-471.

[15]Dhruba Borthakur,Jonathan Gray,et al.Apache Hadoop Goes Realtime at Facebook[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management ofData.NewYork:ACMPublishers,2011:1071-1080.

[16]沈来信,王伟.基于Tree-lib的大数据实时分析研究[J].计算机科学,2013,40(6):192-196.

[17]Robert eve.BigData Meets Virtualization[EB/OL].2011-05-17 http://roberteve1.sys-con.com/node/1835758.

[18]Overview.JBoss Data Virtualization[EB/OL].2014 http://www.jboss.org/products/datavirt/overview/.

[19]About Teiid[EB/OL].2014 http://teiid.jboss.org/about/.

[20]Benjamin T Hazen,Christopher A Boone,et al.Data Quality for Data Science,Predictive Analytics,and Big Data in Supply Chain Management:An Introduction to the Problem and Suggestions for Research and Applications[J].International Journal of Production Economics Editorial Board,2014,154:72-80.

[21]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报:社会科学版.2013,33(5):38-43.

[22]黄冬梅,陈括,等.基于块嵌套循环的海洋大数据质量检验方案选择算法[J].计算机工程与科学,2013.10,35(10):51-57.

[23]Vision For The Future of the Data Integration Market-Impact of Data Virtualization[EB/OL].https://www.youtube.com/watch?v=yziU4YV_BUE.2011-06-23.

[24]van der Lans R F.Data Virtualization for Business Intelligence Systems[M].Waltham,MA:Morgan Kaufmann Publishers,2012:8-9

[25]Noel Yuhanna,Mike GilpinThe.Forrester Wave:Data Virtualization,Q1 2012[EB/OL].2012-01-05 http://72.41.218.229/admin/uploads/15723400631342780586.pdf.

[26]Tomplunkett,Brian macdonald,et al.Oracle BigData Handbook[M].Osborne/McGraw-Hill,2013:1-12.

[27]Informatica Powercenter Big Data Edition[EB/OL].2014-12/2015-11-09 http://www.predictiveanalyticstoday.com/informaticapowercenter-big-data-edition/.

[28]Lumifyfeatures in action[EB/OL].2013-112-13 https://www.youtube.com/watchv=CAR8mon7EZs.

[29]The death oftraditional data integration[EB/OL].2015-01-28 http://campaigns.snaplogic.com/death-of-traditional-integration.html.

[30]Samina R Abidi,Syed SR Abidi,Mei Kwan,et al.An Ontology Framework for Modeling Ocean Data and E-Science Semantic Web Services[J].International Journal ofAdvanced Computer Science,2012,2(8):280-286.

[31]Yannis Tzitzikas,Carlo Allocca,Chryssoula Bekiari,et al.Integrating Heterogeneous and Distributed Information about Marine Species through a Top Level Ontology[C]//5th Information Retrieval FacilityConference,IRF 2012,Vienna,2012:1-12.

Integration and Application of Marine Environmental Monitoring Data Based on Big Data Technology

XIE Peng-fei,LIU Yu-an,ZHAO Hui,ZHU Rong-juan
National Marine Environment Monitoring Center,Dalian 10063,Liaoning Province,China

The integration of massive multi-source heterogeneous data for marine environmental monitoring is beyond the capability of traditional integration methods and technologies,which can only be realized by the application of big data technology which is beneficial for sharing of marine environmental monitoring data,avoiding the emergence of information island,and providing necessary data for data analysis and mining.This paper focuses on the integration of multi-source heterogeneous marine environmental monitoring data based on the technologies of big data and data virtualization platform refering to the ODM2 information model and MMI ORR ontology semantic framework.In addition,it probes into the realization method of multi-source heterogeneous data inquiry as well as their integrated display and application on the basis of Big Data Integration(BDI).This research helps to solve the problem of massive marine environmental monitoring data management,meets the demands of marine environmental big data for researchers,implements the data-driven decisionmaking method,and improves the management level for the marine environment.

big data;data virtualization;metadata;ODM2 model;ontology semantic framework

P76;TP39

A

1003-2029(2016)01-0093-09

10.3969/j.issn.1003-2029.2016.01.015

2015-03-01

解鹏飞(1975-),男,硕士,工程师,主要研究方向为大数据,数据挖掘与分析。E-mail:pfxie@nmemc.org.cn

猜你喜欢

监测数据异构虚拟化
试论同课异构之“同”与“异”
基于OpenStack虚拟化网络管理平台的设计与实现
GSM-R接口监测数据精确地理化方法及应用
吴健:多元异构的数字敦煌
对基于Docker的虚拟化技术的几点探讨
浅析虚拟化技术的安全保障
异构醇醚在超浓缩洗衣液中的应用探索
H3C CAS 云计算管理平台上虚拟化安全防护的实现
LTE异构网技术与组网研究
环评中引用大气现状监测数据的研究