APP下载

关于建立我国环境大数据网格组织标准的若干思路

2015-07-13程承旗童晓冲陈波

中国环境管理 2015年6期

程承旗,童晓冲,陈波

(1.北京大学航空航天信息工程研究所,北京 100871;2.信息工程大学地理空间信息学院,郑州 450001)

关于建立我国环境大数据网格组织标准的若干思路

程承旗1*,童晓冲2,陈波1

(1.北京大学航空航天信息工程研究所,北京 100871;2.信息工程大学地理空间信息学院,郑州 450001)

摘 要环保应用是一种典型的多行业、多类型的大数据综合业务应用。当前,仅我国环保应用的数据类型就高达几十种,来源于不同的数据生产部门,其组织管理的方式、标准、参考体系也各不相同,给环境大数据的快速形成与综合应用提出了挑战。本文从环境大数据的概念和需求开始,结合国内外技术发展的现状,讨论了发展建立我国环境大数据网格组织标准的必要性与优势;基于国家973项目的 理论研究成果,提出了建立我国统一的空、天、地一体化环境大数据网格组织标准的框架体系,并研究了基于网格框架的环境大数据形成制、应用思路、关键技术及实现方法; 最后,结合我国环境大数据与 信息技术发展的现状,提出了建立我国环境大数据网格组织标准体系的几点发展建议。

关键词环境大数据;剖分网格;网格编码;组织标准

引言

随着我国环境问题的日益严峻,国家为此投入了大量的人力、物力和财力,各方面的工作均取得了长足进步,特别是环境大数据工程的提出,各种类型的环境数据及相关数据大量产生,数据量正在呈几何阶数增长,日益成为环境保护工程的一项重要的战略性资源。随着环保应用的逐步开展,环境数据在实际应用中的管理要求也不断提高,如何有效组织这些爆炸式增长的大数据,确保用户需要时能快速从“环境大数据全集”中获取有价值的信息,已成为环境大数据应用领域亟待解决的问题。

1 建立我国环境大数据网格组织标准的必要性

环保应用是一种典型的多行业、多类型的大数据综合业务应用。当前,仅我国环保应用的空间数据类型就高达几十种,来源于不同的数据生产部门,其组织管理的方式、标准、参考体系也各不相同,给环境大数据的快速形成与综合应用提出了挑战。在环境大数据的形成过程中,首先需要明确一个重要概念:数据多不是大数据,数据集中在一起不是大数据。大数据的核心是指需要时能快速地从“全的数据”中获取有用的信息,这种数据集称为大数据。例如,某部门7个专题数据库,都汇集到了数据中心,但仍然难以快速查询出某一区域所有“全”的数据,更难以综合应用,原因之一是欲整合的这些数据库来自不同部门,它们大多采用不同的数据组织标准,其中网格组织标准的不同是主要制约瓶颈。这些各异的网格标准包括智慧城市的城市网格、遥感网格(景、瓦片等)、地理网格、测绘网格(图幅网格等)、气象网格、水文网格等,这些网格在各自行业内部的空间数据组织管理上发挥了积极作用,但由于它们划分方式不同,数据间尺度不统一,位置不统一,编码不统一,给环境大数据的跨部门检索、整合与共享带来了困难,对建立统一的环境大数据网格组织标准提出了迫切需求。

另外,由于所有的信息都可以关联到某一具体的地域,且地域存在多种形态和尺度,使用现有的基于经纬度位置码的点、线、面组织方法也存在标识不统一及检索复杂等问题,而利用全球剖分网格的全球唯一性、多尺度性和规则性来对大数据进行组织也将是一种技术发展的必然。因此,深入研究更为有效的多源异构环境大数据的一体化组织方法,特别是发展高效的环境大数据组织网格标准,是环境大数据组织亟待解决的瓶颈问题之一。

2 国内外研究现状

合理的数据组织管理模式与方法是数据高效应用的基础。国内外许多研究部门与行业都已采用网格方式进行空间大数据的统一组织、管理与应用服务。其中,比较有代表性的就有NASAEOSDIS的影像大数据网格组织技术、Google的全球海量空间大数据网格组织技术和ArcSDE的空间数据网格索引技术等。

2.1 NASA EOSDIS的影像大数据网格组织技术

美国航空航天局(NASA)启动的对地观测系统(earth observing system,EOS)是目前民间最大的对地观测系统工程,也是全球数据量最大的民间科学数据库系统,是值得借鉴的现实参考系统之一。其中,EOSDIS是NASA提供的存取访问全部EOS数据的解决方案。在数据范围上,EOS数据涵盖了大气、土地利用、植被覆盖、雪冰、海洋等多个地学领域的不同分辨率、不同时间周期的卫星影像数据和野外观测数据,具有全球性、多源性、多尺度性。在数据规模上,EOSDIS目前管理着24种EOS仪器测量数据,超过2000个数据集,总数据量达上千TB,而且数据量每天都在大幅增长。在空间大数据组织与管理的方法上,EOSDIS采用统一的数据存储组织格式与交换标准:为了有效地管理地理定位数据,并为各种类型的EOS数据产品在EOSDIS分布式系统环境中提供一个统一的访问接口,以便用于整体搜索服务、互操作与共享,EOSDIS采用一种扩展的网格数据格式,作为NASA存储和发布EOS数据产品的标准格式(图1)[1,2]。

图1 NASA EOSDIS的网格数据模型

EOSDIS为海量对地观测信息的分布式网格化组织管理与一体化共享提供了可借鉴的解决方案,其涉及的需求与任务目标与环境大数据中影像数据组织也非常相近,值得借鉴。

2.2 Google的全球海量空间大数据网格组织技术

Google采用网格瓦片数据层叠加技术(tile overlays)来组织空间数据,最底层(level 0)采用一个瓦片来表达整个球面,其中心位于经度0°与纬度0°,然后每个瓦片按因子4依次等级细分地球表面。每个瓦片的坐标由所在放大层级下的行列号来确定,列的顺序从左到右,行的顺序从上到下;每个瓦片文件采用列序来命名。在数据组织时,系统采用墨卡托投影(Spherical Web Mercator projection),每个瓦片按照固定大小对应一个固定的全球网格,按照“瓦片集名称放大层级行序列序”方式组织(图2)[3]。

图2 Google瓦片文件目录结构

在数据索引方面,Google 集群利用分布式服务器集群形成虚拟索引数据库,即索引大表BigTable,实现了PB级数据索引[4]。BigTable是一种稀疏的、分布式的、稳定的多维排序表,提供半结构化数据的分布存储与访问接口,其数据模型由行、列族和时间戳构 成(图3)。在对空间大数据存储管理时,BigTable中的每一行对应一个地理区域,并将在地理位置上邻接的区域存储为相邻的行,行关键字表示连续的地块;每一行包含多个列族,列族记录每个区域的空间数据源,列族中的每一列对应一幅空间数据;时间戳用来标识不同时期的数据版本(时间戳的类型为64位整型),例如,在数据查找和维护时,可以通过时间戳检索“最新的K个数据”或“在某个时间段内的所有数据”,“保留最新的K个数据”或“将一个数据保留若干时间”。

Google将不同分辨率、多源空间数据在“纵向”上组织在不同的层级,但在“横向”上没有考虑同一层级中多源空间数据的组织问题。因此,空间数据的组织管理需要根据空间数据的空间特性建立相应的数据组织管理模型。

2.3 ArcSDE的空间数据网格索引技术

ArcSDE(SDE即Spatial Database Engine,空间数据库引擎)是ArcGIS与关系数据库之间的GIS通道。它允许用户在多种数据管理系统中管理地理信息,并使所有的ArcGIS应用程序都能够使用这些数据。ArcSDE采用多层次网格对多源数据建立局部网格索引,可以较方便地存储、索引和访问DBMS中的矢量、栅格、元数据及其他空间数据;同时能保证所有的GIS功能可用,而无须考虑底层的DBMS[5]。

图3 Google BigTable索引数据组织模型

图4 ArcSDE局部网格索引示意图

3 标准框架

Google、NASA EOSDIS等采用网格体系组织全球海量空间数据,取得了非常好的应用效果,但其网格与我国现有的空间数据组织框架的继承与衔接不太方便。ArcSDE采用多层次局部网格索引(图4),具有较好的数据检索性能,但其网格体系为局部网格,不具备全球性,导致数据入库或更新每次都需重建索引。

2.4 国内研究现状

网格理论方面,武汉大学的李德仁院士提出了“空间信息多级格网”(spatial information multi-grid,SIMG)的概念[6,7]。中国科学院地理所的周成虎研究员从地图设计的角度,提出了地理网格数据模型的研究思路[8]。中国矿业大学(北京)赵学胜教授研究了全球空间网格QTM的层次索引机制和层次拓扑推理等问题[9,10]。解放军信息工程大学的张永生教授等人研究了全球六边形离散网格系统的单元编码与索引、空间数据整合、三维可视化等问题[11,12]。在国家973计划的支持下,北京大学程承旗教授等提出了2n一维整型数组经纬度全球剖分网格(Geographical coordinate grid Subdivision by One dimension integer and Two to nthpower,GeoSOT),通过三次地球扩展,实现整度、整分的四叉树剖分,形成一个上至地球(0级)、下至厘米级面元(32级)的多尺度四叉树剖分网格,并以GeoSOT网格为基础,开发了由预处理系统、数据库系统、查询系统、表达系统与分发系统等组成的技术原型系统,为海量多源异构高分大数据统一组织提供新的理论方法和技术手段[13-16]。

本文设计的环境大数据组织网格是基于GeoSOT地球剖分网格进行的,主要原因在于与国际上同类地球空间剖分网格方法相比,GeoSOT剖分网格具有下面几个主要优点:

(1)GeoSOT网格符合我国CGCS2000大地坐标基准。

(2)GeoSOT网格全球覆盖、无缝无叠、尺度完整,与国内外测绘、气象、海洋、国家地理网格等现有网格是继承与扩展关系;网格编码将度、分、秒及秒以下网格进行分段编码,使得整度、整分、整秒的规格数据在区位标识过程中,不存在舍入误差,数据可以精确表示。

(3)GeoSOT网格较好地解决了两极地区的网格剖分问题,两极划分近似均匀。

(4)GeoSOT网格实现了地球空间二维、三维的一体化,形成了立体空间的真三维剖分框架,对环境大数据弥漫整个地球空间的情况非常适合。

(5)GeoSOT网格发展了一套基于二进制位运算机制的编码代数计算方法,实现了空间信息组织、存储、传输、分发、服务等应用的高效“编码化操作”。

(6)基于GeoSOT网格形成的空间搜索引擎技术,充分利用了整型编码的特性,结合列数据库的特点,可以高效提供空间搜索服务,国产数据库系统通过实验,较现有各类方法可以提高2~3倍。

基于GeoSOT网格形成的环境大数据组织网格GeoSOT-EP(environmental protection)利用GeoSOT32级中的某些特定层级,经过一次6°×4°划分,一次16′划分,一次十六分及4次八分后,得到上至全球,下至1/16″的八级网格,其中除了第一层是1:100万地形图分幅划分,其余皆是GeoSOT网格,下面是具体的方案:

第一步划 分:如图5所示,按照1:100万图幅划分,经度方向用1~60编码,纬度方向分南北半球(N,S),按照A~V编码,大小为6°×4°。

第二步划分:如图6所示将1:100万6°×4°网格,从左下角划分(东北半球)分成16×24个网格,两个方向分别用A~P、A~X表示,相当于GeoSOT第12 层16′×16′、12′×16′、16′×12′、12′×12′网格,相当于约32km×32km网格。

第三步划分:如图7所示,将GeoSOT 16′×16′、12′×16′、16′×12′、12′×12′网格,分成4×4个网格,一个方向分别用A~P表示,相当于GeoSOT第14层4′×4′网格,相当于约8km×8km网格。

第四步划分:如图8所示,将GeoSOT 4′×4′网格,分成8×8个网格,两个方向分别用0~7表示,相当于GeoSOT第16层32″×32″、32″×28″、28″×32″、28″×28″网格,相当于约1024m×1024m网格。

第五步划分:如图9所示,将GeoSOT 32″×32″、32″×28″、28″×32″、28″×28″网格,分成8×8个网格,两个方向分别用0~7表示,相当于GeoSOT第19层4″×4″网格,相当于约128m×128m网格。

图5 GeoSOT-EP第一步划分

图6 GeoSOT-EP第二步划分

图7 GeoSOT-EP第三步划分

第六步划分:如图10所示,将4″×4″网格,分成8×8个网格,两个方向分别用0~7表示,相当于GeoSOT第22层1/2″×1/2″网格,相当于约16m×16m网格。

第七步划分:如图11所示,将1/2″×1/2″网格,分成8×8个网格,两个方向分别用0~7表示,相当于GeoSOT第25层1/16″×1/16″网格,相当于约2m×2m网格。

图8 GeoSOT-EP第四步划分

图9 GeoSOT-EP第五步划分

图10 GeoSOT-EP第六步划分

图11 GeoSOT-EP第七步划分

通过以上七步划分与编码,可得15位GeoSOTEP位置编码,最高编码精度1/16″×1/16″。前七位分别代表半球标识及第一级、第二级、第三级网格编码,后八位先记录第四级至第七级的经向编码,再记录第四级至第七级的纬向编码。

考虑到环境数据是弥漫整个地球空间的情况,GeoSOT-EP需要考虑真三维的环境,GeoSOT-EP真三维网格是在GeoSOT-3D网格基础上进行设计的。GeoSOT-3D是在二维平面剖分框架GeoSOT的基础上扩展高度维编码而形成的立体剖分网格,即将高度维剖分无缝嵌入二维平面剖分,共同组成GeoSOT-3D立体剖分网格模型。在空间高度上,设定高度单位是度、分、秒。根据与参考椭球参数,可以将空间高度单位转换为千米、米。空间高度以参考椭球中心为0,最大为512°,对应高度为[0km,56 931 km]。在该高度空间中,地球表面在高度为180°/π附近,最大高度离地面为50 560公里。

GeoSOT-3D剖分0级网格定义为:在基于经纬度坐标的地球立体空间中,与其原点重合的512°方格,0级网格对应信息体区域位置是整个地球立体空间,如图12所示。GeoSOT-3D剖分1级网格定义为:在0级网格基础上平均分为8份,每个1级网格大小:256˚;1级网格编码:Gd,其中d为0、1、2、3、4、5、6或7。例如,G0对应信息体区域位置:东北半球、高程大于0˚、小于256˚的地球空间;G4对应信息体区域位置:东北半球、高程大于256˚、小于512˚的地球空间。依此类推,可依次定义2级、3级直至32级网格[17]。GeoSOT-3D不同层级立体部分网格示意图如图13所示。

图12 GeoSOT-3D立体剖分0级网格示意图

图13 GeoSOT-3D不同层级立体剖分网格示意图

4 应用方法

4.1 大数据形成的机制

地球上所有数据均可剖分(逻辑剖分),均可以赋予一个适宜的剖分网格编码,由此形成了空间大数据的剖分组织体系,应用时只需点击某一网格,通过搜索,就可以获得该网格上的所有标识有网格码的数据,从而较容易获得某一网格中的“全数据”。它的好处在于在开展环境大数据资源整合时,对现有系统不必推倒重来,实现方便,低成本,效率高。例如,上面提到的某部门七大数据库,在不推倒重来的基础上,只在每个数据库增加一个编码字段,通过编码自动生成工具,一周时间,就可完成包括遥感数据在内的相关数据库的整合,形成统计意义上的空间大数据。

4.2 应用思路

针对环境大数据高效组织与应用的业务需求,将网格技术贯穿于从数据预处理到查询检索、共享与交换、分发、整合等一系列环境大数据组织与应用业务流程。总体研究思路是:依托全球剖分网格及其编码体系,建立统一的环境大数据空间网格编码模型,对环境大数据进行剖分预处理,使得每一个环境大数据都具备全球统一的空间网格编码;将每个环境大数据的空间网格编码都纳入剖分索引大表中,建立起环境大数据与剖分网格的空间索引结构,使得环境大数据都与网格形成强关联关系,由此形成统一的共享交换基础,并在此基础上实现环境大数据的快速查询检索、共享交换及整合;用户的位置亦可转换为导航定位网格编码,并与网格进行对应,利用剖分网格的多尺度特性,可针对用户实际需求,分发用户关心区域网格的数据,实现环境大数据的多尺度分发。最终实现环境大数据“打上编码、按编码查询、按编码交换、按编码分发、按编码整合、按编码计算”,以统一的网格编码贯穿环境大数据应用全过程。

4.3 关键技术

本项研究涉及的关键技术主要包括以下几方面:

(1)环境大数据全球网格码编码实现模型及编码计算技术;

(2)环境大数据全球网格码自动生成技术;

(3)环境大数据全球网格码地理信息平台中间件技术;

(4)环境大数据全球网格码数据库索引大表中间件技术;

(5)环境大数据全球网格码空天地立体数据球技术。

4.4 实现方法

(1)前端:将环境大数据网格码作为终端环境数据采集的直接位置代码。

(2)后端:在后台环境大数据的数据库中增加一个编码字段,每个数据均赋予剖分网格码,包括所有新生成的数据自动赋予位置码,完成环境大数据组织预处理流程。

(2)在现有环保信息平台上增加一个剖分网格码相关的网格管理中间件,实现基于全球剖分网格码的环境大数据统一网格化查询与汇集。

(3)建立一系列基于剖分网格码的环境大数据时空计算或信息挖掘算法(时间、空间与事件)。

(4)建立面向服务业务或公众的环境大数据剖分网格码服务体系(特别有利于建立众筹的环境大数据汇集机制)。

4.5 应用基础

目前,基于地球剖分网格编码的大数据组织方法及其衍生技术正在国家“北斗”二代导航专项、高分专项、地名地址、减灾系统、互联网位置寻址,停车牌、户籍门牌等系统的大数据建设中发挥积极作用。大数据建设涉及领域多、部门多、来源多、数据格式多、数据量大、信息稀疏分散、模型复杂、分析要求高,全球剖分网格码形成的大数据组织技术,已初步显示出应用前景,可为国家环境大数据组织标准建设提供一定的技术借鉴。

5 发展建议

(1)政府主导,环保部门在考察成熟技术及成功应用实践的基础上,开展环境大数据网格码组织技术局部应用试验。

(2)在局部应用试验基础上,提前开展相关标准研究,涉及环境大数据相关的云平台操作系统、网络协议、数据库、GIS平台、移动终端改进标准,也涉及各种业务模型及大数据分析算法改进标准。

(3)开展基于全球网格标准的典型环境大数据服务试点,为进一步推广奠定基础。

参考文献

[1] Esfandiari M, Ramapriyan H, Behnke J, et al. Evolving a ten year old data system[C]//Proceedings of 2nd IEEE International Conference on Space Mission Challenges for Information Technology (SMC- IT'06). Pasadena, California: IEEE, 2006:243-250.

[2] Lü X F, Cheng C Q, Gong J Y, et al. Review of data storage and management technologies for massive remote sensing data[J]. Science China Technological Sciences, 2011, 54(12): 3220-3232.

[3] Sample J T, Loup E. Tile-Base Geospatial Information System: Principle and Practices[M]. New York: Springer, 2010:23-200.

[4] Chang F, Dean J, Ghemawat S, et al. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-14.

[5] 崔铁军. 地理空间数据库原理[M].北京: 科学出版社, 2007.

[6] 李德仁, 朱欣焰, 龚健雅. 从数字地图到空间信息网格——空间信息多级网格理论思考[J]. 武汉大学学报: 信息科学版, 2003, 28(6): 642-650.

[7] 李德仁, 邵振峰. 空间信息多级网格及其功能[J]. 地理空间信息, 2005, 3(4): 1-3, 3-5.

[8] 周成虎, 欧阳, 马廷. 地理格网模型研究进展[J]. 地理科学进展, 2009, 28(5): 657-662.

[9] 赵学胜. 基于QTM的球面Voronoi数据模型[M]. 北京: 测绘出版社, 2004.

[10] 赵学胜, 侯妙乐, 白建军. 全球离散格网的空间数字建模[M]. 北京: 测绘出版社, 2007.

[11] 张永生, 贲进, 童晓冲. 地球空间信息球面离散网格—理论、算法及应用[M]. 北京: 科学出版社, 2007.

[12] Tong X C, Ben J, Wang Y, et al. Efficient encoding and spatial operation scheme for aperture 4 hexagonal discrete global grid system[J]. International Journal of Geographical Information Science, 2013, 27(5): 898-921.

[13] 程承旗, 关丽. 基于地图分幅拓展的全球剖分模型及其地址编码研究[J]. 测绘学报, 2010, 39(3): 295-302.

[14] 程承旗, 任伏虎, 濮国梁, 等. 空间信息剖分组织导论[M]. 北京: 科学出版社, 2012.

[15] 宋树华, 程承旗, 濮国梁, 等. 全球遥感数据剖分组织的GeoSOT网格应用[J]. 测绘学报, 2014, 43(8): 869-876.

[16] 程承旗, 郭辉. 基于剖分数据模型的影像信息表达研究[J]. 测绘通报, 2009, (10): 12-14, 17-17.

[17] 程承旗, 童晓冲, 翟卫欣. 一种基于地球空间立体剖分的空间目标索引方法: 中国, CN201410374109.1[P]. 2014-11-26.

Some Thoughts on Establishing the Organization Standard of Environmental Big Data Grid in China

Cheng Chengqi1*, Tong Xiaochong2, Chen Bo1
(1. Institute for Aeronautics and Astronautics Information Engineering, Peking University, Beijing 100871; 2. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450001)

Abstract:Environmental application is a typical multi-industrial and types integrated services application of big data. Currently, there are dozens of environmental application data types in China, which comes from different data production departments. And their organization management methods, standards and reference systems are not the same either. This phenomenon challenges the environmental big data’s fast formation and integrated applications. In this paper, we fi rstly discussed the defi nition and different demands of environmental big data, and then detailed the necessity and superiority of developing the national environmental big data organization standard in the light of present technology at home and abroad. Based on the the oretical research of National 973 Project, a standard frame and application methods of the national organization standard was proposed for the trinity of space, sky and earth environmental big data. On account of the grid frame, this paper also studied the environmental big data formation mechanism, application thoughts, key technology and application methods. Considered the current status of the environmental big data and information technology, some proposals for establishing the standard based on the global subdivision grid we re put forward at last.

Keywords:environmental big data; subdivision grid; grid coding; organization standard

中图分类号:P208

文献标识码:A

文章编号:1674-6252(2015)06-0031-07

基金项目:国家973项目(61399):全球空天信息剖分组织机理与应用方法研究,国家自然科学基金项目(41201392):全球六边形离散格网上的空间度量与误差分析。

*责任作者: 程承旗(1961—),理学博士,北京大学工学院教授,博士生导师,主要研究方向为遥感与地理信息系统、地球剖分组织理论、卫星导航应用等。