APP下载

多源异构数据集成的实景三维数据模型

2022-08-01周俊晖赵聪浩冯振俭

北京测绘 2022年5期
关键词:数据文件空间数据数据模型

周俊晖 赵聪浩 冯振俭 苏 玮

(1. 广州南方智能技术有限公司, 广东 广州 510663;2. 南宁市自然资源信息集团有限公司, 广西 南宁 530028;3. 广州市城市建设档案馆, 广东 广州 510030)

0 引言

2019年自然资源部印发的《自然资源部信息化建设总体方案》中,明确提出建设三维立体自然资源“一张图”,并且要加强三维空间自然资源信息的管理与应用[1]。《实景三维中国建设技术大纲(2021版)》提出要根据新时期测绘工作“两服务、两支撑”根本定位,构建“分布存储、逻辑集中、时序更新、共享应用”的实景三维中国,为数字中国建设提供统一的空间基底。该大纲中定义了实景三维的内容,包括空间数据体、物联感知数据和支撑环境3部分,其中空间数据体包括了地理场景和地理实体[2]。

地理场景是一定区域范围内连续成片、反映现实世界地理空间位置和形态的地理信息数据。地理场景往往采用场模型进行处理。地理实体是在现实世界中占据一定且连续空间位置、单独具有同一属性或完整功能的地理对象,包括基础地理实体、部件三维模型以及其他实体。地理实体以面向对象的方式将现实世界中的各地理事物抽象成实体对象,并将其专题、空间、时态等相关信息组织起来[2]。

随着新型基础测绘技术手段不断创新发展,各类遥感影像、野外测量、激光点云、倾斜摄影、三维建模等数据采集手段形成了大量的三维空间数据。与此同时,各主管部门、测绘生产单位仍保留大量存量或继续生产增量二维空间数据,二维和三维空间数据在服务于国土空间规划、用途管制、生态修复、空间决策、智慧城市建设等应用中各有所长,互补不足,共同为上述业务场景的多种专题应用发挥重要作用。此外,除传统“三域”数据以外,地理信息数据获取的渠道更为广泛,非结构化的文档、音频、视频、互联网、物联网等数据对地理数据进行了有益的补充。这些多源异构数据获取方式不同、抽象程度不同、表达形式不同,从不同侧面表达同一个现实地物。传统地理信息系统(geographic information system,GIS)数据模型主要以分类型、分尺度、分层、分块、分要素的方法进行空间数据的组织与管理,在此基础上进行地图要素的纵向分层和横向分块管理,存在对地下、海中、空中、室内等三维世界支撑不足等问题[3,6]。

地理场景与地理实体紧密联系,地理实体某种程度上组成了地理场景,很多情况下,数据采集是按现实世界连续成片采集后再进行语义化分割和建模,因此地理实体也来源于地理场景。而当前数据模型一般是按照传统GIS的思路来进行设计,以地图要素作为其空间数据的基础,难以适应当前地理信息数据的多来源、多模态、多维度的时空数据与其之间关系管理的要求,也不能满足日益多样、生动的地理空间数据可视化应用需要,更无法满足地理时空大数据分析、挖掘、预测的需要。因此亟须考虑地理场景、地理实体的相互关系,考虑地理空间数据的多源、多模态特性,在数据组织和管理上将多源异构数据表达或刻画的地理事物在逻辑上统一,形成逻辑组织与人类认知的统一,为实景三维中国提出的从“抽象”到“真实”、从“平面”到“立体”、从“静态”到“时序”、从“按要素、分尺度”到“按实体、分精度”、从“人理解”到“人机兼容理解”、从“陆地表层”到“全空间”六点提升[2]提供切实可行的数据组织和管理方案。

1 多源数据集成的实景三维数据模型

在实景三维数据模型中,研究者针对地理实体的GIS数据模型研究较多,如华一新、周成虎等提出了面向全空间信息系统的多粒度时空对象数据模型,确定了由时空参照、空间位置、空间形态、组成结构、关联关系、认知能力、行为能力和属性特征8项内容构成的多粒度时空对象数据模型描述框架[3]。闾国年等研究了地理实体分类和编码体系的构建,提出了以地理学视角,描述地理实体的语义、位置、几何、过程、关系和属性,提出一个全空间、全信息表述的GIS数据模型[4]。成波等根据全空间信息系统中地理实体基本特征以及存储管理的需求,提出一种面向地理实体及其关联关系动态变化表达的时空数据模型。更侧重于表达地理实体的变化过程[5]。地理实体以面向对象的方法,对现实世界事物进行语义、空间、时态、关系等多方面抽象,其数据模型得到了充分发展。但仍存在一些需要继续研究的问题,首先实景三维中大量存在的地理场景是非结构化数据,需要数据模型支持对非结构化数据存储和管理。其次,地理场景的场模型数据需要在数据治理过程中转化为地理实体的要素对象模型数据,两者之间存在普遍联系,也需要在数据模型中考虑其关联。第三是当前各种物联网、互联网的结构化或非结构化数据交错,其作为实景三维的语义、属性信息,需要在数据模型中支持两者的有机衔接。

本文提出的实景三维数据模型(图1)需要妥善存储和管理实景三维中的空间数据体即包括地理场景数据和地理实体数据。由于在逻辑层面经过统一设计,则更容易建立地理场景和地理实体的联系,更便于衔接非结构化信息。

空间数据体应包括基本元数据、属性域、时态域、空间域以及与空间数据体相关的非结构化数据。

(1)基本元数据,包含空间数据体的身份标识、名称、类别等关键信息。其中,身份标识作为空间数据体区别于其他空间数据体的内部的唯一标识编码,并为实体信息共享、数据交换、查询检索等提供唯一标识。

(2)属性域,存储空间数据体所携带的基本属性,如地理实体涉及的领域、行业、主题的相关属性信息、地理场景所描述的场景相关属性信息等。不同类型的空间数据体具有不同的属性域。

(3)时态域,存储空间数据体的时态信息。地理事物的动态变化可以是离散或连续的变化,但受到采集频率、应用需要等因素影响,又是以离散变化为主[5]。以空间数据体为单位增加时态域信息,分辨率依据不同空间数据体类型,划分从百万年、年、月、日到小时、分、秒、毫秒等,基本能满足现实世界的时间维度刻画需求[16]。

时态域的标记或更新以空间变化或属性变化作为空间数据体变化的标准,当变化条件达成时,记录前一个状态的空间数据体结束时间,并新建一个变化后的空间数据体,只记录其开始时间,变化前空间数据体的结束时间等于变化后空间数据体的开始时间。因此在时态域中,记录空间数据体的开始时间、结束时间,用以标定空间数据体的生命周期。

(4)空间域,存储空间数据体对应的空间信息。根据《地理实体空间数据规范》(GB/T 37118—2018),地理实体的空间信息由图元承载,一个空间数据体可能对应多个图元也可能仅对应一个图元,图元可在不同地理实体间共用[9]。本文扩展地理场景的空间信息也由图元承载,因此空间数据体的空间域信息是由图元承载。由于空间数据体可以对应多个图元,因此空间域可以关联不同维度、不同角度、不同尺度、不同抽象程度的空间信息。

(5)附件,存储与空间数据体相关的非结构化数据,如各种文档、多媒体数据。这些非结构化数据不采用互操作手段进行解析,因此不进行内容的管理。

图1 空间数据体、图元数据概念模型

1.1 地理场景

地理场景具场模型和要素模型的特征。一方面地理场景作为整体进行采集时,其空间数据是连续的场数据模型,另一方面地理场景有地理实体或对象具有的基本元数据、属性域、时态域、空间域和附件信息,可以被认为是一种特殊的实体对象。地理实体的图元通过整合,可以作为地理场景的空间域信息,增加了地理场景空间信息的多样性。而地理场景的连续场模型数据通过单体化或语义分割后形成的空间信息也是地理实体空间数据的一种来源。

1.2 地理实体

2011年,原国家测绘地理信息局发布的《地理信息公共服务平台地理实体与地名地址数据规范》(CH/Z 9010—2011)首次提出了地理实体定义、地理实体数据概念模型、数据组织等基本概念。在2018年发布的《地理实体空间数据规范》(GB/T 37118—2018),进一步细化明确了地理实体的相关内容,如规定图元可以共享,基础地理实体划分为政区实体、境界实体、道路实体、铁路实体、河流实体、湖泊实体、房屋实体、院落实体等。上海市测绘地理信息学会发布的《基于地理实体的全息要素采集与建库》系列团体标准,不仅基于地理实体的全息要素采集、融合、处理进行了规范,还进一步将地理实体划分为基础类、专业类、综合类3大门类,17个亚门类,考虑了自然资源、城市管理、应急管理、生态环境等领域的实体扩展[8-10]。

1.3 图元

图元存储空间数据体所对应的空间信息。在二维GIS范畴下,一般是指空间内单一、连通和同质元素的几何对象,包括点、线、面。随着空间数据体的空间信息向三维扩展,图元不局限于二维几何类型,还包括了模型三维、倾斜三维、点云三维等多种形式[16]。三维形式的图元应根据应用需求考虑是否需要进行内容管理,当不需要进行内容管理时,图元不需要对各种三维数据的内在结构和数据进行解析并管理,而是将三维数据按数据文件的形式进行整体管理;若需要进行内容管理,如需要管理到城市部件级的三维数据,则需要对三维数据文件进行解析,并构建对应的数据模型进行内容管理(图2)。

图2 图元概念模型

图元携带从空间信息抽取的基础元数据,如坐标系统、高程基准、图元类型。图元的开始时间是记录其入库或生产的起始时间,结束时间是记录其失效、逻辑删除的终止时间。

图元类型包括二维矢量类型:点、线、面,栅格数据类型:数字高程模型(digital elevation model,DEM)、数字地表模型(digital surface model,DSM)、数字正射影像(digital orthophoto map,DOM)、真正射影像( true digital orthophoto map,TDOM),三维数据类型:倾斜三维、模型三维、点云三维。细分类型后的图元继承基础图元的基本属性。

(1)二维矢量类型图元。包含图元对应的二维几何空间数据记录索引,由于二维矢量点、线、面往往以空间要素的形式存储在空间-关系型数据库中,因此图元的空间数据记录索引关联的是空间数据库提供的要素记录访问索引。

(2)栅格类型图元。包含图元表达栅格数据的地面分辨率等从数据文件中解析并抽取的元数据信息以及其所对应的数据文件层次结构和索引列表。

(3)倾斜三维类型图元。倾斜三维图元表达地理场景时,图元包含倾斜三维数据的分辨率等从数据文件中解析抽取的元数据信息,倾斜三维所对应的数据文件层次关系和索引列表。

倾斜三维图元表达地理实体时,若采用的物理单体化的方法,则图元包含单体化后的倾斜三维数据的分辨率等从数据文件中解析抽取的元数据信息、单体化后的数据文件层次关系和索引列表。

倾斜三维图元表达地理实体采用的是动态单体化方法时,则图元还需包含图元间关联关系,即倾斜三维图元与二维矢量类型图元(基于二维矢量面的单体化)或模型三维类型图元的关联关系(基于三维包围盒的单体化)。

(4)点云三维类型图元。点云三维图元可以表达地理场景、单个大尺度地物或通过分类、分割的处理后表达的地理实体,图元包含从点云三维数据文件中解析抽取的元数据信息、点云三维数据所对应的数据文件索引列表。

(5)模型三维类型图元。当模型三维图元表达地理实体且不管理实体细分内容时,图元包含从模型三维数据文件中解析抽取的元数据信息、模型三维对应的数据文件层次关系和索引列表。

当模型三维图元表达地理实体且需要管理模型三维数据结构和内容时,模型三维数据要进行结构化解构,由图元承载结构中的各空间信息(管理在空间数据库的三维矢量索引或模型部件材质文件索引),图元记录子图元身份标识号(identity document,ID),由图元和子图元的相互嵌套承载模型三维数据的层次结构。

1.4 数据文件层次结构和索引列表

由于地理空间数据文件格式往往有专门的数据组织结构要求,因此需要采用树形文档结构来存储数据文件的层次结构和相对应数据文件索引。如glTF包含了图像文件、glTF文件、bin文件3部分,3D Tiles数据集则是由一系列Tile组成的树状结构[17]。这些树状层次结构信息如果丢失,则无法正常使用进行可视化渲染。因此需要在数据库中管理数据文件层次结构,在图元的索引中记录文件夹结构路径。

2 空间数据体关系

地理场景、地理实体以及两者之间的关系是对地理世界中地理事物之间关系的抽象。空间数据体间的关联关系会随着时间的变化而变化。时间语义常常蕴含在空间语义和专题语义之中,即时态语义是隐含在空间上和专题性的关系[5]。比如,将已失效的土地利用总体规划土地用途区地理单元与当前通过审批的用地报批地理单元进行分析,可以得出两个空间数据体存在空间关系。但在现实世界的语境中,因为剥离了时间语义,这个关系是有误的。在加入时间语义后,两者的空间相交的关系不复存在。

因此,空间数据体的关系主要是在时间语义条件下的空间关系和属性关系。

(1)空间关系。空间关系描述的是空间数据体在相交的时间区间内空间存在的关系,包括了顺序关系、度量关系和拓扑关系。比如河流实体与其相邻的水文站之间的空间关系,局部流域地理场景与场景内各地理实体之间的空间关系。

(2)属性关系。属性关系描述的是空间数据体在相交的时间区间内存在的属性关系。比如院落实体与其所属房屋、构筑物、设施实体、建筑部件之间的分解-组成关系。

在本文提出的数据模型中,依据应用需要,制定关系抽取规则(如时空相交),确定关系谓词,通过空间数据体唯一标识编码和关系谓词存储空间数据体间的各类关系。

3 数据库建设

3.1 逻辑模型

空间数据体、属性域、图元等主体内容在关系型数据库中组织,附件涉及的非结构化文件、栅格、三维模型涉及的数据在NoSQL数据库中组织,图3是数据模型在关系型数据库中的逻辑表示意。

图3 数据模型逻辑表设计注:PK为主键primary key;FK为外键foreign key;UUID为通用唯一识别码universally unique identifier;varchar为字符类型;date为日期类型;geometry为空间几何数据类型。

3.2 物理存储

考虑到空间数据体、图元数据的多模态、多源特点,结合数据模型设计,采用开源的非关系型数据库(not only SQL,NoSQL)文档型数据库、图数据库、关系型数据库、分布式文件系统存储的混合存储模式。

MongoDB是介于关系数据库和非关系数据库之间的开源数据库产品,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 将数据存储为一个文档,数据结构由键值对组成。MongoDB 文档类采用基于JavaScript对象简谱(JavaScript object notation,JSON)的二进制JSON计算机数据格式(binary serialized document format,BSON)方式来描述非结构化数据。字段值可以包含其他文档、数组及文档数组[18]。对空间数据体,由于其存在不同的数据结构,因此可以将其作为一类对象存储在MongoDB数据库中(图4)。图元则作为另一类对象进行存储。图元与空间数据体通过图元唯一标识编码连接。

图4 空间数据体模型与多数据库混合存储模式

图元所承载的空间信息形式各异,图元索引关联的各类空间数据信息采用不同的数据库来分别处理:

(1)二维矢量数据。通过空间-关系型数据库PostgreSQL存储矢量图形,PostGIS空间数据库引擎是在关系型数据库PostgreSQL 上的空间数据存储和各种数据操作的一个插件。PostGIS 通过 SQL 语句进行数据操作,空间对象以表的形式储存,每个空间几何实体对应数据表中的一条记录,其中记录了坐标信息和属性信息,并支持多种开源投影库。PostGIS 遵循 OpenGIS 规范,并能提供空间对象、空间索引、空间操作函数和空间操作符等空间信息服务功能,能够较好地支持二维矢量数据的存储和操作;

(2)三维数据、栅格数据。通过分布式文件系统存储栅格数据、三维数据文件,在具体项目实践中我们采用SeaweedFS作为分布式文件系统的选型。SeaweedFS是一款使用go语言编写的开源分布式文件系统,具有架构简单、高度扩展性、可伸缩特性,分为master和volume两类节点,通过Raft算法来保持节点间的一致性,同时支持中小文件和大文件大的高速存取[18]。栅格数据、三维数据文件存储在分布式文件系统中,在上传和存储时按数据文件要求的层次结构存储,图元索引记录其在分布式文件系统中的绝对路径,系统通过解析绝对路径的对应前缀找到文件夹和文件夹下的文件组织结构。当模型三维数据需要结构化解析和内容管理时,PostgreSQL数据库存储三维模型结构化后对应的三维矢量数据、属性数据以及三维模型的层次结构。

(3)附件数据。采用分布式文件系统,实现海量的非结构化数据的存储、管理。

图5 空间数据体及关系的存储方式

Neo4j数据库集成了Traversal数据遍历接口及Lucence数据索引功能,不仅能以相同速度遍历所有节点和边,而且遍历速度几乎不受构成图形的数据量影响,通过各种图论算法,能够提供多种查询检索、挖掘的能力。通过Neo4j图数据库进行空间数据体和关系的存储和组织,由图数据库的节点存储空间数据体唯一标识编码和抽取的必要信息(概要实体),节点关系边记录关系谓词。

4 应用

该数据模型已经在国土空间基础信息平台、城市地质大数据云平台等相关项目建设中进行了实践应用。以河南省某市为例,通过多类型分布式数据库的建设,利用空间数据体模型来组织数据,初步接入数据量达到600T,不仅包括了传统的文件型数据,还有效地管理了物联网数据,实现了对多源异构数据的汇聚、管理、更新、应用。其主要优势及特点如下:

(1)实现了海量、多源异构数据的汇聚。充分发挥多类型分布式数据库的优势,对海量、多源异构数据进行有机存储,解决单一数据库管理难度大、数据间缺少联系的问题。

(2)数据更新。引入时态域的概念,通过数据模型各域之间的关联性,能够更好地对数据进行更新,解决了数据增长速度快,无法及时更新的难题。

当然在具体应用中也存在一些问题需要进一步研究和改进:

(1)数据模型仅能解决基础的数据管理问题,还无法解决数据的多角度特征描述、全流程管控等问题,需要研究并增加数据标签、数据血缘等机制。

(2)数据模型解决了地理场景数据组织问题,但由于三维数据量大,需要解决大、小文件的优化存储、大数据的高效调用问题。

(3)当前对于地理场景、地理实体关系的研究还很基础,仅能通过专家规则提取有限的关系,后续还需要研究多种关系的抽象、抽取规则、谓词定义等。

(4)模型缺乏对地理场景、地理实体的多颗粒度抽象,当前仅根据某一业务场景确定固定的抽象粒度,后续还需要进一步研究。

5 结束语

本文结合实景三维中国具体建设应用需要,在原有地理实体数据模型基础上提出了能够集成多源异构空间数据的数据模型,扩展了“三域”标识,增加非结构化数据索引,并探讨了基于空间数据体数据模型的关系组织方案。下一步还需要对三维空间数据的结构化组织和管理,空间数据体之间的关系定义、抽取、组织,数据标签,数据血缘,实体的多颗粒度抽象等方面进行更为深入的研究,更好地满足各类大数据挖掘、应用的需求。

猜你喜欢

数据文件空间数据数据模型
基于Pro/E 的发射装置设计数据快速转化方法
GIS空间数据与地图制图融合技术
面板数据模型截面相关检验方法综述
基于表空间和数据文件探讨MIS中数据库架构设计
基于网络环境的社区协同办公问题探讨(二)
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
网格化存储的几项关键技术分析
气象数据文件异机备份程序浅析