基于GeoSOT编码的林地数据组织管理与应用
2021-08-05刘永杰
刘永杰,李 晖
(1.岭南师范学院 数学与统计学院,广东 湛江 524048;2.国家林业和草原局调查规划设计院,北京 100714)
林地数据反映了森林资源现状和变化情况,是制定我国生态建设管理决策的重要依据。全国林地“一张图”汇集了全国基础地理、遥感影像、地形、林地变更调查小班数据及各类专题图,数据总量超过500TB,针对不同的林地数据有不同的存储管理方式。为了满足林地数据日常管理与应用的需要,首先要解决的是将全国各类林地数据,通过统一的框架进行组织管理。这个框架要既能满足林地数据本身的多尺度、离散性地理空间特征,实现唯一性标识,即在同一空间区域的信息具有相同的标识,还要求框架能利用极微小的处理过程,以极小的代价完成数据的高效组织。
GeoSOT网格是程承旗等[1-2]提出的一种全球经纬度剖分网格模型,它构建了地球空间信息剖分组织体系,在此基础上实现各类数据统一的组织管理。吕雪锋等[3-4]对 GeoSOT 区位标识编码模型进行了研究,分析了其特性及典型应用方法,提出基于GeoSOT区位标识的多源遥感数据组织方法,对遥感数据实现了高效、易用的组织管理;关丽等[5-6]提出基于球面剖分格网系统的矢量数据组织模型,以期更有效地存储和管理大范围多模式的矢量数据;廖永丰等[7]提出了基于“空间面片“统一组织管理多元灾害信息数据的方法,对多元多尺度灾害信息数据进行统一编码。本文基于GeoSOT全球剖分格网,对林地数据建立一套具有全球唯一性、多尺度性和离散性的空间信息区位标识剖分编码模型,利用GeoSOT剖分理论框架对林地数据进行统一的编码和组织管理,以期解决在林地数据管理应用中多源数据一体化组织管理、高效索引的问题。
1 林地数据的组织与编码模型
1.1 数据管理组织机制
林地数据是以高分辨率遥感影像、森林资源调查数据和基础地理信息为基础,以林地界线为核心内容的多源数据集合,目前基础地理数据按照标准分幅和行政区划组织管理;遥感影像数据根据影像管理要求,按照原始影像、校正影像、融合假彩色影像、融合真彩色影像进行管理,有些按照景为单位组织,有些按照标准分幅组织,有些按照一张图进行组织;林地落界和林地更新数据按照行政区划组织管理;专题成果数据按照现状、规划以及统计结果三类管理;森林资源档案数据按照矢量数据(征占、采伐、造林、抚育等的图形和属性数据)、栅格数据(审批文件的扫描件、现场照片资料等);元数据等没有统一的组织框架,零散以数据库进行存储管理,数据种类多样(包括矢量数据、栅格数据和属性数据),尺度不同(国家、省、县),每类数据的存储组织方式和区位标识方式各不相同,不利于林地数据的一体化组织管理。
通过对数据的分析,针对林地数据,采用构建区位标识剖分编码来组织管理,以GeoSOT剖分网格作为林地数据区位标识、矢-栅数据索引、属性及统计信息、文档信息区位组织的统一网格基础框架,其一体化组织机理如图1所示。
图1 数据组织方式
1.2 数据空间剖分方案
林地数据空间剖分以GeoSOT剖分网格作为林地数据区位标识、矢-栅数据索引、属性及统计信息区位组织的统一网格基础框架,根据每类数据管理上的要求,具体定义剖分层级和网格尺寸。
1) 遥感数据。剖分的核心思路是根据数据本身空间分辨率特征和用户对数据展示的要求等多种因素,选取最符合条件的剖分层级和网格尺寸作为剖分标准;文档型数据,包括林地属性表数据、林地专题成果数据以及元数据,林地规划专题成果数据会直接关联其统计单位,统计单位关联到政区,而有些数据其所表示的信息是具有空间位置的,数据表达的内容是空间上的一个点,或者一个区域。因此可以通过相应的计算或识别,得到该类数据的空间位置或分布范围,然后基于GeoSOT网格建立区位标识剖分编码,这些经过统一编码后的数据,就可以与具有相同空间区域属性的矢量和栅格型数据建立空间区位联系。
2) 林地矢量数据。主要是调查范围界数据和林地小班数据。调查范围界的最小级别是按照村(林班)进行组织管理的,分为县(林业局、管理局)行政区数据、乡(林场、管理站)行政区数据以及村级行政区数据,调查范围界各个级别数据在空间上是存在明确的空间包含关系的,在应用场景中往往涉及到逐级过滤、显示以及基于区域的统计分析,为便于检索应该针对调查范围界数据,自上而下,在上下级之间建立剖分层级过渡关系(表1)。经过对全国省、市、县、乡、村的图斑分布进行统计分析,根据其跨度差异,确定各类政区级别向下剖分的层级,其中村的向下剖分层级,需要参考小班的剖分层级,以便建立过渡关系,在满足业务应用要求的前提下,最大限度减少数据冗余,降低存储,提高运算性能。
表1 调查范围界数据剖分方案
3) 林地小班数据。相对政区数据其应用复杂度更高,从空间分析与数据统计层面考虑:一方面从空间数据角度,不仅要考虑到小班图形的拓扑一致性,还要考虑到小班与村政区的边界一致性;另一方面从数据统计的角度,考虑到针对其面积统计的便捷性,应该考虑统一其定位分面片所在的层级,而不是对不同的矢量要素单独分析定位面片层级。如经过对某一区域的小班做统计分析,得到林地地块的平均经纬度跨度为16.23″对应的剖分层级是在17级,可以在此级别选择其定位剖分面片。对于小班地块向下剖分的级数的确定,根据林业基于调查和经营管理的需求,地块管理最小面积定是0.066 7hm2(1亩),经计算其长宽约为25.82m,对应赤道的经纬度间隔为1″,对应的剖分层级是在21级,所以确定小班的定位面片层面从17~21级(表2)。
表2 林地数据剖分方案
1.3 数据剖分编码
构建林地数据统一的剖分编码主要是便于全国林地更新过程中,对需要更新区域数据的快速检索。GeoSOT 现有的多套基础编码体系有各自不同的优点与适合的方向,选择与本业务应用需要契合度最高的方法进行编制,定位在空间关系明显便于在数据库中检索查询特点上。四进制经纬形式编码方法相对于其它的编码方法,空间关系更为明显,以1个小班数据为例,1个面积约1.1hm2的小班(左下角坐标111°13′41″,27°53′1″,右上角坐标111°13′47″,27°53′5″),其四进制编码为G001123133221303101,其四至范围的粒度位于第18级,为8″格网,大小小于1个格网,纬向切片数量及经向切片数量均为1,直接通过对编码的解读就可以大致覆盖范围,而且由于采用的是显性的编码方式,可以直接利用数据库的查询检索机制快速进行定位,与现有林地数据的管理方式更为切合且改动最小,也充分利用了现有管理方法的优势。因此本模型选用四进制1维GeoSOT编码为最优基础编码方法。
2 林地信息数据管理技术
2.1 林地信息数据存储
林地信息数据存储主要包括栅格数据存储(遥感影像、航空影像、无人机影像),矢量数据存储(森林资源调查数据、基础地理数据)和属性数据存储(属性数据、统计报表)。
1) 栅格数据存储。栅格数据采用文件系统与数据库混合方式存储。文件系统按照传感器和轨道行列号对栅格数据进行存储。数据表则记录了栅格数据的基础元数据、太阳-观测信息、GeoSOT编码和文件存储信息,基础元数据包括了传感器的基本信息、数据获取时间、4个角点的经纬度、空间分辨率、数据行数和列数等,文件存储信息包括文件类型、文件大小、文件名称、文件存储位置等。
2) 矢量数据存储。根据矢量数据编码方案,林地矢量数据采用关系数据表存储,同时新建县级行政区划空间地理数据表,通过县级行政区名称与林地矢量数据表进行关联,实现林地矢量数据的GeoSOT编码。
3) 属性数据存储。根据属性数据编码方案,林地属性数据也是采用关系数据表存储,同时新建县级行政区划空间地理数据表,通过县级行政区名称与林地属性数据表进行关联,实现林地属性数据的GeoSOT编码。
2.2 多元林地信息查询检索
为快速查询一定空间范围的多元林地信息数据,本文采用“二次匹配”技术对数据库进行检索。第一次匹配采用空间范围外包矩形检索GeoSOT剖分空间面片,实现选择范围与空间面片的粗匹配;第二次匹配采用经纬度检索第一次粗匹配选中的空间面片,实现对目标数据的精确检索。其中,第一次匹配是多元林地信息查询检索的关键环节,其匹配结果的记录数量直接决定了第二次匹配的效率。第一次粗匹配技术方案主要是:首先根据所选空间范围外包矩形长边计算GeoSOT网格体系中包含该范围的最小层级n,并对外包矩形4个角点进行编码,编码位数为n;然后用该外包矩形4个角点的编码检索整个GeoSOT剖分面片数据表,选择编码前n位子字符串与该外包矩形编码完全相同的空间面片进入第二次匹配的数据集,完成第一次检索。
在第一次粗匹配中,所选范围外包矩形与检索目标数据有包含、相交和相离3种空间关系。如果外包矩形在GeoSOT网络体系中的层级高于检索目标所在的层级,将检索出大量与外包矩形相离的数据,导致二次检索数据集过大,影响二次检索的效率。为提高第一次粗匹配效率,本文设计了一种新的技术方案:首先根据数据的GeoSOT剖分面片编码长度n对所选空间范围进行划分,计算所选空间范围包含的n级面片编码,面片个数记为m;然后将数据库中数据记录的剖分面片编码与m个面片编码相同数据进入第二次匹配的数据集,完成第一次检索。
3 林地信息管理实验系统开发
林地信息管理实验系统主要是基于编码后的林地数据,依据林地更新业务模型,按照更新业务流程对整个数据检索组织进行实验,验证基于统一剖分标识的按区位组织数据的可行性和效率。为了更好地验证效率,选取省级单位林地数据作为实验对象,包括行政区数据(村级行政区数据要素约5 000个)、林地小班数据(要素约310 000个)、一幅遥感影像数据(0.2m)、相关的技术文档成果数据等。
3.1 实验环境
试验的硬件环境为笔记本电脑,配置为 Intel(R) Core(TM)i7-4500U CPU,双核主频 1.8 GHz,内存8 GB,采用SQLite数据库。开发语言:C#;开发环境:Microsoft Visual Studio 2010;.NET Framework 4.0;Enterprise Architect 8.0;Microsoft Office 2003/2007/2010;开发框架:C/S框架;三层架构(界面、业务逻辑、数据访问);Spring.NET(IOC)机制。
3.2 实验流程
按照林地更新业务流程,首先应用端根据用户所负责的地区,发出对某一行政区范围的林地数据的请求,通过统一访问模块中的数据查询服务,将行政区转换为剖分面片坐标,读取行政区数据中的剖分编码,再从剖分编码中直接寻址定位到面片存储单元。当获取目标区域信息时,通过主题查询服务判断该目标区域信息是属于某个剖分层级的某个剖分面片,还是属于某个剖分层级的多个剖分面片或者属于多个剖分层级的多个剖分面片区域;如果其属于某个剖分层级的某个剖分面片,利用剖分编码可以直接定位获取目标信息;如果属于某个剖分层级的多个剖分面片或者属于多个剖分层级的多个剖分面片区域时,根据剖分编码集合访问相关面片存储单元中的剖分数据,通过数据聚合获得所需要的目标信息。流程如图2所示。
图2 数据组织调度的流程
3.3 实验结果分析
从基于GeoSOT区位标识的区域林地数据检索时间试验来看,与经纬度坐标相比,林地数据的GeoSOT区位标识在一定程度上降低了区域数据的检索时间。通过剖分编码技术,可以正确地检索到所需要的政区数据,被检索的数据可以图形化展示出来。
4 结语
本文采用相对成熟的GeoSOT全球剖分模型,围绕林地管理业务需求,对剖分模型在林地管理上的应用进行了详细的分析。结果表明,通过剖分编码技术,可以正确地检索到所需要的林地数据;整个检索过程较为迅速快捷,能够满足林地更新管理业务需求;被检索的数据可以图形化展示。本文在分析GeoSOT剖分理论框架的基础上,提出利用剖分编码模型对林地管理中多源数据进行一体化的组织管理,详细描述了林地数据的组织机制、剖分方案以及编码方案,并搭建实验验证平台,按照林地更新业务流程,验证了基于统一区位标识编码的数据一体化组织调度的可行性和科学性。
从技术实现来看,项目的研究对现有系统改造较少,可以为不同类型、不同格式、不同来源的数据提供统一的空间数据组织与检索体系。研究实践中的不足在于,管理的大部分林地数据为记录型数据,存储于关系数据库中,建立剖分编码后,在数亿级记录上一维编码检索受限于BTree索引,所以性能受到一定的影响。但是,如果基于HBase等分布式数据库技术,对剖分编码序列使用分布式存储管理后,其并行读取、运算的效率必将得到明显提高。