空间数据库的回归与发展趋势
2021-04-10余秋实邵燕林
余秋实,邵燕林
(1.长江大学 地球科学学院,湖北 武汉 430000)
空间数据库是旨在研究空间物体和空间数据的表示方法和有效存储结构,并在计算机中建立相应的数据模型,最终构建一定的空间索引方法的科学。空间数据的特殊性质—现实性、一致性、完整性,以及特有的空间关系特征和非结构化特征等[1],使得空间数据库从最开始的文件索引系统逐步向大数据方向演化,并能结合不同的实际用途共同开发多个方向的数据管理系统,逐步拓展了空间应用范围、增加了数据库的管理功能。
在空间数据库的全部结构中,对空间数据的存储、索引、压缩和空间查询进行处理与优化是重中之重,吸引着人们不断为之探索新技术、开发新应用。从较早的强调继承性与多态性的面向对象的软件方法,到应用在对象关系数据库中,结合抽象数据类型来支持空间索引、空间操作和查询优化等操作,空间数据库的清晰脉络在演变中不断发展与更新,也体现了人们不断更新的应用空间数据的方式。
空间数据库的五大核心技术分别为空间概念模型、空间数据类型与操作、空间查询语言、空间操作算法和空间索引访问方法[2]。近年来,空间数据库的创新性内容无一不是围绕着五大核心技术而成,其他基础性的概念与内容也愈发得到了更多的了解与认同。
1 空间数据库的地理回归
地理的不断发展以及相关技术的更新换代使得该学科愈发体现出其重要的基础优势,“回归地理”将成为近期研究的着力点,这意味着空间数据库在结合了越来越多的实际用途后,终于能回到服务地理应用、共同构建基础地理支撑与操作这一方面。
1.1 改进基础地理空间数据库
传统的数据更新主要依靠测绘人员绘制的基础图幅地形图进行更新,过于冗杂耗时,且无法适应新时代信息更新换代的速度,因此需对空间数据库中的数据标准、管理方案以及数据的实时动态更新进行一定的技术修改,从而提出新的技术方法。向红梅[3]等对基础地理空间数据库进行了一定的改进与更新,使其更符合当下信息化测绘时代对地理信息数据实时综合服务的更高要求。
1.2 利用GIS数据库存储多重数据
针对地貌图和地形图的不断更新,国外相关研究的思路是开发一种全新的地貌GIS数据库,可全面存储地貌数据,并将其作为处理和提取空间主题数据的基础。该数据库中的空间信息主要包括岩石形态、水文、岩性、成因、演化过程和岩龄等。Gustavsson M[4]等指出,该地理数据库的独特之处在于充分考虑了GIS应用程序的实际需求,与其并行设计构建了综合地貌制图系统,这种设计上的紧密耦合使得信息可以轻松地从地貌图中数字化到GIS数据库中,以便于科学研究和实际应用。
2 空间数据的管理与分析
空间数据库的发展一直在不断地进行多领域融合,并在创新中完成自身的蜕变,因此从地理走向生活、走向对多种数据的管理与分析,将是一个无法阻挡的变革趋势。例如,某地政府与相关机构长期掌握着当地城市规划数据以及其他相关基础信息数据,但若不进行一定的数据管理与共享,这些数据易丧失其时效性与可挖掘性,从而无法发挥真正的政策支持和辅助规划作用。
2.1 构建“多规合一”信息平台
为了合理分发与调用空间数据,可以构建“多规合一”信息平台为契机,充分挖掘空间数据的存在和使用价值。金兵兵[5]等以广州市天河区为例,利用数据服务的方式实现了与多个部门业务系统之间的同步数据交换,并在ArcSDE的支持下完成了数据的集成化管理;然后利用WebGIS和数据挖掘等技术完成了数据之间的“联动”操作,进一步提供了数据交换与共享、地理坐标转换与三维仿真辅助规划等功能,为项目建设审批与管理等业务提供了相应的GIS技术支撑。“多规合一”信息平台集成了发展规划与土地规划数据库、城乡规划数据库和基础地理信息数据库等丰富的数据库内容,在空间数据的存储与管理方面实现了质的飞跃,也使空间数据能为更多项目提供信息技术的有力支持。
2.2 采用空间分层数据库
建设空间结构化的数据库可以帮助决策者制定一定范围内的管理计划,确定资金和特定管理措施的优先顺序,跟踪保护和恢复进度,进行基于科学决策的研究。查阅国外相关文献发现,类似的空间分类与空间数据库技术也同样应用于环境数据的管理、研究与决策内容中,如WANG L Z[6]等指出在研究五大湖水生栖息地框架时,需要一个在整个盆地范围内具有生态等级和社会经济信息的空间分层数据库来存储该数据。在构建的相关数据库中,为了存储河流或海岸数据的流泻方向与集水区数据,需要划分30 m的网格单元,从而详尽描述具体的海岸线条件、沿海人类的干扰以及适度变化的理化和生物特征。该数据库有效存储了多种相关的空间数据,也为海量数据的处理方式提供了新的灵感。
3 海量数据对空间数据库提出的新挑战
海量数据正向空间数据库不断提出新的挑战:首先,在移动互联网、云计算以及相应的空间数据采集技术的不断发展下,空间数据拥有的海量特征已逐步转变为空间数据的大数据特征,这对空间数据的存储和管理提出了新的挑战,需要更大的数据量和更高效的数据处理模式;其次,在大型地理信息系统中,通常需同时对海量的矢量数据与栅格数据进行合理化存储,并为高并发的用户查询请求提供高效响应,处理并发回用户索取的数据,但令人遗憾的是,传统的数据库设计方案难以满足该需求;与此同时,快速高效地查询信息日渐成为衡量当前空间数据库性能的重要指标之一,而传统的单节点关系型空间数据管理方式难以满足大数据量空间数据查询的需求,特别是高性能的复杂空间多表链接任务需求,这也是对新兴空间数据库所附加的更高要求。因此,需要基于新型的数据库存储策略,设计基于新型架构的数据库管理系统,以期解决数据的多分布、多存储、数据量过大与实时动态采集数据等问题。
1)将关系型数据库转化为分布式空间数据库势在必行。关系型数据库主要基于传统的集中式存储与数据管理模式,以现代的眼光来看,其局限性主要集中在处理和应用大数据方面,包括存储内容和存储能力的可扩展性以及后续的高并发处理能力要求。在GIS领域中,空间大数据存储正不断地向开发者提出更高的并发要求,且尤为重视可扩展性数据库的存储能力以及数据库内外的数据处理和访问模式。因此,李绍俊[7]等提出了基于内存和NoSQL数据库的空间大数据分布式存储与综合处理策略。该策略充分结合了基于传统关系型数据库的GIS基本功能和NoSQL数据库提供的大数据分布式存储能力,既满足了数据存储的需要,又保证了整个系统GIS功能依旧完善。
2)采用分布式空间索引处理海量矢栅数据。针对大型GIS中存储的海量矢栅数据,吴琰[8]等提出了一种 利用基于内存存储的分布式数据库HBase存储空间 数据的方法,并设计了一种基于GeoHash的分布式空间索引,旨在实现矢栅空间数据的分布式存储与快速并发查询。实验结果证明,该索引可大大提高海量空间数据的存储和查询效率,并保证高并发数据访问时能快速响应,这意味着该数据库可为大型综合性GIS的运转效率问题提供一条行之有效的解决途径。
3)采用无共享架构的优势。基于MPP架构的无共享架构的优势再次被人们所重视。陈达伦[9]等设计了基于MPP架构的并行空间数据库原型系统,并针对空间数据的特性,设计了并行空间数据划分与导入、并行空间多表链接、空间数据查询优化等算法与模型。为验证该系统的有效性,反复进行了多次试验。通过数据分析发现,在处理大规模数据量的数据挖掘时,相较于传统单节点数据库,该系统能更充分地提高复杂查询海量数据的性能,更好解决空间数据库并行化处理数据的问题。
上述3种解决方案较好地应对了海量数据向数据库管理系统提出的挑战,能促使空间数据库的不断发展、进步,从而伴随着人类自身的科学发展过程。
4 基础空间数据规则的反思与修改
当种种面向大数据的空间数据库技术不同却又相似,实质性的创新仍在路上、并没有到达人们眼前时,可考虑对基础拓扑规则进行一定的思考与完善,以便于验证真正复杂的地理数据集。
4.1 对拓扑规则进行新扩展
对拓扑规则进行新扩展,从而拥有更广泛的规则集,则可将要素属性与拓扑规则混合在一起作为新的过滤器,在一定程度上改变原有的处理逻辑。Martinez-Llario J[10]等提出了一种基于规则的拓扑软件系统。该系统提供了高度灵活快速的过程,以便在数据集之间的空间关系中保障数据的实施完整性;且可与包括PostgreSQL、H2或Oracle在内的各种DBMS一起使用,具有良好的数据兼容性,可在后端空间中有效执行具体的运算逻辑。
4.2 注重对空间数据本身的处理与分析
国内的相关文献更加强调对空间数据本身的处理与分析,如赵红伟[11]等为解决地理空间数据在空间、时间、内容上的语义关系,提出了地理空间数据本质特征语义相关度计算模型;艾廷华[12]等则对空间数据多尺度表达问题进行了详细思考,提出了多级尺度显式存储、初级尺度变化累积、关键尺度函数演变和初级尺度自动综合4种技术策略。与进步的趋势,从而便于数据科学的进一步发扬光大,真正让数据组成我们的生活、并服务于我们的生活,让空间数据库的发展真正便于每个自由发展的个体。
5 对空间数据库发展的展望
目前地理信息处理仍是空间数据库研究内容的重要组成部分,但空间数据库技术已走出了单纯研究地理要素、进行地理处理和分析的范畴,正在不断向海量数据管理、海量数据处理等方面迈进,且已取得了许多行之有效的研究成果。未来空间信息中的时间数据必将被进一步重视与分析,这将意味着时空数据库和智库功能终将被赋予新的重要价值,而空间信息所蕴含的其余价值也将被进一步挖掘与处理,以期适应人类社会不断发展