分布式数据库中数据集成与共享的研究进展*
2020-11-28奥勇李美丽赵永华孙佳佳付泉
奥勇,李美丽,赵永华,孙佳佳,付泉
分布式数据库中数据集成与共享的研究进展*
奥勇,李美丽,赵永华,孙佳佳,付泉
(长安大学 地球科学与资源学院/土地工程学院,陕西 西安 710054;陕西省土地污染整治重点实验室,陕西 西安 710054)
分布式数据库是地理信息系统(GIS)发展的重要的研究热点和难点,数据集成与共享是其研究核心。从分布式数据库数据集成与共享的角度出发,基于国内外研究现状,对现有的分布式数据库、数据集、数据共享的典型模式进行了综合分析,总结其在研究技术方面存在的问题。结合计算机网络技术及分布式数据库管理方式的优化升级,论述了如何提高空间数据集成与共享的效率结合及使用率这一问题,并对地理空间数据集成与共享的应用前景进行了展望。
分布式数据库;地理信息系统(GIS);空间数据;数据集成
1 概述
随着GIS技术自身的发展及社会应用的需要,不同系统之间数据的共享和互操作受到人们越来越多的关注[1]。然而,GIS的迅速发展和广泛应用积累了大量的地理数据资源,它们分别以不同的格式存储在不同地理位置的不同系统中,给数据综合利用共享带来了很大不便,特别是给数据在网络环境下的集成和共享构成了障碍[2]。同时,大数据、云技术、时态GIS的发展,以及人工智能和智慧城市的提出,GIS服务的要求不仅仅局限于数据表层,更是对数据深层含义的挖掘。地理空间数据的分布性、复杂性、变长记录、载体多样性、海量数据、多尺度性和时空、多语义等特性造成空间数据的管理混乱和使用效率较低,数据的重复采集和无组织分布都是对地理空间数据的极大浪费。空间数据的集成和共享是提高数据利用率达的有效途径。因此,数据集成和共享技术的更新及优化,尽可能提高空间数据的管理和使用效率是GIS当前和今后研究的热点和重点之一,分布式数据库中数据集成和共享为数据的高效利用提供更多的思路和解决方法。本文分析了分布式数据库与传统集中式数据库的优缺点、当前存在的数据集成与共享的优势和不足;总结现有数据集成与共享方法存在的问题,并对其存在问题提出了合理改进意见,对其应用前景提出展望。
2 分布式数据库介绍
分布式数据库系统是数据库技术与计算机网络技术相结合的产物[3-4],是解决地理数据、软件及硬件等资源共享和进行远程互操作及互运算的有效途径,是当前地理信息系统领域研究的热点和前沿[5]。其主要技术涉及并行计算、分布策略、数据分片、查询优化以及分布式数据库系统的并发控制[6]、事务处理与恢复技术等。简而言之,分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成的一个逻辑统一的数据库。数据分布的主要目的是就地访问,而不是分布访问,只是有时为了提高可用性或者达到各个节点的负载均衡,才分布数据[7]。即通过数据的合理分布,尽可能使更多的数据能够就地存放,以减少远距离的数据访问,但在任何分布式数据库中,所有数据的局部化访问是不可能的,即使多复本也只能达到读取的完全局部化。
2.1 分布式数据库研究现状
信息量和用户的增多,给分布式数据库的信息查询、计算和事务处理等方面都带来了极大的挑战。要想实现空间地理数据的集成与共享,前提是必须保证数据的一致性和完整性[8],这就要求分布式数据库不仅要对网络系统相关功能进行分析,还要对各个节点上独立存在的数据库系统进行有针对性的分析和解剖,才可以有效解决在不同站点上数据的相互访问与交流问题,从而实现数据的一致性与完整性。针对维护分布式多源异构空间数据的完整性与一致性这一亟待解决的问题,从技术层面研究了分布式空间数据库的同步更新技术,马东波提供了一种可行的解决方法,并得到实验验证[9]。徐爱萍等人以水文及水环境数据交换架构和数据共享平台的构建为基础,采用异构多源数据库引擎中间件解决了不同种类数据库之间的数据交换问题,使用数据目录注册的方式使得集成平台的管理和使用便捷通用[10]。基于多属性决策的分布式多空间数据信息快速融合方法利用模糊理论、欧氏距离、测熵值等来确定各信息属性的局部融合权重,得到各个空间信息源的全局融合权重,以此为依据完成对分布式多源空间数据库数据的快速融合[11]。邬伦等人通过对空间数据分布特征的分析,提出了多空间数据库系统集成的基本思路——异构同化,同构整体化,提出建立分布式多空间数据库系统来实现异构空间数据源的互操作,以达到空间信息共享的目的[12]。
2.2 分布式数据库的优势
按数据库对数据管理的集中程度可以分为分布式数据库和集中式数据库。分布式数据库与传统数据库比较如表1所示。
表1 分布式数据库与传统数据库比较
数据库类型优点缺点 传统集中式数据库系统运行成本低,应用软件和数据库表结构的更新与升级优越性高,利于数据的集中查询中心主机的建设成本高,网络完全性和主机安全性低、可扩展性有限,数据安全性不高 分布式数据库数据的读取速率高,可扩展性强,提供更大的用户并发访问量系统运行成本高,不能共享全部的数据,数据的安全性不高
综上所述,集中式数据库可以对数据进行集中式管理,减少各级计算机机房和服务器建设的费用,但其中心节点的网络故障将导致整个数据库系统不能正常运转,而且数据的安全性也不高。分布式数据库虽然要维护多个节点的服务器机器操作系统正常运行,但是,这种组织数据库的方法克服了物理中心数据库组织的弱点,降低了数据传送的代价,在很大程度上还提高了系统的可靠性和数据的安全性,而且便于系统的扩展。分布式数据库为了保证数据的高可靠性和高访问速度,往往采用备份的策略实现容错,所以,在读取数据的时候,客户端可以并发地从多个备份服务器中同时读取,从而提高数据的访问速度。
更重要的是,分布式数据库的发展对数据的集成与共享提供了很大的便利,提高了数据的使用效率,为地理信息服务提供了广阔的应用前景。
2.3 分布式数据库技术优化对数据集成与共享的意义
分布式地理信息系统是政府办公、企业及部门生产管理、国家空间信息基础设施、全球空间数据基础设施、数字地球、智慧城市等一切信息系统的技术支撑。网络和科学技术的飞速发展,地理信息系统的发展趋势要求GIS数据的来源更加多样化,同时也将改变其数据的获取、管理、分析和输出的形式。最突出的变化就是空间信息将从“地表空间”向“全空间”发展。空间数据的高效存取将是GIS设计者和使用者的共同需求。分布式GIS的出现为解决地理数据的复杂操作、数据的保密性和完整性这些问题提供新的思路和解决方法。
3 数据集成与共享技术
空间数据集成是将具有某种或多种异质性的数据集通过重新建模整合到统一框架下,对数据形式特征(如格式、单位、分辨率、精度等)和内部特征(属性、内容等)作全部或部分调整、转化、合成、分解等操作,旨在提供数据分布式高效使用和数据共享的数据深加工范式[13]。数据共享可以使更多部门使用非己有的数据,更加充分、有效地利用数据,减少重复劳动和数据采集的费用以及数据的维护和管理费用,使GIS系统更容易集成,能够使GIS开发重点集中在新的应用方面。采用数据引擎思想实现空间数据的集成与共享,类似于ODBC中驱动程序提供动态链接库的方式,通过数据引擎,驱动程序接到请求后,动态地把请求转换成其数据源可以处理的命令格式,从而获取所需数据信息[14]。
3.1 空间数据的集成和共享现状
传统的数据集成所采用的方法基本可以分为两大类:数据复制方法和模式映射方法[15]。空间数据集成之间存在的语法、模式和语义异质性[16]相应地存在3个层次,即语法、模式和语义层次上的空间数据集成。
早期空间数据集成研究受系统数据结构和逻辑模型不同的驱使,集中在语法和模式层次上,发展了数据转换、互操作和直接访问3种语法集成方法[17-20]及半自动模式集成方法[21]。斯坦福大学DB Group的数据集成方案是以数据复制方式进行数据集成的代表性方案。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表[22]。
模式集成(Schema Integration)是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是,在构建集成系统时,将各数据源共享的数据视图集成为全局模式(Global Schema),供用户按照全局模式透明地访问各数据源的数据。该方法不需要重复存储大量数据,能保证查询到最新的数据,比较适合集成数据多、更新变化快的异构数据源集成[15]。崔铁军等人针对用户对于地理空间数据的迫切需求,提出地理数据模型的融合、地理要素语义的融合和地理数据投影和坐标系的统一是多源地理空间矢量数据集成与融合基本理论与方法。给出了实现多源数据集成的数据格式转换、数据互操作和直接数据访问方法[23]。刘云汉通过研究数据集成的相关技术,采用基于Web Service的技术构建了包括数据层、业务逻辑层和应用层的异构数据集成平台。其中数据采用通用的数据访问接口,业务逻辑层以Web服务的形式发布,降低了层间耦合,实现了局部数据源的自治性、业务逻辑接口的通用性、响应的实时性和平台的易维护性[24]。基于JAVA/XML的松耦合的数据同步集成关系,以XML作为数据交换集成的载体,允许使用非常规的编程进行快速的商业系统集成,具有开放性、可伸缩性、可移植性和灵活性,可以高效实现数据的共享[25]。陈超等人提出了使用NoSQL存储地图瓦片数据的方法,解决了传统关系数据应对多发访问的瓶颈问题[26]。于小洋等人针对Web Service数据的多源异构性,提出基于本体和Karma建模的快速集成方法,并将其应用于天气信息的领域中[27]。YAN提出对NoSQL数据库的两种设计理念和五种不同的优化查询方法,为地理空间数据集成与共享提供了很好的数据库基础。李绍俊等人结合GIS领域空间大数据存储对数据库存储能力的可扩展性及数据处理和访问的高并发要求,提出基于内存数据库和NoSQL数据库的空间大数据分布式存储与综合处理策略,并开发了原型系统,对提出的存储策略的可行性和有效性进行了验证[28]。
3.2 分布式数据库中空间数据的集成模式
大数据环境为传统的科技服务提供了新的环境,面向区域共享平台复杂化、个性化的服务需求,探索大数据环境下区域共享平台的云服务模式,对提升平台集成服务能力,丰富平台管理方法具有重要的现实意义[29-30]。当前典型的分布式数据库有以下几大类。分布式数据库数据集成方法的对比分析如表2所示。
表2 分布式数据库数据集成方法的对比分析
数据库优点缺点 NoSQL存储空间大数据的成本低、高可扩展、高可用性;高通量I/O的持久化存储和数据提取;既满足了大数据存储的需要,又保证了整个系统对外提供的GIS功能不退化[28]操作方式、查询方式有局限性,单一空间索引算法的局限[31-39] Mongo DB支持动态查询,支持完全索引,模式自由、支持复制和故障恢复,数据存储高效,自动处理碎片,支持云计算的扩展不支持SQL查询,自身分片技术的限制,数据在各点分布不均匀 基于Haodoop的SQL数据库有效减少数据的检索时间,提高系统的整体性能,可以对海量数据进行存储和处理[40-41],高并发、低成本、高可靠性[42]不适合低延迟数据访问,无法高效存储大量小文件,不支持多用户写入及任意修改文件 Apache HBase节省存储空间、支持非结构化的存储;列动态增加且列为空就不存储数据;自动切分数据;提高海量数据的处理能力和速度,系统可靠性高;有效降低数据共享中出现的障碍对整个系统的影响[43]不支持条件查询、只支持按照Row Key来查询,不支持Master Server的障切换 Apache CouchB节点之间的数据增量复制数据格式无限制;系统扩展便利;支持云计算;可存储半结构化数据;支持海量数据存储;支持分区容忍性和数据可用性;支持数据一致性;提供rest数据访问API,简化开发过程;数据格式为json,更开放、贴切移动开发;提供andorid和ios版客户端数据库没有DB2简单 Riak数据模型灵活;没有主节点的概念,用Erlang编写Erlang没有使用共享内存 hypertable可处理海量数据;实现高效查询,高可用性;免受传统文件存储系统无法避免的失败影响不支持SQL查询空间数据运算
从各种集成方法的优缺点、适用情况及数据操作难度几个方面分析可知,Apache HBase数据库虽然在一定程度上可以节省数据的存储空间,但是它只支持按照Row Key来查询;Apache CouchB数据库技术很复杂,仅适用于专业用户;Mongo DB数据库系统灵活性高、扩展性强、容错性好、数据存储高效,但其自身数据分布方式的不均衡,导致后期数据的利用和共享不顺利[44];Riak数据库用Erlang适用于开发NoSQL数据存储等应用程序,只能通过发送/接受异步消息进行相互合作,数据的使用效率较低,会造成后期数据迁移耗费大量的资金;hypertable数据库可处理海量数据,具有较高的可靠性和较高的查询效率,但查询模式单一、产品还不成熟、应用不广泛。基于NoSQL进行二次开发的是目前用到最广泛的数据库,其成本低、可用性高、适用于大数据,符合各行各业的发展需求。
3.3 分布式数据库中空间数据的共享模式
分布式数据库数据共享的解决方法有:直接访问模式、数据格式转换模式、数据互操作模式、数据标准化模式、空间数据共享平台模式、元数据库访问等。空间数据共享模式对比如表3所示。
综上分析,不同的数据集成与共享模式有其自身的优势和局限性,目前并不存在“通用”的数据集成与共享方法。
4 结束语
任何一种数据集成和共享的方法都不能满足所有用户的需求,但每种方法有其自身的优势和适用领域,要想提高数据的集成和共享效率,必须在清楚使用目的和应用领域的基础上综合考虑所用数据类型及其特点,选择合适的数据集成和共享方法。
直接数据访问模式和数据转换模式虽然很难达到高要求和大面积的数据共享,但是如果在某领域内有通用的数据模型和格式,这两种方法也可以继续得到很好的应用;空间数据标准模式虽然提出很多年,但一直没有制订一个公认的标准,如果某些相近行业之间可以建立公用的数据共享标准,也会对数据的集成与共享带来很大的推动作用。
互联网+时空大数据平台构建的背景下,基于本体的数据集成与共享模式虽然是最理想的数据共享模式,但它也不是完全独立的,需要综合利用其他数据共享模式的优势,扬长避短,最大程度提高数据的使用率。可以在现有存储系统共享模式的基础上开发图像和语音识别系统,再结合深度学习和机器学习来训练模型,更好地将非结构费寓意的信息进行存储和共享,提高空间数据的使用效率。
表3 空间数据共享模式对比
数据共享模式优点缺点适用领域 直接访问模式无需转换数据模式易造成空间数据的丢失、精度损失,数据类型不能完全对应,数据一致性差,转换后存在数据冗余、乱码等情况局域内的数据共享 数据格式转换模式间接使用模式有局限性、过程复杂、工作量大、转换时间长、数据管理很难做到连续性,容易造成数据流失对数据精度要求不高的行业 数据互操作模式通过数据库之间稳定的接口动态地进行数据的调用和共享,数据的完整性高无统一的技术规范和转换机制,OGC成员效率和积极性不确定,不能处理非OpenGIS数据企业的各部门或者分公司之间的数据交流及政府办公 数据标准化模式在很大程度上推动了地理数据的集成和共享数据存在不兼容的问题,模式不成熟有相同标准或数据规范的行业、部门 空间数据共享平台模式采用C/S服务器体系结构,数据的一致性高技术体系不够完整,没有足够强大的公共平台可以支持部分领域、部门 元数据库访问模式可以有效定位、评价、比较,可以高效查询、获取和使用相关地理数据必须建立在数据互操作模式和数据标准化模式基础之上,元数据自身的标准定制还不完善部分领域、部门 基于本体的数据共享通过语义因子分解和建立概念来集成不同地理本体,有效解决数据的多语义问题,应用广泛,过程本体的有关研究成果有助于过程地理信息系统的研究与发展[45]目前只能根据辅助信息或由经验知识丰富或熟悉研究区的专家,根据经验知识进行人机交互细化各领域和部门
[1]梅士员,江南.GIS数据共享技术[J].遥感信息,2002(4):46-49,64.
[2]艾海滨,孟令奎,林志勇.基于XML的分布式异构地理数据集成与共享[J].遥感信息,2002(4):50-56.
[3]刘威.分布式数据库及其技术[J].长春大学学报,2000(1):27-30.
[4]杨东,谢菲,杨晓刚,等.分布式数据库技术的研究与实现[J].电子科学技术,2015,2(1):87-94.
[5]周国义.分布式GIS的研究[J].测绘科学,2003(3):43-45,85.
[6]ASTROM K J,WITTWNMARK B.Computer-controlled systems:theory and design[J].Iee Review,1997,31(31):237–248.
[7]马东波.分布式数据库的研究新趋势[J].产业与科技论坛,2017,16(18):79-80.
[8]陈静,向隆刚,朱欣焰.分布式异构栅格数据的集成管理研究[J].武汉大学学报(信息科学版),2011,36(9):1094-1096.
[9]马东波.分布式数据库系统的安全机制[J].产业与科技论坛,2017,16(16):45-46.
[10]徐爱萍,宋先明,徐武平.分布式异构数据库集成系统研究与实现[J].计算机工程与科学,2015,37(10):1909-1916.
[11]江洲,李琦,王凌云.空间信息融合与地理编码数据库的开发[J].计算机工程,2004(5):1-2,153.
[12]邬伦,张毅.分布式多空间数据库系统的集成技术[J].地理学与国土研究,2002(1):6-10.
[13]李军,费川云.地球空间数据集成研究概况[J].地理科学进展,2000(3):203-211.
[14]吴小芳,蔡忠亮,邬国锋,等.基于数据引擎思想的GIS数据集成与共享[J].测绘工程,2003(3):14-17.
[15]钟秋燕.数据集成技术综述[J].电脑知识与技术,2008(24):1120-1122.
[16]BISHR Y.Overcoming the semantic and other barriers to GIS interoperability[J].International Journal of GeographicalInformation Science,1998,12(4):299-314.
[17]闾国年,张书亮,龚敏霞,等.地理信息系统集成原理与方法[M].北京:科学出版社,2003.
[18]宋关福,钟耳顺,刘纪远,等.多源空间数据无缝集成研究[J].地理科学进展,2000,19(2):110-115.
[19]刘占伟,刘厚泉.基于GML的多源异构空间数据集成系统的设计[J].计算机工程与设计,2007,28(8):1962-1965.
[20]旷建中,马劲松,蒋民锋.基于GML的多源空间数据集成模型研究[J].计算机应用研究,2005,22(6):105-107.
[21]DEVOGELE T,PARENT C,SPACCAPIETRA S.On spatial database integration[J].International Journal of Geographical Information Science,1998,12(4):335-352.
[22]HAMMER J,GARCIA-MOLINA H,WIDOM J,et al.The stanford data warehousing project[J].In IEEE Data Engineering Bulletin,1995,18(2):41- 48.
[23]崔铁军,郭黎.多源地理空间矢量数据集成与融合方法探讨[J].测绘科学技术学报,2007(1):1-4.
[24]刘云汉.基于Web Service的异构数据集成平台设计与实现[J].电脑知识与技术,2017,13(30):19-22.
[25]董永峰,侯向丹,袁超,等.分布式异构数据库同步集成的研究与应用[J].计算机应用与软件,2012,29(6):122-124.
[26]陈超,王亮,闫浩文,等.一种基于NoSQL的地图瓦片数据存储技术[J].测绘科学,2013,38(1):142-143,159.
[27]于小洋,云红艳,贺英,等.利用语义技术实现Web Service数据的快速集成[J].青岛大学学报(自然科学版),2017,30(1):79-84.
[28]李绍俊,杨海军,黄耀欢,等.基于NoSQL数据库的空间大数据分布式存储策略[J].武汉大学学报(信息科学版),2017,42(2):163-169.
[29]程淑娥.大数据环境下区域科技资源共享平台云服务模式研究[D].哈尔滨:哈尔滨理工大学,2017.
[30]王宏起,李力,李玥.区域科技资源共享平台集成服务流程与管理研究[J].情报理论与实践,2014,37(8):69-73.
[31]ZHONG Y,HAN J,ZHANG T,et al.A distributed geospatial data storage and processing framework for Large-scale webGIS[C]//The 20th International Conference on Geoinformatics,2012.
[32]HAN D,STROULIA E.HGrid:a data model for Large geospatial data sets in HBASE[C]//Proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing,2013.
[33]WEI L Y,HSU Y T,PENGeng W C,et al.Indexing spatial data in cloud data managements[J].pervasive and Mobile Computing,2014(15):48-61.
[34]陈崇成,林剑锋,吴小竹,等.基于NoSQL的海量空间数据云存储与服务方法[J].地球信息科学学报,2013,15(2):166-174.
[35]CHANG F,DEAN J,GHEMAWAT S,et al.Bigtable:a distributed storage system for structured data[J].ACM Transactions on Computer System,2008,26(2):1-26.
[36]GHEMAWAT S,GOBIOFF H,LEUNG S T.The google file system[C]//19th ACM Symposium on Operating System Principles,2006.
[37]BURROWS M.The chubby Lock service for loosely- coupled distributed system[C]//Proceedings of the 7th Symposium on Operating System Design and Implementation,2006.
[38]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35.
[39]HECHT R,JABLONSKI S.NoSQL evaluation:a use case oriented survey[C]//2011 International Conference on Cloud and Service Computing,2011.
[40]陈红.基于Hadoop的分布式SQL数据库索引设计与实践[J].舰船电子工程,2018,38(4):73-77.
[41]王凌晖,解云月,周美华.Hadoop分布式存储架构的性能分析[J].现代电子技术,2018,41(18):92-95.
[42]张振猛.基于Hadoop的海量文件存储系统的分析与设计[D].北京:北京工业大学,2015.
[43]陆文星,涂竹松,梁焱.基于HBase的数据共享模型研究[J].计算机技术与发展,2016,26(4):36-40,45.
[44]李崇欣.分布式数据库HBase快照的设计与实现[D].杭州:浙江大学,2011.
[45]苏奋振,周成虎.过程地理信息系统框架基础与原型构建[J].地理研究,2006,25(3):477-484.
TP311
A
10.15913/j.cnki.kjycx.2020.01.009
2095-6835(2020)01-0031-05
国家自然基金项目“秦岭火地塘森林景观土壤微生物空间格局”(编号:31670549);陕西省土地整治重点实验室开放基金“污损土地遥感调查与评估研究”(编号:2018-JC08);自然资源部退化及未利用土地整治工程重点实验室开放基金(编号:SXDJ2019-8)
奥勇,男,长安大学地球科学与资源学院副教授,硕士研究生导师,陕西土地整治重点实验室信息室主任。
李美丽(1992—),女,硕士研究生。
〔编辑:严丽琴〕