省级国土资源数据物理存储策略研究——以陕西省国土资源数据为例
2012-12-28黄嵘,张新,常戈群,董春晓,池天河
黄 嵘,张 新,常 戈 群,董 春 晓,池 天 河
(1.中国科学院遥感应用研究所,北京 100101;2.陕西省国土资源信息中心,陕西 西安 710054;3.北京宇思时代信息技术有限公司,北京 100086)
省级国土资源数据物理存储策略研究
——以陕西省国土资源数据为例
黄 嵘1,2,张 新1*,常 戈 群3,董 春 晓2,池 天 河1
(1.中国科学院遥感应用研究所,北京 100101;2.陕西省国土资源信息中心,陕西 西安 710054;3.北京宇思时代信息技术有限公司,北京 100086)
基于对省内多级行政单元国土资源数据特征及管理需求分析,提出了多级行政单元国土资源数据应用模式及数据布局策略,并以陕西省为例,对省级土地利用数据库的地类图斑要素层,按照县级多实例、全省单实例(不进行布局控制)和全省单实例(按县进行数据库分区布局)3种布局策略下的数据访问性能,进行了测试和对比分析,得出对我国国土资源数据管理部门具有参考价值的结论。
国土资源数据;存储策略;系统运行效率
0 引言
国土资源数据涵盖地面、地下不同空间位置,涉及土地、矿藏、海洋、地质、测绘、环境等部门,包含街区(乡镇)、县、市、省、全国范围等不同尺度水平,面向事务管理、统计、分析、评价、预测等应用目标,具有时空动态性、多尺度性、目标多样性等特点。国土资源管理信息化在“统一领导、统筹规划、统一标准、信息共享、服务管理、面向社会”的方针指引下,近年来取得了明显的进展和成效[1]。但是,要建立“天上看、地上查、网上管”的国土资源管理运行体系,需要增强国土资源信息的获取、分析、研发能力[2]。而国土资源数据存储技术及策略是国土资源信息化的基础。针对该问题李德仁等提出国土资源网格化管理应用平台的体系架构,设计了基于空间信息网格的国土资源管理与服务平台,提出网格化管理中的数据更新机制、更新流程和更新方式基本框架[2,3];Yang等研究分布式地理信息处理技术[4];Chen等研究基于网格技术的地理信息存储与处理技术[5];解吉波等分析多级异构空间数据库同步的关键问题和难点,提出一种基于XML的多级异构空间数据的同步架构,并在“全国国土资源数据交换中心”试点建设项目中成功应用[6];赵俊三等提出以政务管理信息化、国土资源基础数据库管理及信息服务社会化为目标,以消除信息孤岛、实现信息共享、系统资源整合和国土资源管理“业务流程”为出发点的国土资源信息化建设的技术路线和方法[7];史辉等基于国土资源信息化和数据资源保护需求,将国土资源数据分为资料数据、基础数据、业务数据、管理数据和元数据5类,并提出对各类数据进行计算机管理的组织方法和相关技术[8]。上述学者从分布式网格计算、数据中心软件架构、数据交换等角度开展了积极探索,但对于数据中心内部如何实现多级行政单元、多尺度国土资源数据高效物理存储技术方面尚无针对性的研究成果。本文针对省级国土资源数据物理存储策略及效率进行研究,并结合陕西省多级国土资源数据开展了分析,以期对我国国土资源数据的高效管理及应用具有参考意义。
1 省级国土资源数据特征及管理需求
(1)数据特征。1)多源异构性:国土资源数据的获取途径和获取方式多样化,数据来源存在着监测方法、描述形式、存在方式、比例尺、投影方式和精准度等差异。2)分级性:国土资源数据存在着与其它维并存的行政区级别维度特征,往往按照国家、省、市、县4级层层下发和汇交。上级统一控制的数据逐级下发,数据格式与形式单一;下级部门形成的数据向上逐级汇交,各级数据内容覆盖其所辖行政区范围,并按照本级的管理和应用需求对数据进行处理,形成本级的统计、图件、文字报告等数据产品。与行政区分级类似,国土资源空间数据还存在地理空间不同比例尺特征,由大到小的空间比例尺形成一个完整的系列。3)数据规模庞大:国土资源管理涉及土地、矿产、资源、生态环境、经济等领域,数据规模庞大,随着对地观测技术的迅速发展和信息化的加速,国土资源数据呈现逐年加速增长的态势。
(2)管理需求。数据中心作为数据的汇集和交换中心,是国土资源数据集成管理的核心节点,其数据量、数据类型等方面的复杂程度均不同,所以其存储策略研究尤为重要。各地方符合同一标准的业务数据归集到省级数据中心后,可以采取两种物理存储布局策略。一是对同一数据模型进行多次实例化,占据相应的连续存储空间,分别用于存储相应地区、相应时点的数据,在应用层面通过复杂的功能开发,实现跨地区、全省范围的数据存取逻辑;二是对同一数据模型在整个数据中心只实例化一次,存储辖区内符合同一标准的多时点数据,在应用层面通过统一、简单的逻辑,实现跨地区、全省任意空间范围的数据存取。表面看,后者在维护数据模型统一性、部署、应用开发技术透明支持等方面具有明显的优势,也符合数据中心建设的“数据基础设施”原则,但由于使用单一实例集中存放数据,所容纳的数据量成百上千倍增长,其实施的直接障碍是数据利用性能极不理想。目前,国土行业内由于解决不了性能问题,只能退而求其次。另外,与其他数据一样,国土资源数据在其建立、分类、管理、发布、归档、离退这一生命周期的各个阶段,数据的时效性、价值、利用频度、保护力度等方面存在差异,有时某种差异性特别明显。例如,当获得了某一地区的最新影像后,该地区原有影像的应用范围和频度则显著降低,可能不必占用有限、昂贵的在线存储。本文重点研究省级多行政级别国土资源数据管理面临的数据模型单一实例化、大规模数据环境下的性能问题,以期对国土资源数据全生命周期管理提供技术支持。解决单实例、大规模数据环境下性能问题的主要思路是,通过分析国土资源数据应用模式,确定科学的数据物理存储布局,使单实例与多实例数据模型部署具有相似的数据获取性能。
2 省级国土资源数据应用模式
2.1 位置关联数据访问
实体对象空间位置上的邻近程度反映了其间联系的紧密性。与此类似,实体空间数据所体现的空间位置越接近,它们被同时访问的几率越高,在国土业务应用中这种数据利用特点尤其明显,即成区域连片使用数据。如果利用空间数据所反映位置的邻近程度在物理存储上布局数据,使越邻近的空间数据在物理存储位置上布局越紧密,使数据的布局与数据基于空间位置的访问模式相近,存储输入输出(I/O)次数和效率会有优势。因为如果在物理存储布局时忽略数据访问模式,极可能使空间数据在存储布局上无章可循,访问同一连续区域的数据,极可能需要更多的I/O,每次I/O获得真正所需数据占所获全部数据的百分比也很低。基于多实例的数据模型实施,本质上是将邻近区域的数据在物理存储上也邻近布局,与数据利用模式相近,具有性能优势。所以,解决单实例部署性能问题的关键是能有效保持相邻区域数据在物理存储上也尽可能相邻布局。
2.2 空间和非空间数据访问
国土资源实体对象空间属性与非空间属性并存,在利用空间属性时,往往将其置于更大空间范围内,通过电子地图浏览、分析和业务应用,空间数据往往独立于非空间数据进行物理存取;非空间数据往往基于电子表格等形式进行应用表现,往往独立于空间数据进行物理存取;统计分析工作要么基于非空间数据,要么基于空间数据,同时被使用的机会较少,即面向统计分析,空间数据和非空间数据也多是独立物理存取。基于这种数据应用模式,在物理存储层面,本文认为应考虑将实体对象的空间数据与非空间数据分开布局,各自基于实体空间位置邻近程度进行紧密布局,提高非空间数据、空间数据I/O效率。现行的使用大型数据库管理系统进行同一数据模型多实例部署的方法中,这一点几乎被忽略。
2.3 不同时点数据访问
同一数据模型可适应不同时点的数据,而不同时点的数据其被存取利用的频度并不一样。国土行业最新时点的数据往往具有最高的存取利用频率。所以,直观的做法是将不同时点的数据分别布局到相应连续的物理存储上,典型的做法是面向同一地区的相同业务主题数据,将数据模型实例化部署两次,一个实例用于存储最新时点数据,另一个实例用于存储全部历史时点数据。前一个实例容纳的数据量受到限制,保证满足必要的存取性能要求。这种做法需要经常将成为历史时点数据的内容迁移到后一个实例部署中,由应用程序实现较复杂的跨时点数据的存取逻辑。如果使用单实例部署容纳全部时点的数据,虽然应用开发逻辑变简单,但因为数据规模大,不同时点的数据可能在存储上交织分布,I/O效率难以保证,基于不同时点的数据管理工作也变复杂,单实例部署似乎并不可取。如果将单实例部署下的不同时点数据分布在相应的连续物理存储上,且能对不同时点的数据进行有效管理,则可达到与多实例部署一样的性能和可管理性。
3 省级国土资源数据布局策略
在省级国土资源数据中心,可依据地理范围、时点等因素确定数据的物理存储部署粒度,形成同一数据模型的一个或多个实例。基于地理范围的粒度大小,可形成对应标准地理分幅、县(市)级行政区和全省的统一数据模型、规模不同的部署实例,再以空间拼接或分割形成多级行政区的数据逻辑布局。
(1)基于标准地理分幅布局数据。将同一数据模型对应每个标准分幅进行实例化,将同一分幅内的数据存放于一个或几个连续物理存储区内,数据存取性能有较大优势。对省级数据库而言,这种策略会造成同一数据模型的实例数相当庞大、土地/矿产图斑及线状地物被大量人为分割、难以长期维持多实例符合同一数据模型等问题。以1∶1万的分幅标准粗略估计,陕西省约覆盖1万个1∶1万的分幅,在数据库管理系统中部署这么多模型实例难以想象;比例尺大的,地理分幅数更多,模型实例数也更多。
(2)基于县级行政区布局数据。将同一数据模型对应每个县级行政区进行实例化,属于同一县级行政区的数据被存放于一个或几个连续物理存储区内,数据存取性能也有较大优势。对省级数据库而言,这种策略会造成同一数据模型的实例数较大、难以长期维持多实例符合同一数据模型等问题。以陕西省为例,需要107个部署实例。
(3)基于市级行政区布局数据。将同一数据模型对应每个市级行政区进行实例化,属于同一市级行政区的数据被存放于一个或几个连续物理存储区内。由于每个单独部署实例中数据规模有明显增加,不同区域的数据交织存储机会大大增加,难以达到相邻区域数据在存储上也相邻布局的期望,数据存取性能会明显下降。对省级数据库而言,这种策略会造成同一数据模型的实例数较大、难以长期维持多实例符合同一数据模型等问题。以陕西省为例,需要12个部署实例。
(4)基于省级行政区布局数据。将同一数据模型对应每个省级行政区进行实例化,属于同一省级行政区的数据被存放于一个或几个连续物理存储区内。由于每个单实例中数据规模进一步增加,不同区域的数据交织存储机会大大增加,难以达到相邻区域数据在存储上也相邻布局的期望,数据存取性能会明显下降。
(5)基于多级分区数据布局的单实例化。本策略对数据模型实例化一次,但在底层物理存储上又依据数据在空间、时间、利用和管理模式等方面的关联性将数据聚集,使之连续分布。仅在物理存储层面,而不像多实例部署同时在物理层面和逻辑层面聚集和连续布局数据,发挥多实例部署更好适应数据利用模式而又有性能优势的特点;同时发挥单实例部署在维护数据模型统一性、部署、应用开发技术透明支持等方面的明显优势,彻底解决目前省级同一数据模型单实例部署所面临的性能和管理问题。
实现数据基于应用模式物理存储布局的方法是:空间数据与非空间数据分开存储,但支持逻辑上的整体利用;不同行政区(建议以县为粒度)的数据分开存储;不同时点的数据分开存储。由于多种布局因素起作用,可以采用存储多级分区策略。在具体的数据库管理系统中,可以利用其相应支撑机制完成。例如,在Oracle数据库管理系统中,可以基于行政区和时点标识信息对同一模型数据表中的数据进行分区/组合分区、对数据记录进行排序后入库、对数组数据或大对象数据使用外表(out-line)形式存储,使具有高概率连带利用的数据在存储区域上相邻。
4 数据布局策略效率实验
本文以陕西省国土资源信息中心数据为例,选择国土行业十分重要的土地利用数据库,对各种策略下的数据库性能进行分析。基于陕西省第二次土地调查成果,以建设陕西省级土地利用数据库为例,对省级土地利用数据库的地类图斑要素层,按县级多实例、全省单实例(不进行布局控制)、全省单实例(按县进行数据库分区布局)3种布局策略下的数据访问性能进行了测试对比,并对国家级土地利用数据库访问性能进行了线性外推。
测试环境与方法:1)数据库服务器:HP6531S笔记本,2 G内存;同时也作为数据访问客户端。2)数据库管理系统:Oracle 11 G企业版,含Oracle Spatial和Oracle Partition选项。3)在统一数据库实例的不同用户模式下部署3种策略建成的地类图斑要素层。4)为了实现数据任意范围的存取,建立数据库联合视图,支持县级多实例策略查询一个县的全部图斑属性数据。5)基于跨多个县的建设用地线性工程所涉及的地类图斑查询业务场景,进行空间查询测试。6)为了消除数据库缓存的影响,每次测试前都清空数据库缓存数据;为了消除数据显示耗时的影响,将数据输出结果重定向到输出文件。
表1记录了实际测试结果,各时间值是分别进行5遍测试后计算出的平均值。因为测试条件和工作量所限,表1中部分结果是线性推算出的值,具体内容参见表1下方的注解。
表1 数据布局策略性能测试结果Table 1 Efficiency of test result under different data organization strategy
分析性能测试结果,得出如下结论:1)在非跨县数据查询情况下,“县级多实例”与“单实例未布局控制”策略性能相当,“单实例按县分区布局”策略性能优势明显。2)在非跨县数据查询情况下,随县数量增大,“单实例按县分区布局”策略性能变化不大,而“单实例未布局控制”策略性能明显下降。3)在跨县数据查询情况下,三者性能相当,并且随数据规模变化不明显(原因是各种实例化策略对空间索引性能影响不大)。4)对于跨县的数据统计,“县级多实例”与“单实例未布局控制”策略性能相当,“单实例按县分区布局”策略性能优势明显。5)对于跨县的数据统计,随数据规模增大,“单实例按县分区布局”策略性能变化不大。各种策略性能测试分析结果表明,对于不同的数据类型、数据范围和应用目的系统开发,需要采取不同的数据布局策略,而对于全省统一数据管理,按县进行数据库分区布局具有综合的性能优势。
5 结语
本文基于对省级多级行政单元国土资源数据特征及管理需求分析,提出省级多级行政单元国土资源数据应用模式及数据布局策略,并以陕西省为例,对省级土地利用数据库的地类图斑要素层,按县级多实例、全省单实例(不进行布局控制)和全省单实例(按县进行数据库分区布局)3种布局策略下的数据访问性能进行了测试对比分析,所得结论对我国国土资源数据管理部门具有重要参考价值。由于国土资源数据量大、计算量大等特点,需要网络管理平台具备并行文件管理和处理的功能,以提高信息管理能力和处理速度,这是本文进一步研究的重点。
[1]王广华.国土资源信息化工作汇报[J].国土资源信息化,2006(1):7-10.
[2]李德仁,宾洪超.国土资源网格管理平台的框架设计与实现[J].测绘科学,2008,33(1):7-9.
[3]李德仁,宾洪超.邵振峰.国土资源网格化管理与服务系统的设计与实现[J].武汉大学学报(信息科学版),2008,33(1):1-6.
[4]YANG C,RASKIN R.Introduction to distributed geographic information processing research[J].International Journal of Geographical Information Science,2009,23(5):553-560.
[5]CHEN A J,DI L P,WEI Y X,et al.Use of grid computing for modeling virtual geospatial products[J].International Journal of Geographical Information Science,2009,23(5):581-604.
[6]解吉波,吴华意,龚健雅.基于XML的多级异构空间数据库的同步架构[J].武汉大学学报(信息科学版),2006,31(5):415-418.
[7]赵俊三,尹鸿瑜,赵耀龙,等.国土资源信息化建设的技术路线与实现方法研究[J].国土资源信息化,2004(2):11-15.
[8]史辉,李军,冯永玉.国土资源数据管理初探[J].山东国土资源,2008,24(3):45-52.
Study on Physical Storage Strategy of Land and Resources Data of Province:A Case Study of Shaanxi Province
HUANG Rong1,2,ZHANG Xin1,CHANG Ge-qun3,DONG Chun-xiao2,CHI Tian-he1
(1.InstituteofRemoteSensingApplications,ChineseAcademyofSciences,Beijing100101;2.LandandResourcesInformation CenterofShaanxiProvince,Xi′an710054;3.BeijingYouthInformationTechnologyCo.Ltd,Beijing100086,China)
The effective physical storage is the base for information system development of the land and resource data.Firstly,the characteristic and requirement of the land and resources data management of a province is analyzed in this paper.Then the application model and physical storage strategy is studied in detail.Taking the land and resources data of Shaanxi Province as an example,the data analysis performance is tested and analyzed under three different physical storage strategies,which includes the multi-instance for a county,single instance for a province(no layout control)and single instance for a province(with layout control).In the end,the conclusion is achieved which has valuable reference for other provinces of China.
land and resource data;storage strategy;system running efficiency
P208
A
1672-0504(2012)03-0036-04
2012-01- 05;
2012-02-16
国土资源部公益性行业科研专项项目(201011015);国家自然科学基金项目(60174123)
黄嵘(1973-),女,博士后,研究方向为国土资源数据管理及应用技术。*通讯作者E-mail:zhangx@irsa.ac.cn