APP下载

全国林业资源数据集群存储技术研究

2014-01-25谢阳生

吉林大学学报(信息科学版) 2014年3期
关键词:存储系统空间数据集群

黄 颖,谢阳生

(1.北京林业大学水土保持学院,北京 100083;2.中国林业科学研究院资源信息研究所,北京 100091)

全国林业资源数据集群存储技术研究

黄 颖1,2,谢阳生2

(1.北京林业大学水土保持学院,北京 100083;2.中国林业科学研究院资源信息研究所,北京 100091)

为解决全国大规模一体化林业资源管理,设计了适用于全国林业资源数据的分布式空间数据存储系统。通过数据分块、索引分级、集群合并,将各省和国家的林业资源数据集群在逻辑上合并成一个大数据集群。分布式空间数据存储系统的应用和全国数据集群的合并加快了数据处理速度,统一了数据管理过程,建立了全向的并发数据通道。为实现林业资源数据的全国一体化应用做了积极探索。

林业资源;大数据;集群数据;集群数据存储;林地一张图

0 引言

全国林业资源数据的一体化应用是林业信息化发展的趋势。目前我国的林业资源数据分散存储在各地分别管理和应用,难以实现林业资源数据的一体化应用。在存储和管理林业资源数据的部门中,多数将这些数据存储在单一数据库中,而且数据块大小没有统一标准,实际运行中访问大量的小数据块或读取过大的数据块,都会导致系统速度急剧下降。有的部门由于数据容量的问题将数据块存储在磁盘阵列中,这样虽扩大了存储量,但受限于硬件接口的吞吐能力,不能满足大规模并发处理的需求。在数据的一体化应用上,一些专家学者借助数据平台解决跨省数据访问的问题[1-4]。这样能以统一的方式访问数据,但数据经过多层包装转换,会产生额外的时间开销。在数据管理上,单一数据库扩容及数据迁移的成本也非常高[5-7]。

要解决这些问题只能改变数据的访问机制,笔者分析了林业资源数据构成、存储及应用特点以及数据集群的构成,提出将国家级和省级的数据在集群内按地理区域、时间和类型进行分类,将数据块按统一大小分割后均匀分布存储在大量的数据服务器上,每个数据服务器上都运行独立的数据库,然后建立数据、数据块索引[8-10],在不改变底层数据库软件结构的基础上实现数据处理过程的并发处理,最后通过索引同步将国家和各省的数据集群在逻辑上合并成一个大数据集群。实现了数据集群间的全向、并发的数据交互,大幅提高了数据处理速度,实现了国家和省级数据的统一管理。

1 林业资源数据分析

1 )林业资源数据构成。林业资源数据从林业业务的角度主要由森林资源、湿地、荒漠化和生物多样性四大类数据构成。其中森林资源、湿地和荒漠化是连续或区域集中连续的数据,从全国的范围来说,数据呈现连续且规模大的特点。例如全国林地“一张图”中所使用的全国林地资源数据,数据量达到12.4 TByte。而生物多样性数据则呈现数据分散且数据多的特点。因此从数据的管理上,林业资源数据构成表现出两种特点:数据文件少,但数据体量大;数据文件数量多,但数据分散。

2 )林业资源数据存储及应用特点。从数据存储的角度,目前国家级林业资源数据主要集中在国家林业局及四大直属院的相关部门中存储和管理,省级林业资源数据有的相对集中存储于省林业厅信息中心及省级林业规划部门,同时也有的分散于省级各业务部门。在应用上,由于国家、各省及各部门信息化程度的不同,数据的应用程度也有区别。信息化程度相对较高的国家级及省级单位,已经形成数据集群,能对数据库进行一定程度的并发访问,但并发量有限。

3 )林业资源数据集群构成。目前的数据集群一般由应用服务器、功能服务器、数据库服务器、磁盘阵列及三层内部交换网络构成。核心服务器通常处于同一网段中,通过千兆局域网或光纤连接。磁盘阵列一般会进行数据冗余保障数据安全,服务器进行多机负载均衡提高并发性能,通过双、多机备份保障应用稳定。随着林业专网建设的推进,目前已有一些国家级和省级单位接入专网,实现了数据的互通。

整体而言,我国森林资源数据类型多、总量大、存储分散,各级管理单位有一定的硬件基础,单位之间也有一定的网络连通条件,这些是全国林业资源数据一体化应用的基础。

2 全国林业资源数据分布式存储系统

针对目前全国林业资源数据的存储、应用及管理情况,为解决全国大规模一体化林业资源数据管理,笔者设计了分布式空间数据存储系统管理全国的林业资源数据,通过数据分块、分级索引和集群合并解决这些问题。

图1 分布式空间数据存储系统与单库存储的比较Fig.1 Comparison of distributed spatial data storage system and single database storage

分布式空间数据存储系统与目前常用的单库存储模式不同,它在多个数据库实例上同时处理数据,数据块分布在多台数据服务器上。如图1所示,右侧为分布式空间数据存储系统,数据处理在多个数据库实例中同时进行,数据库软件可从多个数据服务器上同时读取数据。

2.1 数据分块

应用分布式空间数据存储系统,首先要将数据进行分块存储。数据分块是指将数据分类后,分成相同大小的数据块,然后均匀分布存储在所有的数据服务器上。分布存储相同大小的数据块可以提高单机读取速度,也是数据库软件分布管理数据块的基础。在数据处理过程中,要访问在磁盘中大小不同的数据块就必须支持随机读写,而访问固定大小的数据块则只需要支持顺序读写。随机读写过程涉及的数据操作比顺序读写过程复杂得多,因此,在数据处理过程中减少数据操作耗时,能在很大程度上提高单次数据处理的速度,数据量越大,则速度差别越明显。数据库软件可基于分布式文件存储系统[11,12]管理分布存储的数据块。

将需要存储的数据根据时间、地域、图层分类后按照固定大小M分块。如图2所示,由于数据块大小不可能都被M整除,分割后每类数据都可能产生一定的剩余小块数据。为了能通过顺序读写同一类数据,这些零散的数据不能混合,并且剩余数据不管大小都必须占用M大小的存储空间。为了在应用中尽可能并发处理数据,同类、连续的数据块必须尽可能均匀地分布在不同的数据服务器上。

图2 数据块分割过程Fig.2 Process of data block partition

数据块大小M在实际运行环境中通过测试决定。实际情况较为复杂不可能通过公式计算出M的大小,只能在M的取值范围内验证测试一些取值,然后根据测试结果选取比较合适的值。假设在实际运行环境中发起一次网络连接的最长需时为t(s),最慢的服务器平均每秒能处理Vs(MByte)的数据,网络中平均每秒能传输Vn(MByte)的数据,则M>t。M太小,则新建网络连接的时间可能大于传输文件的时间开销,处理数据所需的总时间反而增加;M太大,则处理时间接近传输时间,总体性能没有得到提升。在笔者的测试环境中,选取的文件块大小M为64 MByte。

2.2 建立分级索引

数据分布存储到大量的数据服务器后,业务系统在处理数据时,必须知道需要访问的数据服务器。因此,在分布式空间数据存储系统中需要主服务器对数据、数据块建立索引。文献[13]为分布存储的林业资源数据管理设计了一种快速索引,该索引分为在主服务器索引和数据节点索引两级,结构上都由一棵SB树和一棵RQ树构成,以实现空间与属性数据的分布式存储并行访问。对分布式存储的数据块建立分级快速索引后,业务系统能通过主服务器上的第1级索引快速找到数据所在的数据服务器,并通过数据服务器上建立的第2级索引,快速判断自己是否存有所需数据。经过两级索引的过滤,业务系统可同时向存在所需数据的多个数据服务器发送数据请求,同时避免在不存在所需数据的数据服务器中盲目查询而影响系统的整体效率。

2.3 数据集群合并

经过数据文件分块和分级索引的建立,林业资源数据在集群内可以进行统一管理并在机制上解决并发处理问题。之后是通过国家、省级数据集群的合并解决全国一体化应用的问题。

数据集群合并的过程如图3所示,已经进行数据分块并建立了数据索引的省级数据集群和国家级的数据集群,其主服务器通过林业专网远程实现索引同步。在进行索引同步后,网络中的所有主服务器都将同步存储全国所有的数据索引,形成全国的主服务器群,物理分布的所有数据集群将在逻辑上形成全国的大数据集群。应用程序可通过任一主服务器获取到全国所有的数据文件访问地址,并同时在全国所有的数据服务器上处理数据。

图3 集群合并过程Fig.3 Process of clustermerging

3 应用实现

为了验证分布式空间数据存储系统的效果,笔者设置了5台服务器进行测试,其中一台使用较高配置,另外4台配置使用相对较低的配置。首先按传统方式,用配置较高的服务器安装数据库软件和空间数据引擎,数据存储在真实的磁盘阵列中,其次依次记录查询从50~10 000条林地小班边界所需的时间,每条小班边界数据包含约85个字段的属性数据;然后用笔者所建分布式空间数据存储系统,用配置较高的服务器作为主服务器,另外4台服务器作为数据服务器,记录查询相同数据所需时间。测试结果如表1所示。

表1 两种存储方式的处理时间对比Tab.1 Comparison of processing time of two types of storage

结果表明,在查询的数据量达到2007后,笔者所述分布式空间数据存储系统处理速度优于单库存储方式,处理的数据量越大,优势越明显。

通过测试验证后,将笔者设计的分布式空间数据存储系统应用于管理全国林地保护利用规划数据,建立了全国林地一张图管理系统,成功实现全国林地数据的统一管理以及快速的跨省数据访问,系统界面如图4所示。

图4 全国林地一张图管理系统Fig.4 National forestry land resourcesmanagement system

4 结 语

笔者设计的分布式空间数据存储系统在林地保护利用规划数据的管理上得到了良好的应用,进一步接入森林资源、湿地、荒漠化和生物多样性等数据,可实现对全国林业资源数据的统一管理和一体化应用。分布存储数据块并通过两级索引进行管理和访问,可以解决数据体量过大和数据零散导致的性能下降问题,能快速完成数据库扩容和迁移,为大规模并发计算提供支持。备份数据块和大量的数据库实例能保障数据的安全和服务的不间断。合并数据集群可以全面管理调度在各地存储的数据,实现全向的并发操作,真正实现林业资源数据的全国一体化应用。

该分布式空间数据存储系统底层是支持分布式文件存储系统的关系型数据库,需要空间数据引擎支持空间数据的存储管理。将来可以进一步研究面向对象数据库对空间数据分布存储的支持,同时也能通过在数据库内建立动态空间索引,进一步加快数据的处理速度。

[1]张冬有,臧淑英,冯仲科.黑龙江省林业地理信息公共服务平台设计[J].北京林业大学学报,2007,29(2):26-30.

ZHANG Dongyou,ZANG Shuying,FENG Zhongke.Design of Forestry Geographic Information Public Service Platform in Heilongjiang Province[J].Journal of Beijing Forestry University,2007,29(2):26-30.

[2]庞丽峰,唐小明,刘鹏举.基于WebGIS省级林业信息共享平台的研发[J].西北林学院学报,2011,26(2):180-184.

PANG Lifeng,TANG Xiaoming,LIU Pengju.Development of the Provincial Forestry Information Sharing Platform Based on WebGIS[J].Journal of Northwest Forestry University,2011,26(2):180-184.

[3]田波,丁丽霞,周云轩,等.多层分布式林业信息服务平台的构建[J].浙江林学院学报,2006,23(4):429-434.

TIAN Bo,DING Lixia,ZHOU Yunxuan,et al.Construction of a Multi-Layered Distributed Forestry Information Service Platform[J].Journal of Zhejiang Forestry College,2006,23(4):429-434.

[4]张旭,李增元,邓广,等.数字林业平台技术研究与实现[J].林业科学,2006,42(1):37-40.

ZHANG Xu,LI Zengyuan,DENG Guang,et al.Research and Implementation on Digital Forestry Platform [J].Scientia Silvae Sinicae,2006,42(1):37-40.

[5]张广艳,丘建平.分级存储系统中一种数据自动迁移方法[J].计算机研究与发展,2012,49(8):1804-1810.

ZHANG Guangyan,QIU Jianping.An Approach for Migrating Data Adaptively in Hierarchical Storage Systems[J].Journal of Computer Research and Development,2012,49(8):1804-1810.

[6]NAHAR P,JOSHI A,SAUPP A.Cloud Computing in Emerging Markets(CCEM) [C]∥2012 IEEE International Conference.Waltham,MA:[s.n.],2012:11-12.

[7]ADAM JACOBS.The Pathologies of Big Data[J].Communications of the ACM,2009,52(8):36-44.

[8]SANJAY GHEMAWAT,HOWARD GOBIOFF,SHUN-TAK LEUNG.The Google File System[C]∥19th ACM Symposium on Operating Systems Principles.Lake George,NY:[s.n.],2003.

[9]FRANKSCHMUCK,ROGER HASKIN.GPFS:A Shared-Diskfile System for Large Computing Clusters[C]∥Proceedings of the First USENIX Conference on File and Storage Technologies.Monterey,California:[s.n.],2002.

[10]DHRUBA BORTHAKUR.The Hadoop Distributed File System:Architecture and Design[M].[S.l.]:The Apache Software Foundation,2007.

[11]何林帮,李钢,王孝强,等.在Unix与Oracle环境下ArcSDE的优化[J].测绘科学,2012,37(3):178-180.

HE Linbang,LIGang,WANG Xiaoqiang,et al.ArcSDEOptimization in the Unix and Oracle Environment[J].Science of Surveying and Mapping,2012,37(3):178-180.

[12]师洪波,吴振新.基于HDFS的分布式长期保存系统实现研究[J].图书馆学研究,2012(1):29-35.

SHIHongbo,WU Zhenxin.A Study of Distributed Long-Term Preservation System Based on HDFS[J].Research on Library Science,2012(1):29-35.

[13]李惺颖,谢阳生,唐小明,等.林业资源数据集群的快速索引设计[J].吉林大学学报:理学版,2013,51(6):1111-1117.

LIXingying,XIE Yangsheng,TANG Xiaoming,etal.Design of Fast Index for Forest Resources Data Cluster[J].Journal of Jilin University:Science Edition,2013,51(6):1111-1117.

Study of Data Cluster Storage Technology of National Forestry Resources

HUANG Ying1,2,XIE Yangsheng2

(1.School of Soil and Water Conservation,Beijing Forestry University,Beijing 100083,China;2.Research Institute of Resource and Information,Chinese Academy of Forestry,Beijing 100091,China)

In order to solve large-scale integration of national forest resourcemanagement,a distributed spatial data storage system suitable for forestry resources data is designed.Through three steps,block data files,index classification and merge cluster,without changing the underlying database software structure,provinces'and national's data clusters are logically combined into a whole big data cluster.Application of the distributed spatial data storage system and merging of clusters increase the speed of data processing,unifiy data management process,establish omnidirectional concurrency data channel,is an active exploration for realizing forestry resources data for national integration application.

forestry resources;big data;data cluster;cluster data storage;forestry land resources on singlemap

TP311

A

1671-5896(2014)03-0316-05

2014-03-04

中央级公益性科研院所基本科研业务费专项基金资助项目(IFRIT201101);林业公益性科研专项基金资助项目(201304215)

黄颖(1989— ),女,四川宜宾人,北京林业大学硕士研究生,主要从事GIS开发与应用研究,(Tel)86-18600838756(E-mail)cafhuangying@gmail.com;通讯作者:谢阳生(1975— ),女,贵阳人,中国林业科学研究院助理研究员,博士,主要从事GIS开发与应用研究,(Tel)86-010-62888453(E-mail)Xieys@caf.ac.cn。

刘东亮)

猜你喜欢

存储系统空间数据集群
分布式存储系统在企业档案管理中的应用
海上小型无人机集群的反制装备需求与应对之策研究
天河超算存储系统在美创佳绩
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
元数据驱动的多中心空间数据同步方法研究
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
一种基于STM32的具有断电保护机制的采集存储系统设计
基于文件系统的分布式海量空间数据高效存储与组织研究