APP下载

海量数据组织与管理研究的现状与展望

2014-03-26洪镇填

地理空间信息 2014年5期
关键词:存储设备海量数据库

洪镇填

(1.广东省国土资源测绘院,广东 广州 510500)

通过对海量数据的挖掘、分析和图形化呈现,能非常清晰地揭示用户的行为模式,加深对用户需求的理解,从而为产品研发提供依据。存储这些海量信息,不但要求存储设备有很大的储存容量,还需要大规模数据库来存储和处理这些数据。在满足关系数据库技术要求的同时,更需要对海量数据的存储模式、数据库策略及应用体系架构有更高的设计考虑[1-5]。

1 海量数据存储与组织

1.1 海量数据的存储

传统的存储模式在海量数据存储中存在固有的缺陷。例如,DAS占用服务器资源,存储设备较多时管理效率较低;NAS受网络带宽制约;SAN有一个统一的存储系统接口,对存储设备的共享访问存在数据的完整性与安全性问题,设备的跨平台性较差,且成本相对较高。新的对象存储技术能够有效满足海量数据的存储需要。

对象存储技术提供基于对象的访问接口, 将NAS和SAN 两种存储结构的优势进行了有效的整合。通过高层次的抽象,使之既具有NAS 跨平台共享数据和安全访问的优点,又具有SAN 高性能和可伸缩性的优点。

1)对象存储模式。对象存储模式[6]一般由Client、MDS(Metadata Server)和OSD(Object Storage Device)三部分组成。Client 为客户端,用来发起数据访问;MDS为服务器,用来管理对象存储系统中的元数据,并保证访问的一致性;OSD 为存储对象数据的设备,包括处理器、RAM 内存、网络接口、存储介质以及运行在其中的控制软件[7]。

2)对象存储模式用于海量数据存储的优势。对象存储模式在处理海量数据存储请求时具有较大优势,主要体现在[8]:数据存储高性能、数据共享跨平台、数据访问方便安全、存储系统可伸缩性、存储设备智能化。

1.2 海量数据的组织

信息组织即信息的有序化与优质化。信息组织具有类聚性、系统性、动态性、多重性、综合性。传统的信息[9]。组织方式在处理特定的、传统的信息时具备良好的性能。但是,对于海量信息来讲,无法完全适应需求。

当前,海量数据的组织方法有以下几种:

1) 基于文件系统的海量数据组织。文件系统作为本地存储系统的数据组织管理者,在不同的操作系统平台下有不同的组织结构和操作形式。GFS(Google File System)是Google公司用来存储和组织海量信息的分布式文件系统。GFS是一个可扩展的分布式文件系统,用于海量数据大型、分布式访问。它可以提供容错功能,给大量的用户提供性能较高的服务。

2)基于体系结构的海量数据组织。California大学的OceanStore是一个在全球范围内搭建的海量存储池,向用户提供存储服务,尤其针对那些移动终端,如嵌入式设备。用户可以在任何时候、任何地点、通过任何设备接入Internet,并访问存储在OceanStore 中的数据。

3) 其他类型的海量数据组织。北京大学的计算机网络与分布式系统实验室的在研项目之一“Ocean Data Information Retrieval”,就是研究数据空间的组织、存储和索引技术。它基于已有的天网平台,从Internet信息特征入手,对其进行组织、存储,然后提供索引技术,为信息建立索引,最后实现高速的信息检索。

2 海量数据的管理

海量数据的搜索是制约信息化进一步深化的瓶颈。目前,具有一定信息化程度的企业都有自己的数据库,而利用数据库都可以实现查询。这就引出了“时间成本”的问题。要提高数据库的查询速度,就必须对数据库进行大量的索引配置并对硬件进行大幅度升级,造成设备成本的提高。因此,从应用的角度,迫切需要一些新的管理技术来解决海量数据的快速搜索问题。

2.1 利用关系数据库管理

利用现有的关系数据库能支持影像这样的二进制大对象(BLOB)的特点,将大数据直接入库进行存储与管理。

LOB能够存储高达4 GB的数据,其灵活的数据库内、库外存储方式,十分适合大数据的管理。根据存储位置的不同,LOB分为内部LOB和外部LOB。内部LOB存储在数据库表空间内,支持事务操作和数据复制,适用于数据量较小的一般影像数据、矢量数据、文档数据以及多媒体数据的管理;外部LOB存储于数据库表空间外,是一个指向存在于操作系统的外部文件的指针,数据库仅维护一个指向此文件的指针。外部LOB适合于数据量较大的卫星影像数据、多媒体视频文件等的管理。通过基于外部LOB的“大数据”存储组织和基于内部LOB的“小数据”存储组织配合使用,实现灵活的大数据组织和管理。

使用LOB的基本原则:

1) LOB可以作为数据库表的一个字段处理;

2) 一个数据库表可以同时含有多个LOB字段;

3) 外部LOB字段上管理的不是实际的数据,而是一个指向实际数据、由DBMS自动生成的LOB占位符指针;

4)从数据库管理效率以及数据存储平衡的角度,作为内部LOB管理的数据,一般不要超过100 M,超大数据可采用外部LOB来完成。

2.2 利用数据库结合文件系统管理

方涛[10]等提出采用数据库结合文件系统的方式对遥感影像数据进行管理,这种方法的原理和直接利用数据库管理并无本质差异,只是数据库与影像数据是通过影像路径名关联在一起,因而最大的缺陷是数据的一致性难以维护,安全性难以保证。

2.3 分级存储管理(HSM)

HSM(hierarchical storage management)就是将使用频率较高的数据存储在在线设备上,而将使用频率较低的数据存储在近线设备中,较长时间内不太使用的数据则以离线方式存储在磁带或光盘上。分级存储管理可以自动判断它所管理的在线存储设备中数据的使用情况,根据用户定义的迁移规则自动将不常用的数据移动到近线存储设备中。一旦用户需要的数据不在在线存储设备中,则又自动将该数据从近线存储设备回迁至在线存储设备中。

3 结 语

海量数据的组织和管理是一个较为复杂的问题,当数据库管理的数据达到TB级容量,或者所管理影像的单个数据量达到GB级时,数据管理往往会出现一系列的问题,比如检索效率低、访问速度慢、扩展性低、难以维护等,采用本文所讨论的方法可以有效地解决影像数据的组织、管理问题。

为了进一步提高海量信息的索引性能,下面几个方向有待进一步研究:

1)文件模式的生成。从数据挖掘的角度,在现有的文件中,通过分类、聚类或序列等方法来提取能表征某一文件集的文件模式,可以进一步降低处理数据的规模。

2)索引数据的压缩。现有的索引数据在容量上还有继续压缩的空间,通过压缩技术来减少索引数据的大小。

3)为了提高遥感影像数据的管理及应用效能,尚需在影像数据块的实时压缩/解压缩、基于影像内容检索、数字水印、影像加密以及影像数据的网上在线分发等方面进行进一步的研究。④随着基于广域网络的数据传输方法、多源地理信息的数据组织以及多尺度、多层次的遥感影像数据更新、应用等技术成为人们研究的热点,建立一个类Google Earth模式的遥感影像网络服务平台,对于提高大型遥感影像数据库的应用效能具有十分重要的意义。

[1]余晖,刘亚军.基于角色访问控制的研究与实现[J].微机发展,2003 ,13 (1) :13 - 15

[2]何芳原.浅谈海量数据处理技术研究[J].硅谷,2009(8):59-60

[3]刘江.海量数据的意义[J].程序员,2011(8):1-2

[4]张志勇. 基于角色的两级数据库访问控制机制及其实现[J].微机发展,2004 ,14 (1) :109

[5]樊志平. 数据安全性的实现方法[J].微机发展,2003,13(12):53 - 54

[6]苏勇,周敬利.基于iSCSI OSD存储系统的设计与分析[J].计算机工程与应用,2007,43(23):107-109

[7]Sakar K. An Analysis of Object Storage Architecture[J].IEEE Computer,2003,2(3):12-34

[8]蒋然.海量数据存储关键技术浅析[J].电脑知识与技术,2010,6(20):17-19

[9]刘青宝,邓苏,张维明,等.海量信息组织与集成技术[N].计算机世界,2001-07-23(B08)

[10]方涛,李德仁,龚键雅,等.GeoImageDB多分辨率无缝影像数据库系统的开发与实现[J].武汉测绘科技大学学报,1999,21(3):189-193

猜你喜欢

存储设备海量数据库
一种傅里叶域海量数据高速谱聚类方法
海量快递垃圾正在“围城”——“绿色快递”势在必行
数据库
Windows 7下USB存储设备接入痕迹的证据提取
一个图形所蕴含的“海量”巧题
基于Flash芯片的新型存储设备数据恢复技术研究
数据库
数据库
数据库
用批处理管理计算机USB设备的使用