数字图书馆网格存储模型及关键技术分析
2009-01-11魏晓萍
魏晓萍
〔摘 要〕本文就数字图书馆网格存储模型体系结构、模型总体设计和网格存储关键技术进行分析。
〔关键词〕网格存储模型;数字图书馆;海量存储;动态存储;异构存储
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0085-02
Key Techniques on Resources Storage of the Digital Library Based on GridWei Xiaoping
(Library,Hunan University of Arts and Science,Changde 415000,China)
〔Abstract〕Digital library is constructed on the basis of the enormous quantity of digital information resources which can be read and used,and quality service from digital libraty is based on quality digital resource.This paper presented the key techniques on resources storage of the digital library based on grid,such as model system structure,digital library model of Grid storage architecture.
〔Keywords〕grid storage;digital library;mass storage;dynamic storage;heterogeneous storage
1 模型体系结构
数字图书馆网格存储系统是在现有的数字图书馆存储系统基础之上构建一个整合存储资源,为用户屏蔽底层异构存储资源细节,具有统一逻辑视图的高性能虚拟的存储系统。因此该系统必须能向下兼容,不能破坏现有数字图书馆存储系统。基于此原则,本文在网格五层沙漏结构和开放网格服务体系结构的基础上构建了数字图书馆网格存储模型体系结构。
该模型体系结构自底向上分为4层:第一层是基本构造层,该层为网格存储服务提供基本的网络环境、物理存储资源和逻辑存储资源,包括存储设备(磁盘阵列、光盘库和磁带库)、存储系统(DAS,NAS,SAN,IP存储和集群存储)、数据逻辑存储系统(文件系统、数据库、档案库和元数据集)等。
第二层是连接层,该层主要是为下层的物理存储资源和逻辑存储资源提供安全的数据通信能力。
第三层是网格存储服务层,它是网格体系结构的核心。该层通过全局命名服务和存储资源代理将最上层的用户存储请求映射为异构分布存储环境中的底层存储操作,并能够提供有效存储监控、调度、存储作业管理、副本管理和存储迁移管理。
第四层是用户层,为用户提供了数字图书馆的各类存储应用界面,包括数字图书馆资源采集、组织、管理所需的存储;资源的发布与服务所需的存储以及本地和异地容载备份所需的存储。用户在该层可以通过存储入口,经网格存储授权认证,向下层发出存取请求。
2 模型总体设计
从整体规划来看,系统主要包括网格存储服务点GSSP(Grid Storage Service Point)、认证中心CA(Certificate Authority)、全局命名服务器GNS(Global Name Server)、资源管理器RM(Resource Manager)、存储代理SA(Storage Agent)、客户端[4]。整个设计中主要分为以下6个部分:(1)网格存储服务点GSSP是整个系统的入口,对系统所有模块的访问都通过GSSP,它主要提供CA接口、GNS接口、RM接口和SA接口;系统中SSP的个数可以根据需要动态增加。(2)认证中心CA包含证书管理系统,主要负责系统的安全性和数据的访问控制,同时它记录了用户的注册信息。(3)全局命名服务器GNS负责系统的元数据管理,主要包括元数据操作接口、元数据容错系统、元数据搜索系统。(4)资源管理器RM包括资源监控模块、资源调度模块和副本管理模块,其主要负责发现网格存储服务设备、监控存储服务设备的状态、存储资源的申请和调度,同时提供透明的副本创建和选择策略。(5)存储代理SA是系统中非常关键的部分。(6)客户端目前支持3种形式:通用FTP客户端、文件访问接口和特制客户端。用户通过系统提供的特制客户端,不但能够进行用户组操作,具有搜索和共享等功能,还可以获得更高性能的服务。
3 数字图书馆网格存储关键技术
3.1 海量存储技术
近几年来,数字图书馆信息资源呈几何级数增长,存储信息的度量单位由MB,GB向TB,PB转变,其存储的数据总量达到了海量规模。系统的存储容量总受硬件条件的限制,故采用传统的存储模式则永远无法满足存储容量不断增长的需要。但在网格环境下,由于数字图书馆采用的是第三代P2P混合网络体系结构的存储系统[5]。这种系统结构可以将任何一个NAS或SAN作为存储网格的一个节点进行管理,在原有网络存储基础上进行扩展,具有良好的可升级性。它将以数据中心的集中式存储管理转化为分布式的管理和控制,从而解决了海量数据存储问题。具体地讲,数字图书馆网格存储采用了3个方面的技术策略:
(1)在这种存储结构中,共享的文件不是集中存放在服务器上,而是分布在众多的存储系统节点上。系统的存储容量是所有节点贡献出来的空闲磁盘空间的总和,且随着加入系统的节点数量线性增长。也就是说,由于大量的端系统的存储空间处于闲置状态,因此将大量节点的空闲存储容量利用聚集存储技术就可以形成一个巨大的存储空间。此外,网格上还有大量的文件,其内容不多但需要长久存储以备后续访问,利用聚集存储技术可以把多个小文件聚集成一个复合文件存储在网格存储空间,增加存储空间的有效利用率。由此可见,数字图书馆信息资源的存储任务可以在多个节点上进行,并且遵循就近跨节点存储的原则。
(2)网格环境下的数字图书馆数据流量大,为了避免大量的数据传输而造成通信资源阻塞,也为了避免单点故障造成损失,通过在网格中不同位置创建文件副本,节点就可以就近访问所需的文件,降低访问延迟,很好的适应网络的动态变化,大大提高文件的访问性能。这样网络上所有的节点也就可以从其他节点上共享存储资源。利用P2P技术的就近原则,图书馆可以将经常访问的内容发布到其他的数字图书馆,读者可以就近访问,从而有效地解决了大数据量并发访问瓶颈问题。
(3)对于客户机/服务器模式的存储系统来说,高度动态的网络环境严重影响了文件服务性能,而庞大的用户数量也给服务器带来了沉重的负担。而对于网格模式下的存储系统,由于文件的存储和服务分散到了系统的每个节点,使得每个节点只需要承担少量的任务,很好地起到了负载均衡的作用,从而避免以服务器为中心的网络结构的性能瓶颈。
3.2 动态存储技术
数字图书馆系统在不同时刻对服务的需求是不同的,白天或某段时间内可能因为访问人数激增造成对某部分的计算资源需求增加,一段时间后可能需求又有所下降。而这些都是无法预知的。为此,网格存储技术必须有效地解决数字图书馆资源存储动态存储和按需存储的问题。
(1)基于网格的数字图书馆馆存储系统必须能够根据应用系统的需求,动态扩展存储设备数量和容量而不影响其上层应用。网格环境下,数字图书馆采用的是P2P存储结构。该存储结构中,每台计算机既是客户机,也是服务器。它们之间可以直接交换信息,共同分担文件的存储和服务,而不需要中央服务器。这种对等的体系结构使得P2P存储系统在扩展性上有着天然的优势,特别是对分布式结构化的P2P系统结构来说,系统规模能够扩大和缩小,而性能几乎不受影响。
(2)基于网格的数字图书馆馆存储系统能够根据各种应用系统的动态工作负载和内部设备能力的变化,动态改变自己的配置、策略以提高I/O性能。要满足数字图书馆动态性的需求,就必须实现存储资源与计算资源的按需动态组合。网格环境下借助存储虚拟化技术,通过两者在逻辑层面实现分离,最终实现两者的动态映射关系。具体而言,存储虚拟化技术通过封装和虚拟化的存储服务有效地分离主机层(包括:应用、操作系统、HBA (Host Bus Adapter)等)、存储网络层(包括:交换机、路由器和网管等)、存储层(包括:磁盘阵列、磁带库、光盘库等),并且实现物理路径、硬件设备特征、物理设备位置对主机透明,存储资源与应用分离,对存储资源的管理可以实现动态的扩充和配置管理,将存储的逻辑层与物理层相分离,使得数据的移动不再依赖于主机和应用。
(3)由于网格可以根据数据对用户业务的关键性设定一定策略,从而决定数据的存储位置,所以数字图书馆存储可以灵活、动态地选择网格节点中的物理存储设备,这样可以避免低价值数据浪费昂贵的高端存储空间。也就是说利用智能数据迁移将日访问量不是很大的大部分数据保持“脱机”,但又不“离线”的状态。
3.3 异构存储技术
由于数字图书馆系统具有主机系统多类型、数据来源多方向性、数据存储格式复杂,数据用途多样等特点,使得资源存储在实现功能、性能和访问接口上变化很大。但无论数据存储接口如何变化,无论数据存储在什么位置,用户都要求完全无缝地访问到所需数据,而不必关心存储设备所处的位置、采用何种存储系统以及资源如何配置。存储网格方案就能满足此需求,它结合虚拟存储技术、开放的标准规范和网格数据传输机制将异构的存储变成统一的虚拟存储。
4 结 语
本文阐述了数字图书馆网格存储模型及关键技术,分别从模型体系结构、模型总体设计、海量存储技术、动态存储技术和异构存储技术5个方面进行了详细的探讨和分析,为利用网格技术解决数字图书馆资源发现、整合、跨仓储检索、安全等问题,为实现大规模数字图书馆的互操作提供了相应基础条件。
参考文献
[1]张蕾,陈玲.下一代互联网技术在网络中心战中的应用概述[J].电子工程师,2008,34(10):67-69.
[2]李超,王亮,杨学印.基于网格的数字图书馆研究现状分析[J].现代情报,2009,(3):74-77.
[3]韩毅,毕强,李贺.国外基于网格技术的数字图书馆内容与应用的比较研究[J].情报学报,2006,(2):221-230.
[4]余玲,李玉海.基于网格的数字图书馆资源存储研究[J].情报杂志,2007,(9):105-107.
[5]刘广亮.基于Globus Toolkit 4的网格服务研究开发[D].西安理工大学,2008.