数字图书馆存储技术发展趋势
2011-08-15万向丽
□文/万向丽
数字图书馆存储技术发展趋势
□文/万向丽
面对网络信息数据量的大幅增加,通过对现有三种数字图书馆存储系统的概念阐述及特点比较,对存储技术发展趋势的介绍,为数字图书馆存储系统建设提供参考。
数字图书馆;存储技术;发展趋势
随着数字资源内容的日益丰富和读者对信息资源需求内容的不断提升,图书馆在数字化建设中面临存储空间、数据访问速度、数据安全、数据管理等一系列问题,面对日趋丰富的网络设备和复杂的需求环境,存储系统和存储技术的选择就显得尤为重要了。
一、数字图书馆的网络存储架构
从架构上来分,数字图书馆网络化存储系统应用主要包括DAS(直接连接存储)、NAS(网络连接存储)和 SAN(存储区域网络)。
(一)DAS。DAS是指将存储设备通过SCSI接口或光纤通道直接连接到一台计算机上。DAS的适用环境为:服务器在地理分布上很分散,或存储系统必须被直接连接到应用服务器上时,也适合包括许多数据库应用和应用服务器在内的应用,它们需要直接连接到存储器上。当服务器在地理上比较分散,很难通过远程连接进行互联时,直接连接存储是比较好的解决方案,甚至可能是唯一的解决方案。
(二)NAS。NAS是将存储设备通过标准的网络拓扑结构(例如以太网),连接到一群计算机上,提供给各异构平台(包含Unix,Windows,Linux,Netware) 的客户端及服务端,达到文档共享的储存装置。NAS是通过存储器件(例如硬盘驱动器阵列、CD或DVD驱动器、磁带驱动器或可移动的存储介质)和集成在一起的简易服务器,可用于实现涉及文件存取及管理的所有功能。它可做到异构平台之间文档格式的转换和资源共享。不但具有高效能传递,多任务效能的最佳化,而且减少工作人员安装、管理、备份的成本,是最佳化的附加式网络存储设备。
NAS具有几个引人注意的优点:首先,NAS是真正即插即用的产品。NAS设备一般支持多计算机平台,用户通过网络支持协议可进入相同的文档,因而NAS设备无需改造即可用于异构平台的局域网内;其次,NAS设备的物理位置同样是灵活的。它们可放置在工作组内,靠近数据中心的应用服务器,也可以放在其他地点,通过物理链路与网络连接起来。无需应用服务器的干预,NAS设备允许用户在网络上存取数据,这样既可减小CPU的开销,也能显著改善网络的性能。
NAS适合于数字图书馆建立初期,用户的数据规模不大,存储需求也很简单,只是要把相关数据存放在某一地方即可。而存放数据的最终目的不但是为了能够安全保存,还必须保证数据可以随时被调用。这种方法从两方面改善了数据的可用性。第一,即使相应的应用服务器不再工作了,仍然可以读出数据;第二,简易服务器本身不会崩溃,因为它避免了引起服务器崩溃的首要原因,即应用软件引起的问题。
(三)SAN。SAN通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,是独立于服务器网络系统之外几乎拥有无限存储能力的高速存储网络,这种网络采用高速的光纤通道作为传输媒体,以FC(光通道+SCSI),小型计算机系统接口的应用协议作为存储访问协议,将存储子系统网络化,实现了真正高速共享存储的目标。
SAN解决方案的优点有以下几个方面:SAN提供了一种与现有LAN连接的简易方法,并且通过同一物理通道支持广泛使用的SCSI和IP协议。SAN不受现今主流的、基于SCSI存储结构的布局限制。特别重要的是,随着存储容量的快速增长,SAN允许图书馆根据需要不断增加存储容量。SAN的结构允许任何服务器连接到任何存储阵列,这样不管数据放置在那里,服务器都可直接存取所需的数据。因为采用了光纤接口,SAN还具有更高的带宽。光纤接口提供了10公里的连接长度,这使得实现物理上分离的、不在机房的存储变得非常容易,较为适合现在的高校图书馆多个分馆的实际环境。
二、三种存储系统对比分析
(一)DAS的问题与不足。DAS依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源的20%~30%,因此图书馆在做日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。
DAS与服务器主机之间的连接通道通常采用SCSI连接,带宽为10MB/s、20MB/s、40MB/s、80MB/s等,随着服务器CPU的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将会成为IO瓶颈;服务器主机SCSI ID资源有限,能够建立的SCSI通道连接有限。
对于DAS的扩展过程中,从一台服务器扩展为多台服务器组成的群集,或存储阵列容量的扩展,都容易造成业务系统的停机,从而给广大读者检索工作造成不便。
(二)NAS的问题与不足。NAS没有解决与文件服务器相关的一个关键性问题,即备份过程中的带宽消耗。与将备份数据流从LAN中转移出去的存储区域网(SAN)不同,NAS仍使用网络进行备份和恢复。NAS的一个缺点是它将存储事务由并行SCSI连接转移到了网络上。这就是说,LAN除了必须处理正常的最终用户传输流外,还必须处理包括备份操作的存储磁盘请求。
(三)NAS与SA N的不同点。NAS:用户通过TCP/IP协议访问数据,采用业界标准文件共享协议如NFS、HTTP、CIFS实现共享;SAN:通过专用光纤通道交换机访问数据,采用SCSI、FC-AL接口。NAS是在RAID的基础上增加了存储操作系统,而SAN是独立出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在服务器端,用户不是在直接访问SAN的网络,因此这就造成SAN在异构环境下不能实现文件共享。SAN是只能独享的数据存储池,NAS是共享与独享兼顾的数据存储池。因此,NAS与SAN的关系也可以表述为:NAS是Network-attached,而SAN是Channel-attached。SAN结构中,文件管理系统(FS)还是分别在每一个应用服务器上;而NAS则是每个应用服务器通过网络共享协议(如NFS、CIFS)使用同一个文件管理系统。换句话说,NAS和SAN存储系统的区别是NAS有自己的文件系统管理;NAS是将目光集中在应用、用户和文件以及它们共享的数据上;SAN是将目光集中在磁盘、磁带以及联接它们的可靠的基础结构。
三、数字图书馆存储技术发展趋势
(一)IP-SAN技术。IP-SAN是以IP为基础的SAN存储方案,用户可以在任何需要的地方创建实际的SAN网络,以IP协议替代光纤通道协议,IP协议用于网络中实现用户和服务器连接,而不需要专门的光纤通道网络在服务器和存储设备之间传送数据。IP-SAN不仅成本较低,而且可以解决光纤通道对传输距离的限制、交互操作性较差等问题。
(二)云存储技术。云存储已成为未来存储发展的一种趋势,是指通过集群应用、网格技术、并行处理、分布式文件系统等功能,将分布于网络中的大量各种不同类型的存储设备通过相关应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。确切地说,云存储系统就是通过应用软件和广域的存储设备来提供数据访问服务。
(三)主存储去重和压缩技术。此项技术能够通过磁盘阵列和NAS的控制器对文件级及块级数据进行比较并去重和压缩,能够使数字图书馆存储系统保有尽可能多的空间以存储更多的数字资源。
(四)虚拟分层技术。目前,虚拟分层技术能够把存储区分配到一个由不同效能、成本、多个存储层组成的存储池内。虚拟分层或动态分层可自动把存储区分类及把整个存储区迁移至适当的存储层,用户毋须针对存储区进行分类及配置到指定存储层,也不必在各存储层内手动迁移存储区以配合存储活动。
存储技术的发展迅猛,数字图书馆在存储系统的建设中要因地制宜,适当具有前瞻性,综合考虑资金成本与效益、设备集中与分散管理、数据的访问与安全保护等问题,加强存储在异构环境下的应用与管理,促使存储系统能够较为长期的、充分有效的、安全的为数字图书馆资源建设提供服务保障。
(作者单位:新疆师范大学图书馆)
[1]李军艳.数字图书馆存储系统解决方案.现代情报,2005.12.
[2]舒炎祥.数字图书馆的存储解决方案.图书馆学研究,2005.10.
[3]杨宜培.基于现代数据存储技术的高校数字图书馆建设.图书馆工作与研究,2005.6.
G 250.76
A