“云存储”在图书馆数字资源建设中的应用
2012-04-29黄红
黄红
〔摘 要〕数字资源建设成为当今图书馆业务建设工作的重中之重。数字资源建设应包括数字资源应用和数字资源存储2个方面,满足这两方面应用需求,是图书馆能否为社会大众提供优良的数字资源服务的关键。本文结合图书馆具体业务实际情况,分析了作为公共图书馆依托先进的“云计算”“云存储”架构,更好地为社会大众提供图书馆数字资源服务的思路。
〔关键词〕“云存储”;数字资源建设 ;数字资源服务;图书馆
1 公共图书馆数字资源建设背景
信息化社会,数据以惊人的速度增长。每过18个月就会把有史以来到今天的数据总量翻一番,人们对信息资源的依赖程度已越来越高。另一项统计,在信息爆炸的今天,互联网信息的平均寿命只有42天,也就是说在大量信息产生的同时,也有大量的信息消失,其中有许多有价值的信息因未被有效组织、整序、管理,很容易就失存了。作为公共数字资源服务中心的图书馆,收集、组织、收藏有价值的信息资源,为广大读者提供免费的信息服务,减小信息鸿沟,构建和谐社会,是公共图书馆的一项重要职能。
公共图书馆的数字资源主要包括如下几部分:(1)自建数据库资源;(2)购买数据库资源;(3)按专题收集组织整理的网络信息资源。这些资源的类型主要包括:文本、图片、音视频等。分析公共图书馆的资源数据性质,大部分为非结构性数据,一般占到该馆总数据量的98%以上。由于互联网信息量的急剧膨胀,信息技术的快速发展及各馆文献资源数字化工作力度的加大,笔者对多家公共图书馆进行了调研,几乎每家的存储空间都不够用。新建存储,扩大存储容量成为当前共公图书馆的当务之急。结合图书馆数字资源特性,认为在图书馆存储建设中,需要考虑以下几方面因素:(1)要确保数字资源的安全性;(2)提供资源使用的共享性;(3)要能够为广大读者高效快速使用资源提供强大的存储计算动力;(4)要具有良好的扩展功能,根据图书馆的资源增加的速度,方便快捷扩容的同时增加计算能力。所以选择先进的存储架构,是图书馆数字资源馆藏建设之物理基础——存储建设的关键。
2 数字资源服务的物理基础——“云存储”
2.1 “云存储”的概念
“云”存储是在“云”计算(Cloud Computing)基础上延伸和发展出来的一个新概念。它通过集群应用、网格技术、分布式管理系统、虚拟存储等技术,将互联网“云”中大量各种不同类型的存储设备通过软件集合起来协同工作,共同对外提供数据存储和业务访问功能。本文介绍的图书馆“云存储”系统是指采用先进的云计算技术、网络通信技术以及分布式文件系统技术,将廉价的、性能低下的硬件存储节点组织管理起来,提供高性能、高可靠的存储系统。系统中采用大容量存储服务节点,通过”云存储”系统软件实现统一管理和容错,提供高效、稳定服务。
2.2 传统存储与“云存储”之间的区别
随着IT技术的发展,存储技术也有了很大的发展。目前,按其计算架构的不同我们把存储分为两类,一类是传统存储,另一类是”云存储”。传统存储与”云存储”的区别主要表现在4个方面:(1)网格计算;(2)分布式文件系统;(3)并行计算扩展模式;(4)虚拟资源池。
2.2.1 网格计算(节点服务器驱动模式)
传统存储如传统火车一样,动力集中在火车头上,由两个强大的控制器(一主一备),带动一个大的磁盘体(火车车厢体),当厢体数量多(负载大)的时候,相应的性能(速度)就会减弱,达到一定程度就运行不了。所以传统存储都有最大容量的限制。“云存储”架构如动车,动力分散在每一个节点服务器上(如动车的每节车厢都有动力一样),一个节点服务器包括一定的磁盘容量并且带有相应的动力(CPU、内存、网络数据传输卡)。增加磁盘容量即增加相应的动力,所以不会降低运行速度和性能,确保了存储对外服务的能力。
采用传统的存储设备进行数字资源存储,其容量是有限的。因为传统的存储方式采用串行扩容,扩容只增加磁盘空间不增加动力源。所以最大扩容值是有限的,扩容后整个存储的性能必定会下降。不管它接多少扩展箱,总是有个极限有,并且过了两、三年后就找不到与原磁盘品牌、接口、型号等完全相同的磁盘,只有新购存储。但是”云存储”可以为用户提供无限的存储空间。因为”云存储”采取的架构是并行扩容,可以允许存储服务器和存储节点同时增加,容量不够了,只要采购新的存储节点服务器即可,容量立即增加,增加相应磁盘容量时,相应的计算动力(CPU、内存)、网络传输能力都同时配套增加,不影响服务性能,理论上可扩到极大空间。更重要的是“云”还可提供动态的可扩展性,实现非破坏性的增长和升级。也即是说存储的容量随着节点的增加而无缝增长。这有利于维护数字资源的连续性和完整性,同时也有利于降低用户成本,保护了用户投资。
2.2.3 分布式文件系统
“云存储”采用的是分布式文件系统。分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。“云存储”系统的文件复本按算法随机地存放到其它节点服务器上,一个节点服务器(十多块磁盘)全都坏了,也不影响数据的安全和使用。安全性极高。传统存储按RAID组进行划分,一组盘中最多只能坏两块盘。坏掉的盘需要有热备盘顶上,否则就会影响数据安全。
2.2.4 共享虚拟存储池
“存储虚拟化”是一种逻辑存储形式,将分散的存储资源整合抽象成一个单一的逻辑资源,使得管理员仅对一个单一的存储资源进行智能化有效地管理存储数据。虚拟化将存储资源的物理特性掩盖起来,用户感觉到的存储资源是巨大的,可以自由调配的。这样用户不再关心存储资源的物理结构,简化了管理过程。并且可以根据使用需求和实际情况,扩大或减小存储空间。传统存储按RAID进行组划分,各组的空间量也不能随意增加减少,即使一组容量不够,另一组有多余,也不能根据需求调配,管理使用都不方便。“存储虚拟化”克服了传统数据存储过程的局限性,能够更加充分地利用异构平台的海量存储空间和高效的数据传输能力,从而为用户提供一个容量大、数据传输性能高的存储系统,较好地实现数字资源的共享目的。
3 “云存储”在图书馆数字资源服务中的应用
3.1 “云存储”与图书馆数字资源门户的关系
图书馆数字门户通过已有的数字资源服务,业务服务,展现层组件,借助界面建模和规则引擎实现灵活的应用组装,而不仅仅是简单的服务集成。其重点包括两个内容,一个是“找到服务”,一个是“编排服务”。“找到服务”重点是服务分析识别方法,同时保证服务的自治性,粗粒度和可重用性等;“编排服务”重点是服务通过编排能够满足业务和流程的需要。如图1所示。
服务本身是一种能力,图书馆数字资源服务门户是一个集成平台,其本身并不产生能力,数字资源服务门户本身不存储非结构化数据,它的主要作用是消息协议转化,路由和数据的传输。图书馆数字门户服务目录库能力来源于业务系统,业务系统提供服务注册到图书馆数字门户的服务目录库中,因此图书馆数字门户更多是能力集成平台。可以将业务系统各个层面的能力转化为数据服务,业务服务和展现层服务。通过图书馆数字门户来集成这些服务,提供统一的服务目录库来屏蔽底层数字资源系统。
对于“云存储”则根据强调能力的集中化,特别是原有数字资源系统,原有数据库资源具备的能力要全部迁移到“云存储”中,然后由“云存储”平台提供这种能力,调配这种能力。将每个数据应用系统(服务)集中到“云存储”来统一建设和管理。建设完成后再通过服务化方式提供出去。如果说传统备份存储主要是用牺牲性能换取安全,“云存储”则是在可预见的安全策略下,在保持原有数据库系统功能的基础上,增强了数据读取能力,从呈现对外服务的角度上,增强了数据服务能力。图1 “云存储”与图书馆数字资源门户的关系
3.2 “云存储”对图书馆数字资源建设的影响
3.2.1 有利于增强数字资源信息的安全性
“云存储”把信息和数据存储在不同的节点服务器上,自动生成数据备份,一旦磁盘损坏,系统会自动再生成数据备份在不同的节点服务器上,确保了数据安全。“云存储”易于实现数据备份或迁移,使数据能及时得到恢复。
3.2.2 有利于数字资源中心进行数据处理
“云存储”则能很好解决海量数据的计算处理和分析。因为“云存储”能将分布在各个地方的联网计算机连接在一起,用户所需要做的只是通过客户端发出要求计算的指令,“云存储”中所应用的网格技术就把这些任务调配给各个计算机执行,接着将各个计算机计算出来的结果汇总反馈给用户,而且连接的计算机规模越大,其计算能力就越高。
3.2.3 有利于数字资源利用实现信息共享
开放性是“云存储”系统的一个重要特征,“云存储“通过开放融合,具备异构平台数据共享、多种协议支持、多种接口支持以及灵活的存取控制等特性。在“云存储”中,信息被统一管理和使用,利用现有的网络基础设施为用户提供一体化的智能信息平台,虽然信息被存储在不同的位置,但是对于访问者来说,可以不必理会这些信息的存储位置,用户可以通过网格操作系统透明地使用整个数字资源中心的网络信息资源,从而很好地解决了异构信息的共享互连和互操作问题,提高数字资源信息资源共享的程度。
4 总 结
“云计算”“云存储”是一种很成熟的技术架构,是大规模数据应用的必然选择,GOOGLE、360、亚马逊、阿里巴巴都有成功案例。它安全、可靠、节能、大大降底管理成本,这种科学架构的宗旨是保护前期投资,兼容以往的投资环境,发挥集约的功效,产生“1+1>2”能效,目前在世界范围内形成一种应用趋势,也是今后计算机存储应用的必由之路。
建立在“云存储”技术架构上的图书馆数字资源服务,不仅解决了当前公共图书馆面临的数字资源存储空间的不足,并行的扩展方式保护了图书馆前期投资,使资源能够长期保存下去,同时也是对图书馆服务形式和方法上的升级,拓展了公共图书馆数字门户的服务能力,也是在图书馆学领域,信息传播学领域理论和实践的具体践行,是未来发展的必由之路。
参考文献
[1]范并思.云计算与图书馆:为云计算研究辩护[J].图书情报工作,2009,53(11):5-8.
[2]刘鹏.云计算(第2版)[M].北京:电子工业出版社,2011.5.
[3]黄燕.云存储在图书馆数字资源存储中的应用[J].现代情报, 2011,31(4):68-70.
[4]袁建娟.存储架构的演变与数字图书馆的发展[J].情报探索,2008,124(2):54-55.
[5]高海峰,任树怀.Web20技术在高校图书馆学科建设中的应用[J].图书情报工作,2007,51(4):115-118.
[6]梁晓欢.CloudArrayTwinStrata云存储技术分析[J].全球IT新浪潮,2012,(5):5-7.
(本文责任编辑:马 卓)