云计算在图书馆群资源检索中的研究与应用
2010-07-18郑伟青浙江工业职业技术学院图书馆浙江绍兴312000
郑伟青(浙江工业职业技术学院图书馆 浙江 绍兴 312000)
1 云计算概述
云计算(Cloud Computing)是一种新兴的商业计算模型。它是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展产物,它的独特之处就是能将巨大的计算任务分散在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务,从而大大提高了系统的资源检索效率和运算能力[1]。
云计算概念兴起于2007年,初露头角便受世人瞩目,各大公司纷纷推崇。在国外,很多IT巨头公司都已经开发了各自具有较高实用性的云计算框架或系统, 如Google内部开发了GFS(Google File System)云文件系统、BigTable海量结构化数据分布式存储系统、MapReduce[2]简单海量数据并行处理框架,并且在内部的实际应用系统内已经大量使用了该并行处理框架。Sun Microsystems公司在自己以前的并行处理平台上开发了Sun Grid Engine计算机集群软件,目标也是针对云计算市场。还有更多的应用单位,如欧洲的一些顶级科研院所已经利用这些并行计算框架实现了自身的因特网并行计算网络,任何用户都可以贡献自己个人电脑上的计算能力,只要下载相应的微型计算代码即可。
2 图书馆需要整合图书馆群资源检索服务
随着图书馆不断发展,图书馆的资源内容已经覆盖社会生活各个领域,种类不断细分、深化和专业化,各个图书馆根据自身的条件分别拥有其中的部分或全部资源。今天的图书馆资源极其丰富。
然而,因为不同属性的图书馆提供的馆藏电子资源服务的专业性和综合性不同,并且各个电子资源厂商提供的基于各自标准的电子资源检索服务方式也不同,因而形成了电子资源的“百花齐放,百花争艳”的服务方式。这种服务方式造成图书馆电子资源丰富但分散,用户如果想从不同的图书馆中获取最全面、最有价值的资料,往往需要在不同的图书馆对不同的资源检索系统分别操作,这样非常不方便。只有采取基于图书馆群的电子资源整合服务方式,才能从分散的各个图书馆资源中获取到所需的最丰富、最准确的信息。
2.1 云计算为图书馆群资源检索提供了技术基础
有了云计算之后,读者端不再需要计算能力很强的计算机,而可以直接从资源池上获得计算能力;服务端也可以将自己的计算任务分散在整个系统的资源池上,从而分解了运算量,提升了运算速度。云计算这一为Google、IBM等巨头公司所倍加推崇的理念为改变目前图书馆电子资源利用率低、搜索质量差、缺乏互动的现状提供了良好的技术基础。
对于图书馆服务端来说,通过建立基于云计算的简单海量存储模型和简单海量计算模型,可以将巨大的存储任务和计算任务分散在与之资源共享的服务器或客户端PC机上,从而可以在同等服务器条件下大幅度扩大资源共享范围,提高运算速度。对于读者端来说,可以通过访问应用程序从资源池上获取巨大的计算能力,从而实现高精确度、高速度的个性化搜索。同时,读者端还可以将自己的知识数据存储在服务器上,供其他读者搜索读取。因此,对于图书馆来说,云计算为其电子化发展提供了良好的技术基础。
2.2 云计算在图书馆群资源检索中的意义
一项国际性新理论的推广应用必定会对学界、业界乃至整个社会带来巨大的影响,以云计算理论为基础,开发出基于云计算的图书馆群资源检索技术,将图书馆系统的服务器(计算机)连成资源池,建立一个高资源利用率、高运算速度的图书馆电子资源管理服务平台,同样可谓意义重大[3]。第一,以复杂的图书馆电子资源作为资源池开展研究,为资源检索提供了技术平台,并为实现更复杂的搜索运算提供了实践基础;第二,大大提高了区域(行业)图书馆和机构图书馆资源的整合服务,实现了基于各种类型图书馆的电子资源云整合,形成一个图书馆电子资源群服务体系,为读者的资源检索提供广阔的资源空间和搜索对象,并有利于区域(行业)、机构图书馆资源的有效流通、利用,减少图书馆资源的重复建设,大大地促进人们知识利用水平的提升;第三,基于云计算的图书馆网络运算平台可以实现图书馆电子资源的跨地域、跨行业、跨机构并行利用。为读者的资源检索服务平台提供海量的资源储备,可以让读者在此平台上实现一站式资源检索,并最终提升区域(行业)、机构读者的文化素质、经济实力等,从而提升区域(行业)、机构的核心竞争力。
3 基于云计算的图书馆群资源检索的应用
基于云计算的图书馆群资源检索不仅可以用于国内成千上万家传统图书馆,还可以应用于各个科研院所、政府机构、大型企业等。
3.1 传统图书馆的搜索平台
对于传统图书馆而言,可以实现区域内的“块”的云计算图书馆群资源检索服务,也可以实现行业内的“条”的云计算图书馆群资源检索服务,同时还可以实现区域和行业的“条块”整合的图书馆群资源检索服务。通过基于云计算的图书馆群资源检索服务,传统图书馆可以建立自己的基于云计算的超级海量信息服务平台,集中行业专家等的优势,为海量因特网用户提供更专业的信息服务[4]。
3.2 大型企业内部的信息服务平台
在市场经济环境下的大型企业赖以生存的基础条件中,信息无疑是除资金以外的另一个重要因素。如何对各种不同格式的海量信息进行有效存储、如何更有效地获取和利用这些海量信息,都将是各个企业面临的主要问题。对此,基于云计算的资源检索系统将为其提供支撑平台。
3.3 机构内部的资源服务平台
对于各种机构而言,其信息资源量巨大,资源服务的任务也更加艰巨。机构内部在日常工作中沉淀了大量有用的信息,如何更有效地挖掘其潜在价值,也是每个机构需要面对的问题。
4 基于云计算的图书馆群资源检索的实现
基于云计算的图书馆群检索可以说是网格计算检索的实现和延伸,它能借助云计算理论及现有的云计算研究基础,克服网格计算检索过程中网络环境的异构性、可扩展性和虚拟网络环境的动态自适应难题,实现图书馆高效率的检索。
就目前来说,国内还没有真正基于云计算框架的网络应用,而海量图书资源的充分利用正需要基于云计算的MapReduce等技术框架的支撑。因此可以说云计算技术在海量图书资源的处理方面具有广阔的发展空间,迅速开展基于云计算的图书馆群资源检索研究合乎时宜[5]。开源云计算框架与平台,是依托于互联网上的图书馆资源服务群,利用云计算技术实现分布式图书馆资源的分布式信息服务,并集中大量图书馆的资源,研究海量数据的存储服务、海量数据的并行计算等,最终实现基于云计算的图书馆群集合、电子资源整合检索服务,而开发出来的适合海量数据存储与海量数据并行计算检索的服务平台(见图1)。
4.1 云计算在图书馆群资源检索中的研究内容
4.1.1 图书馆数字资源的简单海量存储模型研发
简单海量存储模型是一种基于云计算理论的存储模型。它针对区域性、行业性乃至全国性大规模数字图书资源的存储需求,以最前沿的Hadoop等开源云计算平台为基础,实现面向海量资源数据的云存储,具体包括:(1)实现跨域自适应的云文件系统。(2)以BigTable数据存储系统为基础,针对图书馆结构化海量元数据资源的特征,研究面向图书资源的特定云存储模型,并提出高效、简单、适合图书资源的特定的结构化元数据存储机制与方法。
4.1.2 图书馆数字资源的简单海量并行计算模型研发
并行计算模型针对区域性、行业性乃至全国性大规模数字图书资源的海量分布特征,参考MapReduce云计算框架,开发适合海量数字图书资源的索引和检索算法。它主要利用云计算在海量数据处理方面的优势提高海量图书资源在检索和索引方面的性能。具体包括:(1)定义特定的海量资源检索逻辑,实现适合海量图书资源的分布式检索算法,提高区域性数字图书资源检索的实时性和高效性。(2)定义特定的海量资源索引逻辑,实现适合海量图书资源的分布式索引算法,以支持海量数据存储的高效并行检索。
4.1.3 基于图书馆群海量资源检索的并行计算框架研发
在实现海量图书资源存储和处理的基础上,参考Hadoop、GFS、 Section/Sphere、Sun Grid Engine等并行计算模式,探索面向分布在因特网下的图书馆群海量资源的并行计算框架。
核心技术包括:开发适合因特网复杂网络环境的针对分布式独立性海量资源检索的并行计算框架,解决在图书馆群海量资源检索环境下的并行计算框架问题。
4.2 云计算在图书馆群资源检索系统中应用的关键点
4.2.1 面向图书馆数字资源的海量元数据存储模型
现有的BigTable等数据存储模型主要针对网页类型的数据来设计,而图书馆信息资源的结构化程度更高,目前在国内还缺乏专门针对图书馆信息资源的海量数据存储模型。
4.2.2 面向图书馆群的海量资源检索的并行计算模式
目前前沿的海量云计算模式基本上都基于一定小范围内的超大集群系统,集群系统内的各个主机之间的网络通讯带宽都很高,基本在千兆/秒,每个主机的稳定性相对较高,因此整体集群的主机失效率比较低。而图书馆群海量资源检索的环境相对而言比较独立。因此,开发适合于图书馆群的海量资源检索环境的并行计算框架是一个具有重要意义的创新点。
4.2.3 面向分布式图书馆海量资源检索的统一调度管理模型
各图书馆都具备多个电子资源数据库,都有自己的服务系统和运算模式。针对图书馆的分布特性,需要在多个图书馆、多个电子资源之间建立一个能够检索调度、分发及分类去重的统一调度管理模型。统一调度管理模型是采用基于OpenURL(开放链接)标准的多级调度、以动态脚本技术制定调度规则、向第三方提供电子资源注册标准和接口等方法的调度管理模型。它实现了图书馆群内各个电子资源的有效利用,使得任何一个检索请求都能准确无误地被发送、结果准确快捷地被返回。统一调度管理模型的开发是海量存储模型和并行计算模型整合应用的升华,具有非常关键和重要的地位。
4.2.4 面向分布式图书馆统一服务模式的探索
现今图书馆都只服务于本区域或本机构、本行业,虽然图书馆联盟正在兴起,但是还是基于目录级的、单一功能性的整合,如区域(行业)联合目录、联合参考咨询、区域馆际互借与文献传递服务等,缺乏基于图书馆群的区域(行业)整体服务模式[6]。基于互联网的网络服务已经成为图书馆服务的重点,这为区域(行业)图书馆群统一服务提供了可能,因而,云计算在图书馆群资源检索中的应用可以提供的是区域(行业)“一馆式”服务享受。
[1] 肖 鹏. 云计算对图书馆事业的双重影响[J] . 图书馆学研究, 2009(8):42-44.
[2] MapReduce[EB/OL] .[2009-07-12] .http://baike.baidu.com/view/2902.htm?fr=ala0.
[3] 胡小菁, 范并思. 云计算给图书馆管理带来挑战[J] . 大学图书馆学报, 2009(4):7-12.
[4] 卢晓娟. 云计算与未来图书馆数字信息资源建设[J] . 四川图书馆学报, 2009(2):23-24.
[5] 米 勒.云计算[M] . 姜进磊, 孙瑞志, 向 勇, 等译. 北京:机械工业出版社, 2009.
[6] 王 龙, 万振凯. 基于服务架构的云计算研究及其实现[J] . 计算机与数字工程, 2009(7):88-91.