图书馆群资源检索中云计算的应用
2012-02-15贺令辉
贺令辉
(中山大学图书馆,广东 广州 510275)
1 云计算概念
随着分布式、并行式和网格计算的不断发展,云计算作为全新的计算模型出现在人们的视野之中。在云计算模式下,对于数据信息的计算是由众多计算机的资源池所完成的。根据不同应用系统的需求,资源池上可以提供软件服务、数据存储服务、计算服务等多种服务。因此,云计算能够在很大程度上提高数据运算能力和资源检索速度。
云计算这一全新计算概念在2007年甫一出现就受到世界的广泛关注。在各大信息服务巨头的研究推动下,国外的IT行业已经涌现出一批高效、实用的云计算系统,比如由Google所开发的GFS云文件系统、数据分布式Bigtable存储系统及应用系统中所广泛使用的数据处理MapReduce框架;再如Sun Microsystems在原有的平台基础上开发了Sun Grid Engine集群软件。另外,欧洲的一些科研机构通过对并行计算的研究,能够将其应用到个人网络之上,使得个人计算机能够通过相应的计算代码提供个人电脑的计算能力。
2 以云计算为技术基础的检索模式应用
这种以云计算为技术基础的新型检索模式除了应用在传统的图书馆资源检索服务之中,还能够应用于企业信息平台及其他政府机构。
2.1 应用于图书馆资源检索
在传统图书馆中应用以云计算为基础的资源检索,可以将区域、甚至行业内的图书馆资源进行整合,通过海量存储平台及信息服务平台的构建,集中发挥行业信息服务优势,为用户提供更为专业化、全面化的信息资源服务。
2.2 应用于企业信息平台
在竞争不断加剧的市场经济环境下,信息对于一个企业的生存发展起到了越来越重要的作用。在这种环境下,企业需要做好对社会中海量信息的获取、辨别、储存及利用工作。以云计算为基础的信息检索技术可以为企业提供良好的平台。
2.3 应用于其他政府机构
对于政府机构而言,其信息量同样十分巨大。通过对这些数据资源中有价值意义的部分进行挖掘,能够在社会建设过程中起到重要作用,所以,针对这些数据信息的管理工作就显得尤为重要。
3 云计算背景下的图书馆群资源检索
3.1 现阶段的群资源检索服务
随着图书馆专业化、全面化及个性化信息资源服务的不断发展完善,图书馆所能提供的信息资源已经覆盖了社会行业中的各个领域。尽管不同图书馆所处的地理位置及服务对象不同,但是为满足用户日益增长的阅读、参考需求,图书馆的信息资源总量必定会进一步丰富、增长。
基于图书馆所处地域、所面对的用户不同等原因,其所拥有的数据资源也不尽相同,此外,由于所使用的数据资源系统不同,图书馆对电子资源的检索方法也不尽相同。所以,图书馆界在数据资源发展及应用方面呈现出了百花齐放的局面。在这种数据资源检索模式下,为获得更为全面专业的数据信息,用户往往需要在不同的图书馆数据库中进行检索,而检索方法的不同会导致用户的检索过程极为不方便。这就要求将分散在各个图书馆内的数据信息进行整合,依靠全面的数据资源信息、统一的信息检索方式为用户提供最为丰富、准确的信息资源。
3.2 以云计算为技术基础的群资源检索服务
在云计算出现以后,用户使用终端可以在资源池中进行数据计算,摆脱了过去对自身计算机的计算能力要求。另一方面,云服务器所要进行的计算也可以分配到资源池之上。这种分散计算的处理方式有效地提高了整个系统内部的计算能力,可以有效解决目前在图书馆中所存在的数字化信息资源使用率低、资源检索不方便等问题。
以云计算为技术基础,图书馆服务器的存储任务通过建立海量存储模型被分配到用户终端计算机或者与它资源共享的服务器之上,而计算任务则通过建立海量计算模型被分配到用户终端计算机或其他服务器。如此,在相同的服务器条件下,数据的存储计算速度得到有效提高,数据共享的范围也得到极大扩展。用户可以通过应用程序使用资源池之上的计算能力,提高资源检索的速度和准确率。另外,用户终端能够将知识资源储存在服务器之中,实现与其他用户的共享。所以说,云计算的出现为数据资源检索服务的发展提供了良好的技术支持。
3.3 云计算的出现对于资源检索的意义
基于云计算技术的图书馆服务器,通过建立资源池对计算、存储任务进行分散,形成了一个资源利用率高、检索速度快的数据资源服务平台。云计算对于资源检索的现实意义可以概括为以下3方面:第一,云计算将庞大的数据资源转为资源池,并以此为技术基础完成更为复杂繁琐的检索计算;第二,可以整合区域内的图书馆、机构的数据资源,将不同类型图书馆中不同专业领域的数据资源进行云集合,建成一个覆盖不同类型图书馆的馆群数据资源服务体系,它不仅能够为用户提供更为全面、广阔的数据资源和检索服务、提高人们的资源利用水平,而且能够避免资源重复建设带来的成本浪费;第三,基于云计算的运算平台能够并行利用不同地域、行业、机构中的数据资源,这些数据资源将为用户资源检索提供海量资源信息,能够使得用户在一个平台上获得多个平台的数据资源。这种一站式检索方式除了可以提高检索服务的快捷性和方便性,对提高图书馆的行业竞争力、培养用户的文化素质也具有重要意义。
4 如何实现云计算在图书馆中的应用
云计算在图书馆资源检索方面的应用是建立在网格计算基础之上的,但是它突破了传统检索过程中环境的异构性、扩展性及动态适应性差的限制,有效地提高了当前图书馆资源检索的效率。但就目前而言,在我国还没有建立起真正基于云计算的网络平台。但是具有海量数据资源的图书馆又迫切需要以云计算为基础的MapReduce等技术作为支撑。所以,将云计算应用于图书馆资源检索服务具有其必要性。
4.1 构建以云计算为基础的图书馆资源检索服务
4.1.1 构建简单海量数据资源储存模型
所谓以云计算为基础的简单海量数据资源储存模型,是一种建立在Hadoop等开源平台之上、面向海量数据资源的储存模式,它能够满足区域、行业甚至是全国范围内的数据资源储存需求。它应该包括:①自动跨域适用的云文件系统;②基于BigTable储存系统、面向结构化数据的云储存模型。
4.1.2 构建面向资源的并行计算模型
这种并行计算需要面向区域、行业、全国范围内的图书馆资源分布特征,在框架结构上可以参考MapReduce模型,在此基础上建立面对海量资源的检索方法和并行计算模型,它应该在数据处理速度及检索适应性等方面具有优势。它应该包括:①面对海量数据的检索逻辑,能够适应海量数据资源的分布检索,增强对海量数据资源检索的准确性、高效性。②面向海量数据的索引逻辑,以增强对海量数据资源的分布索引,提高对储存数据并行检索的效率及速度。
4.1.3 构建面向检索的并行计算框架
在Hadoop、Section/Sphere等计算模式及海量数据资源运算、储存的基础上,需要研究在因特网环境下面向检索的并行计算框架。它应该包括:符合因特网发展环境要求,面向分布式海量数据资源检索的并行计算框架,以实现在图书馆群资源环境下对于资源检索的计算框架构建。
4.2 在群资源检索中应用云计算的关键技术
4.2.1 对于海量群资源数据储存的实现
目前面向网页类型数据储存的BigTable模型无法满足像馆群这种海量数据储存的要求,这是因为图书馆群的数据资源具有更高的结构化特点。所以应该首先建立起面向图书馆群的海量信息资源储存模型。
4.2.2 对于海量群资源的并行计算的实现
现阶段的并行计算模型所面对的都是小范围内集群系统,这一系统内部的终端计算机都拥有千兆/秒以上的网络带宽,由于终端计算机的稳定性使得系统内部主机失效率较低。但是在海量群资源下,其检索环境较为独立。所以,探索适合图书馆群下的检索并行计算模型具有重要意义。
4.2.3 对于资源检索统一管理的实现
由于不同图书馆所使用的数据库类型不同,这就造成了图书馆群下图书馆的服务及运算模式不同。为了实现资源检索的统一管理,需要在群下各个图书馆的数据库之间建立一个能够进行检索调度、分类、去重的统一管理模型。可以参考OpenURL建立起基于动态脚本、提供注册接口及标准给第三方的多级调度管理模型。通过这种管理模型实现对群下任意一个图书馆资源的充分利用,保证检索请求的顺利发出及返回。这种管理模型的实现是对海量储存、并行计算模型的进一步完善。
4.2.4 对于资源检索统一服务的实现
目前,图书馆所提供的检索服务通常只是针对某一区域或者机构,尽管图书馆联盟正在一步步发展,但它所能提供的服务仍然只停留在目录阶段的、较为单一的服务,缺少针对全行业的整体、统一服务。比如现在的行业参考咨询、区域文献互借、区域目录联合等。随着图书馆网络信息服务的不断完善,对于馆群资源检索的统一服务已经成为可能,在不久的将来,以云计算为基础的资源检索服务就能够使用户享受到“一馆式”统一服务。
5 结语
随着以云计算为基础的全新资源检索模式在图书馆检索服务中的不断成熟、发展,图书馆群下的资源检索服务必定会向更为快速、准确、高效的层次迈进,以满足用户对于信息资源检索需求不断增加的要求。
[1] 韩法旺.基于云计算模式的图像检索研究[J].情报科学,2011(10):1534-1538.
[2] 冯凯,龙金花.基于云计算信息检索课程网络教学系统初探[J].南昌教育学院学报,2012(1):67-68.
[3] 胡山泉,李沧海,刘耀辉.一种移动云计算技术的图像检索系统的设计与实现[J].价值工程,2011(2):203.
[4] 梁宇,等.一种云计算环境下的加密模糊检索方案[J].计算机科学,2011(S1):99-100.
[5] 孙在全.云计算对信息检索的影响及存在的问题[J].科技情报开发与经济,2010(31):107-110.
[6] 蔡明.云计算环境下文献检索课面临的挑战和改革[J].图书馆学刊,2011(12):57-58.
[7] 郑伟青.云计算在图书馆群资源检索中的研究与应用[J].图书馆建设,2010(4):85-87.