浅论云计算应用于高校数字图书馆建设
2012-04-13蒋映
蒋 映
(湖南大众传媒职业技术学院 图书馆,湖南 长沙 410100)
高校数字图书馆建设历经十多年发展,在数字资源、特色技术以及网络服务等方面都取得了较好效果,但同时也存在着不少问题。首先,设备难以做到物尽其用。由于缺乏科学论证以及设备更新速度较快,一些巨资引进的存储、服务、安全等设备,还没有完全使用,就面临“淘汰”。其次,资源雷同导致效率不高。高校采购的知网数据库、万方数据库、超星图书馆等国内外数据库,有相当部分内容存在资源雷同现象。最后,管理欠缺造成资源浪费。高校数字图书馆中,采用的软硬件管理平台,相互之间兼容性差,加之更新频繁,从而出现资源浪费。
自2006年,谷歌在“Google101计划”中提出“云”概念理论后,图书馆界认为,云计算对于数字图书馆建设具有重要现实意义,对于信息存储、信息处理、数据运转、资源共享,有着深刻影响。
一、云计算概念及主要技术
何谓“云计算”?谷歌大中华区总裁李开复认为:互联网是一片“云”,“云计算”就是云上的海量数据存储;无数的软件和服务置于“云”中;服务和软件均构筑于各种标准和协议之上;只要借助一个浏览器,就可以通过各种设备(手机.电视、汽车、手表等等)连接上“云”。[1]从学理上说,作为一种基于互联网的超级运算模式,“云计算”是分布式计算、并行计算、网格计算的一种发展。云计算的基本原理是运用非本地或远程服务器(集群)的分布式计算机,为互联网用户提供存储、计算以及软硬件等各种服务。[2]
不难发现,云计算是一种基于互联网,能够实现超级计算的理念和模式。要实现云计算,需要有多种技术手段,通过软件对硬件资源实行虚拟化管理、调度,从而形成一个虚拟化的资源池,将PC电脑、手机等各种设备上的信息、处理器等集中起来,实现协同运作。
云计算有许多优点。云计算中的互联网软件、硬件都将成为一种资源,可以提供给需要的用户使用。像Google App Engine,用户可以使用谷歌Web应用所需要的软硬件平台,进行所需要的设计开发。在云计算中,用户还可以对资源进行扩展、配置,满足使用需求变化。哈根达斯公司使用Salesforce.tom,在自已公司的CRM系统中,根据业务改进需求,动态删除、添加应用模块。用户使用云计算中的资源,只需按照实际使用情况付费。华盛顿邮报租用亚马逊的虚拟服务器,进行报社文档转换,使用1407个小时,费用不到150美元。
云计算的主要技术有虚拟化使用、分布式存储、海量化处理。这些技术能够解决互联网平台的周期管理、大规模存储通信等问题,做到资源按需使用按量收费。
云计算虚拟化使用技术。用户使用云计算虚拟化技术,可以访问的资源,可以是网络、内存、存储等硬件资源,也可以是应用程序、系统等软件资源。由于提供了标准的接口,这一技术能够为用户简化访问、管理各类IT资源的过程。不论是最终用户,应用程序抑或是服务,都可以成为虚拟化技术的使用者。虚拟化技术使用的范围也较为广泛,可以是服务器,也可以是存储设备,还可以是系统、软件、网络等。
云计算分布式存储技术。互联网中,过大的存储需求,往往单台服务器存储有困难,运用云计算分布式存储技术,可以调动多台服务器来满足超大量的存储需求。不过,这一技术应用时,需要将存储资源抽象表示,并统一管理,还要保证存储数据的安全可靠。谷歌公司设计的谷歌文件系统,是云计算分布式存储技术的代表。谷歌文件系统,考虑节点实效问题的大量存在,设计了自动恢复功能;系统参数较为特殊,可以包含海量小文件;可以通过文件追加操作,提高读写速度。
云计算海量化处理技术。数字图书馆建设中,许多数据的统计和分析都是海量级别的。单台计算机由于性能和可靠性等问题,不能满足处理海量数据的需求。云计算海量化处理技术基于互联网,将海量的处理任务,分解成子任务,在不同的计算机中完成。
二、云计算在高校数字图书馆建设中的运用
高校数字图书馆建设运用云计算,主要体现在信息存储、信息处理、数据运转、资源共享等四个方面。
(一)运用云计算实现信息存储虚拟化。高校数字图书馆的建设及其运转,要求数据能够共享备份,并能实现调整存储访问。云计算的虚拟存储系统,能够满足高校数字图书馆在这方面的要求。云计算的虚拟存储系统,还能适应高校数字图书馆海量信息的增长,提高数字图书馆对网络复杂环境的适应性,有效地存储、备份海量数据。因此,云计算的虚拟存储系统,为高校数字图书馆的建设、运转提供了重要保障。
目前,不少高校采用的云计算虚拟存储系统为DuraSpace开源系统。美国14所大学在2009年,获得美国国家科学基金会的百万资助,开展云计算研究。研究数字内容管理存储的DSpace,联合开源软件Fedora,研发成功DuraSpace开源系统。DuraSpace开源系统,不仅在云计算方面具有成本效益优势,还能够实现数字内容的超长期保存和反复使用,很快成为国内外高校数字图书馆的仓储系统。
DuraSpace开源系统可以通过Web进行访问,也可以通过数据中的插件进行访问。DuraSpace开源系统提供的服务包括视音频、图片、数据集、文本备份等。用户使用DuraSpace开源系统非常灵活,因为系统是通过不同供应商、不同地域实现资源保存,能够启用的副本数量也较多,从而可以满足用户的弹性需求。像DuraSpace开源系统这类高校数字图书馆采用的云计算虚拟存储系统,会建立一个“虚拟存储池”,使得高校数字图书馆中,原有的NAS、DAS等机构存储设备汇集于一起,从而实现系统性能的最大化,消除数据存取的瓶颈,减少数据寻找的时间,加快数据访问速度。
另外,云计算虚拟存储系统还能做到对高校数字图书馆数据的无缝管理。高校数字图书馆中的各种格式资源数据,如音视频、文字图片等,都聚集在“虚拟存储池”中时,虚拟存储管理系统会统一处理访问这些数据带来的数据冗余、分层存储、高速备份等各类问题,从而实现数据资源的无缝管理。
(二)运用云计算实现信息处理海量化。在高校数字图书馆建设中,有些数据的处理量非常巨大,像倒排索引各类资源数据库、扫描识别大量图文信息、转换各类多媒体数据的储存格式等,数据处理的规模经常会达到TB级,甚至是PB级别。海量化处理信息,是云计算的优点。面对海量信息,云计算能够实现大量化分析存储、读取信息,其信息的读取操作频率甚至远远高于信息自身的更新速度。云计算为高校数字图书馆低成本、高速度的处理海量数据,提供了新的方式。云计算支持高校数字图书馆用户,使用映射化简编程模型,实现数据读取。映射化简编程模型,可以让用户实现大规模数据的处理。这一模型先是通过映射程序,将海量化的数据,分割成互不相关的子块;然后,通过调度不同地域范围的计算机,进行分布运算;最后,化简程序,会将运算结果进行汇整,传递给用户。
映射化简编程模型的运转包含五个步骤:文件输入、文件分配、中间文件写、映射运行、结果输出。由于中间文件写的减少,减少了网络带宽压力,也减少了写的时间。云计算处理海量化信息时,还具有无线接入功能。用户通过虚拟服务器,能够获得一个十分透明的使用环境,不需要了解数字图书馆内部复杂的环境,就可以访问使用高校数字图书馆,获得所需电子资源,大大提高了高校数字图书馆的效率。所以,通过云计算实现高校数字图书馆信息数据的海量化处理后,用户可以通过手机等便捷方式实现对资源的访问。
如果,基于云计算的信息海量处理技术与基于云计算的信息存储虚拟化技术,结合使用,云计算的信息海量处理结果,可以直接保存在云计算的信息存储虚拟化设备上,对于本地资源而言,占用的量将更小,使用的网络流量也将减少,时间、成本都会随之减少,从而更好的解决了海量信息数据的存储问题。
(三)运用云计算实现数据运转高效率。高校数字图书馆正常安全运转的核心设施主要是数据中心。逻辑上的数据中心,涵盖软件和硬件。数据中心安装的各类程序以及提供各种服务,是软件;数据中心的计算机设备、支撑系统等基础设施,是硬件。云计算概念和理念运用到高校数字图书馆建设中,就是由虚拟平台软件管理PC服务器等硬件资源,通过虚拟机按需分配计算资源,使得计算资源从物理的转换为逻辑的。
F大学图书馆,在云计算虚拟化之前,基本通过PC机、PC服务器加上IDE阵列,进行数字化,系统故障不断。后来,F大学图书馆,在购进高性能服务器、新添电子图书等数字化资源后,通过云计算对数字资源进行了虚拟化,较大提高了资源的使用效率。特别是运用NAT转换端门映射这一虚拟技术,使得系统受到外部入侵的途径减少,保证了系统安全。
虽然,云计算还处于初步运用阶段,不过,随着云计算的技术发展,运用规模扩大,高校数字图书馆建设可靠、安全的云存储、云服务将成为趋势。当前,不少高校在数字图书馆建设中,主要通过借助云服务公司,解决图书馆的云计算问题。也有不少高校的数字图书馆建设,通过构建云计算管理平台实现。这些高校将自已本馆的“云”,通过云计算管理平台,与全世界不同地域范围内的其他高校数字图书馆整合起来,统一使用资源,对信息进行分布式、协作化、智能化处理。
不管怎样,云计算能够使得高校数字图书馆提高效率,有数据表明,采用云计算之后的高校数字图书馆服务器的使用率从平均值6%-7%提高到60%左右,在高峰使用率从40%左右提高到85%左右。[3]
(四)运用云计算实现数据资源共享化。不同的高校在数字图书馆建设中运用云计算,可以实现对基础设施等资源的共享,从而较大程度降低建设数字图书馆的成本,另外,效率不仅不会降低,还会得到大幅度的提高。云计算,能够使得在异构分布环境处于不同高校的海量数据信息,得到统一整合,实现高校之间在信息数据资源方面的智能共享,用户只需要访问虚拟服务器,接入统一接口,就能够在不同高校之间获取数据资源,从而极大提高了高校数字图书馆资源的利用效率。
国内高等教育文献保障系统,近几年来,将云计算技术确定为系统的技术发展路径。系统结合云计算等技术,设计开发高校数字图书馆云服务平台。国内高等教育文献保障系统云计算服务平台,可以将国内高校数字图书馆资源、服务进行整合,形成一个整体,能够实现对服务的动态管理、支配,既能够满足不同层次规模高校建设自身数字图书资源的需求,实现馆际资源的共享共建,也支持高校图书馆之间的协作,使得每一个高校的数字图书馆用户都能够参与到资源共享中来。
三、云计算应用于高校数字图书馆需要注意的问题
技术是把双刃剑。云计算作为一种新的理念、技术,能够为高校数字图书馆建设带来新的机遇,但是,在高校运用云计算建设数字图书馆过程中,也需要注意一些问题。
首先,高校在数字图书馆建设中,应该注意选择具有可替代性的云计算供应商。考虑云计算供应商,既要从价格、技术、信誉等方面考察,更要从技术的可替代性角度选择,如果云计算设备不能在不同供应商之间实现转移,高校数字图书馆的建设将会被云计算供应商绑架,导致后续数字图书馆技术升级成本过高。
其次,与第一个问题相关的可替代云计算供应商,应是基于共同标准的云计算技术。不同云计算供应商之间能够具有可替代性,根源在于这些供应商的云计算具有共同标准。当前,由于云计算处于初始发展阶段,技术标准问题是这一技术当前发展的主要难题。不同云计算供应商之间,由于缺乏共同技术标准,导致技术的兼容性欠缺。对于图书馆行业,关注的标准可能需要更加广泛一些,比如不但需要程序交互接口的标准化,而且需要支持不用再编程的可交互接口,支持数据的标准化等等。[4]
最后,高校数字图书馆建设中,使用云计算,还要注意数据保密和知识产权问题。由于云计算技术的使用往往超越国界,不同国家的政策对于云计算中的数据安全具有极大的影响。比如美国政府曾勒令微软公司停止某些国家的MSN服务,类似的政策极有可能导致云计算安全问题产生。需要指出的是云计算会导致企业和个人可以对非我所有的数据进行整合、挖掘,形成新的产品和服务,这新产品和服务的产权,是属于原属内容拥有者还是属于数据整合挖掘企业、个人,目前,这一产权问题,在传统法律上还找不到界定。
[参考文献]
[1] 李开复. 拥抱云计算 把握商机[J]. IT时代周刊,2009(1): 28.
[2][3] 王平. 云计算关键技术在数字图书馆中的应用研究[J]. 情报资料工作,2010(5): 52.
[4] 胡小菁,范并思. 云计算给图书馆管理带来挑战[J]. 大学图书馆学报,2009(4): 10.