APP下载

二分网络在高校图书馆云计算中的实现研究

2012-04-29水静张瑞

现代情报 2012年9期
关键词:云计算应用程序高校图书馆

水静 张瑞

〔摘 要〕文章针对高校图书馆管理中出现的实际问题,结合目前云计算技术的发展,利用二分网络的研究手段及方法对其进行了全面的分析研究,具体包括度、集聚系数、社团结构及聚类算法,深入讨论了二分网络在云计算中的部署,以及二分网络在高校图书馆管理中的具体应用和所需面临的问题,为目前的高校图书馆的数据分析提供一种比较实用的方法,帮助高校图书馆建设一个稳定安全而且实用的数据分析环境。

〔关键词〕高校图书馆;云计算;二分网络;应用程序

〔中图分类号〕G250.7;391 〔文献标识码〕A 〔文章编号〕1008-0821(2012)09-0094-03

伴随我国高等教育的大发展,各个高校图书馆以“加强系统资源建设,促进服务质量提高”为宗旨,逐步更新管理理念,完善管理措施,不断提高图书馆的信息服务能力。与此同时,目前的大学图书馆大都引入基于数据库的自动化管理系统,这就使得高校图书馆管理不得不面对一个图书馆日常借阅数据剧增的事实。其主要原因在于,各大学图书馆不断扩充自身的馆藏书籍数量以及各大学在校学生数量的增加。据调查显示,目前我国一个普通的综合性大学馆藏书籍种类大体在3~4万种,数量在100~200万册之间,1个月产生的借阅信息大体在1~2万条,1年的借阅信息在20万条左右。如此数量的信息背后绝对包含着许多待挖掘的信息,但就这些数据的存储和研究处理方法却遭遇了许多问题,首先是各高校对图书馆管理系统及硬件的投入越来越多,与之同时产生的海量数据保存却越来越吃力,而且各高校保存的数据由于类型差异较大,无法实现共享。其次,缺乏架构化、内在的和深层次的分析数据的分析方法,目前的分析效果不尽理想。

1 云计算与复杂网络的发展

2008年以来,云计算与图书馆管理结合逐渐成为一个热门话题,各大学图书馆紧跟云计算的步伐,积极研究云计算给图书馆带来的影响,希望充分利用云计算能切实提高高校图书馆的信息管理能力。所谓的云计算是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。就高校图书馆而言,可以将图书信息、借阅者信息以及借阅信息上传至提供云计算服务的服务器中,而且不用考虑数据存储空间的大小,同时这些数据可以动态更新。高校图书馆不用担心应用软件是否是最新版本,极大的减少了学校为维护和升级的应用软件投入的费用;另外,数据储存在云端,因此无需担心病毒的入侵和硬件的损坏导致数据丢失。

目前,高校图书馆对于图书及图书借阅等数据的研究主要集中在3个方面:(1)依靠本身技术力量, 凭借业务管理系统自带的功能对数据进行诸如查询、汇总等分析工作。(2)依靠数据挖掘应用技术对上述数据进行定量、归纳分析,调查显示2003-2009年间,国内数据挖掘技术在图书馆应用研究方面的论文达到533篇。(3)依靠统计学提供的分析方法对高校图书馆自身数据进行分析研究,并由此产生了一些高校图书统计指标。近几年,伴随近年大型数据库的建立和计算机存储与运算能力的迅速提高,复杂网络的研究逐步深入,人们利用大量的真实网络数据对高校图书馆系统进行分析,寻找呈现表象的内在机制和模式,进而试图发现支配和影响这些复杂系统的动力学和演化规律的内在本质。

高校图书馆将基本业务数据上传至云服务器,并在云服务器的基础架构上开发针对自身数据分析的复杂网络应用程序能为高校图书管理业务开辟一条崭新的思路。

2 复杂网络二分网技术研究及方法

复杂网络的理论研究对网络安全、网络控制和计算机病毒传播的控制与防御等研究产生了重大影响。用图论的语言来描述,一个网络可以抽象为一个由节点的集合V和边集E组成的图G=(V,E)。节点数记为N=V,边数记为M=E。E中每条边都有V中一对点与之相对应。对于高校图书管理系统而言,点集指的是一个个独立的图书和借阅者,而边集就是图书与借阅者之间的链接,一个图书系统的这些大量信息被提取出来就构成了一个完整的复杂网络。该复杂网络同时具备了一个显著的特点,该网络由两类节点以及两类节点之间的连边组成,同类节点之间不存在连边,U代表借阅者,B代表书籍,最终关系如图1所示,这样的网络在复杂网络中被称为二分网络。

图1 高校图书借阅系统二分网络示意图

利用二分网络分析对图书借阅系统的研究起始于3项基本的内容,它们分别是二分网的度、集聚系数及社团结构及聚类算法。

2.1 二分网的度

度本身的意义是指与该节点连接的其它节点的数目,一个节点的度又分为出度和入度两种。在图书借阅网络的二分网络模型中主要包括借阅者的度分布和书籍的度分布,它们分别是指一个单独的借阅者借过书本的数目的分布,或者是一本书被多少位阅读者借阅的分布。所有节点度的平均值称为网络的平均度。从二分网络图书借阅系统实证的角度出发,一个节点无论从出度或入度的大小直接与该节点的重要程度相关。换句话说,通过度分布的研究可以非常直观的找到最受青睐的书籍作品以及在借阅过程中最活跃的书籍阅读者。另外,高校图书借阅的度分布具有时间演化不变性者,均呈现出指数分布特征。

2.2 二分网的集聚系数

集聚系数是复杂网络非常重要的特性之一,它实际表达了网络连接的聚集程度,即网络有多紧密。如果一个网络结点有数个直接的邻居结点,那么这些邻居结点之间有可能也是邻居。聚集性用于描述这种可能性程度。对于复杂二分网络而言,集聚系数又细化为点聚集系数与边聚集系数两类。对于高校图书借阅系统而言,它拥有较多的书籍,但同时书籍之间具备了较高的关联性,它们中都存在着一些规模不等的连通集团结构。连通集团的中心节点包含某一相关主题,而中心节指向的各个分支节点含有与该主题有关的一些内容。就是说高校图书是各学科或专业的学习资料的集合,这样很容易形成相关资料的聚集链接,这些内容的分析与高校图书馆的管理有着紧密的关系。

2.3 社团结构及聚类算法

高校图书馆借阅图书节点呈现出若干个“群”或“团”的结构,复杂网络称之为社团结构。它是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏,如图2。社团结构在实际高校图书借阅研究过程中有着重要的意义,它是了解整个网络结构及促进有效借阅的重要途径。其主要步骤包括:(1)设定某种标准衡量社团与社团之间的距离或相似度;(2)将图书馆中的每一个被借阅的图书视为一个社团,所以在初始状态,社团数目与页面数量相等;(3)根据设定的衡量标准,计算社团与社团间的距离或相似度,并将距离最近的社团或相似度最高的社团合并在一起形成新的社团;(4)重新计算每对社团间的距离或相似度;(5)不断重复合并及重新计算的步骤,直到找到所有聚类的社团。

目前,众多划分网络社团结构的算法被设计出来,主要包括凝聚算法、分裂算法,搜索算法及其他算法四大类。

3 二分网络在云计算中具体实现

利用二分网络对高校图书馆借阅信息的分析,对于提高高校图书馆的管理工作非常有帮助,但同时也存在如下

图2 社团结构网络示意图

几个难点问题:(1)根据笔者调查收集的数据显示,针对一个中等规模的大学图书馆,其1年的借阅数据基本在20万条,这些数据利用图书馆自身的分析耗时又耗力。(2)利用复杂网络的分析方法对于专业的要求过高,不针对一般的管理人员。所以,需要一个平台,使图书管理人员不再淹没于大量的数据和技术方法,而直接得到分析的结果。

3.1 平台选择与技术实现

云计算在图书馆领域的应用与研究已陆续展开,图书馆的云时代即将到来,重塑图书馆生存和发展的环境、推动图书馆自身变革是云计算环境下图书馆发展的未来趋势。云计算是分布式处理、并行处理和网格计算的发展。从本质上讲,云计算是指用户终端通过远程连接,获取存储、计算、数据库等计算资源。目前,业界提供云计算服务的运营商较多,对于高校图书管理二分网技术云计算实现而言,可以选用谷歌Google。日常在使用的Google Search,Google Earth,GoolgeMap,Google Gmail,Google Doc等等业务都是Google基于自己云计算平台来提供的。Google也是通过云计算的方式,大量的降低计算成本,使之业务更具有竞争力,其云计算平台架构如图3所示。

对于高校图书管理云计算的实现,首先是各类软件应用,一般常见的形式包括图书馆自动化系统、办公自动化系统等,都以一种网络服务的形式提供;第二,云存储服务,大量的数字资源都可以存放服务器上,而不再需要“镜像”于本地;第三,云计算服务提供商,提供本地数据中心或者其他业务支持;第四,平台服务,大型图书馆引入“云”设施,利用商用的云计算解决方案,架构满足本地或局部应用的“私有云”平台;第五,互联网整合服务,图书馆作为一种服务中介,需要整合多家平台和资源,利用各类云实现不同“云”之间的互操作,向管理者提供更有效的服务。

Google云计算软件系统为图书馆数据的二分网络分析提供了一种理想的平台,原因在于Google云计算平台软件系统特别提供了Python与Java开发开发工具,而目前绝大多数的二分网络分析程序都是基于上述两种程序语言编制的,它保证了数据分析的可扩充性与通用性。同时,Google云计算平台的并行计算算法及并行数据库将极大提高高校图书馆数据的分析速度。另外,在借助google云计算平台处理数据的同时,必须注重数据存储格式的界定,目前高校大多数的数据多以EXCEL的xls格式或其它自主格式保存,这对云端数据的二分网络处理分析非常不利,高校图书馆的借阅数据应该转向更加具体的网络数据格式,例如CSV或NET等格式,这对后期的处理创造有利的基础。

3.2 存在问题的思考

云计算与二分网络分析技术的结合,将为高校图书馆数据分析插上有力的翅膀,但同时也存在某些待解决的问题:首先是互操作性和标准化问题,在云计算与图书管理自动化的初步成长期,由于各厂商都试图建立自己的接口,同样是高校图书馆借阅数据,却存在着大相径庭的存储与处理方式,导致解决同一问题的方法多样化。其次,信息安全与保密问题,目前,高校图书馆的数据绝大部分是内部数据,采用不公开的方式处理,但另一方面,二分网方法对一所大学数据的分析不具备可比性,只有累计多方的数据,才能让分析处理结果具备合理性。

猜你喜欢

云计算应用程序高校图书馆
删除Win10中自带的应用程序
谷歌禁止加密货币应用程序
基于云计算的移动学习平台的设计
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
高校图书馆阅读推广实践探讨
高校图书馆电子资源的宣传与推广
三星电子将开设应用程序下载商店