APP下载

基于复杂网络理论的图书借阅分析*

2018-11-14

图书馆研究与工作 2018年11期
关键词:标度对数图书

(江苏大学科技信息研究所 江苏镇江 212013)

1 引言

网络是由节点及节点之间的连接组成的,复杂网络依然如此。复杂网络的节点数量巨大,而且与规则网络相比,其拓扑结构具有不规则性和复杂性,发生在其拓扑结构上的动力学行为也非常复杂。随着社会不断进步,复杂网络技术在社会的各个方面都得

到了迅速的发展,越来越多的复杂网络层出不穷,并且它们的表现形式和功能各异。互联网就是一个典型的复杂网络,它能满足平时人们的日常工作与生活的需求,因此其增长的速度甚至达到了指数级的增长。其他各行各业中,复杂网络的身影也随处可见,例如电力网络、交通运输网络、生物种群网络、蛋白质网络、人际关系网络、科研合作网络等等。近年来,高校图书馆承担了越来越多的教学科研服务的任务,而其中基础的一项服务就是图书借阅,对其研究可以为师生更好地利用和建设图书资源提供有力的保障。但常规的统计方法已经不能满足深层次挖掘图书借阅数据的要求。复杂网络作为分析个体之间相互关系和系统的集体行为的重要工具,因其能深入挖掘系统中整体与个体的深度信息而被广泛运用在诸多领域。本文将复杂网络运用在江苏大学图书馆图书借阅数据分析中。

复杂网络一般表现为单顶点网络和二分网络两种。单顶点网络是由同类节点构成的网络,而二分网络是由两种不同类型的节点构成的,边连接不同类节点之间的网络。图书借阅可当作一个复杂网络[1],因为图书借阅过程可以看成在图书之间、读者之间以及图书与读者之间的相互关系。王进良等人通过对北京师范大学图书借阅记录的分析,构建了单顶点网和二分网两种网络,分析了两个网络上的度分布,并发现单顶点网络表现出明显的“小世界效应”,并且在二分网上基于同类节点的相似性提出了基于三元组的集聚系数的定义[1]。李楠楠发现读者或者图书的度分布都能很好地用指数分布拟合,同时证明了单模式网络具有小世界网络特性,此外还对读者借还图书的间隔时间进行统计分析,发现阅读时间服从幂律分布,并且在截止时间处幂指数产生变化[2]。傅林华等人研究图书借阅二元网络,以研究配位数分布为工具,研究了北京师范大学图书馆借阅情况所构成的网络,定性重现了单标度二元网络模型[3]。在对复杂网络模式的确定上,尽管文献都发现了读者或者图书的度分布能很好地用指数分布拟合,同时具有一些单标度网络的特性。但是,文献尚未从统计学的角度验证模型的显著性与正确性,缺乏科学的论证。

2 图书借阅网络模型的构建与分析

2.1 图书借阅网络的构建

在图书借阅系统中,包括读者和图书两类节点。因此我们可以构建无权二分网络:即当某一个读者借过某一本书时,就在该读者和该本书中间建立一个连接,而不考虑读者借阅图书的次数。而两个单顶点网络实际上是这个二分网络分别在两类节点上的投影,如图1所示。一般来说,二分网络能更多反映原始网络的信息。

图1 网络投影示意图

按照图1的方法,将二分网络归为两个单元网络,即读者网络和图书网络。在读者网络中,读者之间按照是否借阅过同一本书在两两之间建立联系;在图书网络中,图书之间按照是否被同一个读者借阅过在两两之间建立联系[3]。

2.2 图书借阅网络的分布分析

复杂网络表现出一些普遍存在的结构特性,结合数学中图论的相关知识,读者网络和图书网络可以用邻接矩阵的方法进行表示[3]。本文数据来自江苏大学图书馆网络技术部,选取2015届本科生在2016年1月1日—12月31日在图书馆的借阅数据,分别以学号和图书编号为特征表示读者和图书。在此期间,2015届本科生有3 262名学生在图书馆办理了借阅手续,31 958本书被学生借阅,共有46 746次借阅记录。并按照上文所述,分别建立了读者网络和图书网络。

本文采用度来分析网络,因为节点度是确定和量化节点之间连接的最直接指标。节点的度或连接度是一个网络中与该节点相连接的其他节点的数量。使用邻接矩阵,网络的一个节点的度可以定义为:

网络中节点的度分布情况用节点度的分布函数P(k)来描述。P(k)表示在网络中随机选择一个节点,该节点的度恰好为k的概率,或者网络中具有度为k的节点的比例。在现实世界中,各种不同性质的复杂网络表现出的度分布特性主要包括无标度分布、单标度分布和宽标度分布,分别对应着不同的分布函数特征[4]。

Barabasi等人发现,自然界和人类社会的大多数网络系统在节点的度上都具有无标度(scale-free)的特点,即节点的度往往是具有幂律的分布,或者说,在网络中任意抽取一个节点,其度为k的概率和k-γ成正比,其中γ为一指数,大多数情况下取值在2~4之间[5]。若节点度在双对数坐标下呈现出一条直线,即服从幂律分布P(k)=k-γ,幂律分布的图形没有峰值,大多数节点仅有少量连接,而少数节点拥有大量连接,不存在指数网络中的特征标度,人们称这种表现出幂律的度分布为无标度分布。

单标度分布的情况则完全不同,单标度分布可从线性-对数坐标下的累积度分布函数,对数-对数坐标下的累积度分布函数来进行分析。因为有时在实际情况中样本有限,数据就会出现相当强的噪声,即数据在度分布的尾部震荡幅度较大,表现出胖尾现象。针对该现象,可以度量网络的累积度分布函数,即。从累积度分布函数的表达式可以看出,将原度分布P(k)按度求和就可以得到累积度分布,原度分布表现在尾部的统计震荡一般可以得到消除。单标度分布的累积度分布函数在线性-对数坐标下呈现出一条直线,在双对数坐标下呈现出快速衰退的尾部,这与无标度网络的幂律分布完全不同。

本文利用网络的累积度分布函数,对度分布进行分析,该方法消除了度分布在尾部震荡过大的问题,并且可将指数拟合问题转化为线性拟合问题,从而简单明了地判断复杂网络的模式。

从图2和图3可以发现,两个网络的累积度分布函数在线性-对数坐标下都呈现出一条直线,在双对数坐标下呈现出快速衰退的尾部,因此符合单标度分布的特征。通过对图2和图3中线性-对数的回归分析,将度的大小作为自变量,累积度分布之和作为因变量,利用matlab自带回归工具进行分析,具体代码如下:[b,bint,r,rint,stats]= regress(Y,X),输出stats是用于检验回归模型的统计量,通过以上代码,输出的stats变量能帮助判断图2、图3中线性-对数坐标中呈现的是否是直线,若是直线,能说明回归模型成立,该复杂网络是单标度网络。而两组实验证明,stats变量中的概率值P都小于给定阈值0.01,这表明回归模型成立,读者网络和图书网络都是单标度网络。

图2 读者网络的累积度分布

图3 图书网络的累积度分布

3 总结与讨论

3.1 结果分析

读者网络和图书网络都是基于借阅数据而得到的,因此读者网络和图书网络能够翻译借阅行为的相关信息,进而可以为图书馆、读者、学校其他相关部门带来启示。通过图书借阅的二分网络,分别得到了图书网络和读者网络,并据此分析了两个网络的度分布情况。通过数据拟合的数学方法,从统计角度证明了图书借阅数据中的图书网络和读者网络的度都服从单标度分布。

从读者方面考虑,读者网络服从单标度分布,说明读者中并没有出现只有极少数学生借阅读书的情况。江苏大学的本科生大都是各个省市高考考生中第一批录取的学生,学生的学习能力较强、素质较高,学校的学习风气整体较好,学生借阅书籍的意愿普遍比较高,因此出现了读者网络服从单标度分布的情况。

从图书方面考虑,图书网络也服从单标度分布,说明馆藏图书中并没有出现大部分图书都无人问津的情况。江苏大学图书馆中设有资源建设部,是专门为全校师生订阅文献资源的部门。资源建设部通过多种渠道为师生订购图书,包括各大书商的推荐、学校师生在图书馆网站中读者荐购模块上的推荐以及咨询各个学院部门等多种形式,能充分考虑到学校师生的诉求;再者,江苏大学是一所以工科为特色的综合性研究型大学,学校设有24个学院,88个本科专业,因其专业设置齐全,所以师生借阅书籍的种类也会表现出多样化。综上所述,图书网络会表现出单标度网络的性质。

3.2 工作借鉴

图书借阅的二分网络分析可以为图书馆以及学校相关部门的工作带来启示,帮助其通过图书网络和读者网络的性质及时了解相关信息,指导相关工作,如评价图书资源的合理性、了解学校的学习风气等。相关部门可以定期分析与监控图书网络和读者网络,判断上文所描述的回归模型是否成立,若不成立,则说明图书借阅行为出现了一些问题。当图书网络不符合单标度分布的性质时,图书馆的资源建设部则可能需要对自身的资源采购进行评估,判断所采购的图书资源是否真正满足大部分读者的借阅需求;资源建设部门也需要通过更多的渠道了解全校师生的借阅兴趣,力争为全校师生提供更好的服务。当读者网络不符合单标度分布的性质时,说明很可能出现了只有很少的学生借阅图书,而大部分学生已经不再借阅图书的情况。这时,学校相关部门需要密切关注学校的学风建设,采取措施加强对学生学业的监督和管理。

4 结语

本文证明了江苏大学图书馆中的读者网络和图书网络度分布服从单标度分布。这表明,这些网络并非是无标度网络,也就是没有展现出马太效应[6]中“强者愈强、弱者愈弱”的发展趋势,即说明图书借阅没有出现极端的情况。图书馆中并非绝大多数的借阅都集中在少部分的书籍上,也并非绝大多数的借阅都集中于少部分的学生中。相反,读者网络和图书网络度分布服从单标度分布能说明该年级学生借阅图书的广泛性和多样性,这也是符合当今倡导学术自由,充分尊重学生个性发展的学校氛围;并且,学校相关部门也可将探求复杂网络性质的方法作为评判图书资源采购和学校学习风气的量度。

猜你喜欢

标度对数图书
指数与对数
指数与对数
图书推荐
比较底数不同的两个对数式大小的方法
任意阶算子的有理逼近—奇异标度方程
基于改进AHP法的绿色建材评价指标权重研究
欢迎来到图书借阅角
无标度Sierpiński网络上的匹配与最大匹配数目
对数简史
班里有个图书角