基于外借图书数据分析的图书采购启示
——以第三军医大学图书馆为例
2017-11-20张精理何晓阳
张精理 何晓阳
(第三军医大学图书馆重庆400038)
基于外借图书数据分析的图书采购启示
——以第三军医大学图书馆为例
张精理 何晓阳
(第三军医大学图书馆重庆400038)
为了确定图书采购的最佳复本量,对第三军医大学图书馆的流通数据进行分析,发现读者实际借阅的图书群中存在一些比较稳定的现象和规律,可为图书馆确定图书采购的最佳复本量提供参考,同时,对图书采购策略方面也有一些启示。
流通图书借阅数据长尾分布复本
G251.4
A
2017-05-18
资源建设是图书馆的核心工作之一,涵盖电子文献资源和纸本资源,电子文献资源不需要考虑复本,而纸本资源尤其是纸本图书则会涉及复本问题。
图书复本量的配置会影响到图书的利用率及可获得性,国内外在复本采购策略上也有差异:西方大学图书馆图书采购大多使用“单复本”策略,即“仅购买一个复本(即每种图书只购置一册或一套)”[1]。我国高校图书馆则很少使用“单复本”策略,各高校图书馆在对复本的采购上取决于各馆的传统和采购人员等多种因素,常亚青对我国47所高校图书复本量抽样调查数据也表明了各馆在复本量上的差异性[2],所抽样高校的复本均值,最小2.83,最大7.84。远远高于美国高职高专类院校1.18的复本量[3];也明显高于美国ARL统计的114所大学图书馆的平均复本量1.3[4](只有113所院校报告了书目数据,导致该值比实际值偏大)。
为了确定最佳的复本量,从20世纪80年代起,国内许多学者就开始研究复本问题,持续至今[5][6][7],但迄今为止,也未有公认的最佳方案。依靠采购者的经验模式容易受到采购者主观意识的限制,部分研究者使用公式计算或回归分析方法[8][9],但其参数中往往涉及拒借率、续借概率、图书老化周期、现实读者人数等较难得到或难以准确得到的参数,使得其方法理论上可行但现实中较难运用。从已有文献来看,为了确定复本量,涉及的影响因素涵盖了现实读者人数、借阅规则、读者续借该文献的概率、出版物的有效使用周期、流通分支部门的数量、馆藏基础、保存本的数量、购买经费、图书价格、采购品种数、学术水平、生命周期、作者知名度、出版社知名度、价格水平、图书利用率等等,诸多影响因素混杂在一起,使得求解最佳复本量并不容易。
本文以第三军医大学图书馆为例,通过分析实际外借图书数据,分析每一种外借图书年度内所对应的实际读者数,并进一步分析有效借阅读者数所对应的图书种数及其在所有外借图书总数中的占比,从而可以比较直观地观察到外借图书和借阅用户数量之间的关系,为图书采购提供基于读者使用量支持的决策数据。相比过往研究前瞻性地预测所需图书复本量,本文则类似于回顾性研究,使用已产生的结果数据来支持决策。
一、数据和方法
1.数据。数据来自我馆读者的借阅数据,以中外文流通书库为主,以自然年度为时间划分,分别统计了2013到2015年度的流通数据。本文用到的统计项主要有图书题名、ISBN号、被借次数、分类号、续借次数、借阅总人数、图书复本数。
涉及数据计数规则的部分解释:借阅数据只针对纸质图书,不涉及期刊和电子资源。以图书种类为区分标识(不同ISBN号图书以ISBN号区分,同一ISBN号下图书以ISBN和分册号为区别),统计不同种类图书的题名、图书的复本数、借阅总人数、续借人数。如表1所示。
表1 统计图书数据示范
读者借阅图书之后,有可能续借图书,计数时续借仅增加图书被借次数,不增加借阅总人数,即后文中的有效借阅人数。
2.方法。将处理后的数据放入excel中,根据需要提取不同特征项导入到SPSS19.0.0软件中,进行分析。首先分析被借阅图书的整体情况;然后对被借阅图书按照中图法分类进行分析,观察中图法下不同类别图书借阅情况和整体情况的区别;最后对部分不同复本量图书的借阅情况进行分析,估算复本量的经费成本以及读者借阅情况。在上述分析的基础上给出最佳复本量参考值及部分图书采购建议。
二、分析
1.2013—2015年度有效借阅人数及对应图书种数分析。
表2 2013—2014年度有效借阅人数及对应图书种数
尽管历年实际外借图书发生了变化,但有效借阅读者和对应图书种数的分布和累计百分比仅仅是略有变化,其宏观分布类似,由于篇幅的限制表2中略去了2015年度详细数据。对于每一种实际外借图书平均对应的读者数,表3中计算了2013—2015年度统计数据的均值及其标准差。
从表2可以看出,实际外借图书中大约80%的图书一年内被两个以内的读者借阅。随着有效借阅读者数的增加,图书的种数迅速减少。依据这些数据来看,从图书利用效率的角度来考虑图书采购数量,同一种书购买量不要超过2册,表3的均值数据也支持该结论。2013年度和2014年度的数值比较接近,2015年度相对2013年度和2014年度变化更大,主要缘于2015年度我校招生人数显著减少而引起。
以图书种数为横坐标,有效借阅读者数为纵坐标,表3中对应的数据标注于坐标系中用线段连接这些点,可以看出2013—2015年度图书被借阅的数据分布并不是常见的正态分布,而是一个长尾分布,即帕累托分布。
80%左右的图书被2名以内的读者借阅,约97%的图书被6名以内读者借阅,高达99.5%以上的图书被12名以内的读者借阅。我校图书借阅时限为60天,理论上每种图书购买一册年度内可供6名读者借阅,可以保障约97%的借阅需求。同理,每种图书购买两册理论上保障了约99.5%左右的读者借阅需求,每种图书购买三册则保障了99.9%的读者借阅需求。由此可以给出我馆基于读者借阅情况分析的最佳复本量为2—3本,一种图书购买量若超过3册,则大概率属于复本量配置过高。
2.2013—2015年实际外借图书按照中图法分类统计。表2中是对所有外借图书汇总的一个数据,但具体到不同的图书种类,其借阅分布是否还是长尾分布、所给出的最佳复本量是否适用还不明确。有必要进一步对不同类型的图书借阅情况进行分析。
按照中图法分类,笔者对2013—2015年的外借数据分类后统计,得到表4所示数据。均值是对应中图法分类号的实际外借图书平均每种书所对应的借阅读者数,百分比为该类图书占年度外借图书百分比。
表4中,P、S、U、V、X、Z六个大类在实际外借图书种类中占比过小,6个大类合计占比不到0.5%,故未单独列出。
分析表4数据可以看出,历年来医药、卫生类(R类)图书是我校外借图书中的第一大类,随后是文学I类,语言、文字H类为第三位,三个大类图书合计占比历年均超过65%;哲学、宗教(B类)与历史、地理(K类)以及生物科学(Q类)为第二梯队,B、K、Q三个大类图书合计占比约16%;随后是数理科学和化学(O类)及工业技术(T类)。
表3 2013—2015年度实际外借图书对应读者数均值及标准差
尽管历年来借阅数据有所变化,各类别所占据的百分比也有波动,但在所统计年度内借阅总量上前八位均为相同的顺序,依次为R、I、H、B、K、Q、O、T,表明读者需求存在稳定性。该证据支持笔者预判:由于学校专业设置是比较稳定的,导致学生的需求也具有一定的稳定性,只要专业设置和学生人数均保持相对稳定,年度借阅图书之间就会保持稳定性,具有近似的构成比例和量。这就意味着通过分析和比较历年的借阅数据,可以有效地指导图书馆业务。
表4数据:按中图法分类图书中,所对应的读者数均值大于2的,只有H类、I类、O类和Q类。
通过其他研究者如潘琳[10]、张丽君[11]、徐淑琴[12]等人对浙江师大、广西大学、宁夏师范学院图书馆的借阅情况的研究分析,可以萃取出H类、I类是高校中具有共性的利用率较高的两类图书。
我校I类图书对应的读者数均值在所统计年度内均大于2,而且其标准差历年也均超过2。标准差大表明I类图书中被读者借阅情况的变化较大,可能存在同一种书被更多读者借阅的情况。选取I类分析,将更具有代表性。
笔者对2013年度的I类图书进一步分析,观察I类图书与整体情况的相似性和差异性。分析后发现:最大的差别在于I类图书中只被一个读者借阅的图书种类占比更低:I类图书为49.7%,整体超过60%,两者相差约12%;随后随着有效读者数增加I类图书占比均高于总体的比例,与2013和2014整体差值的均值为:2读者(2.35%)、3读者(1.85%)、4读者(1.85%)、5读者(1.2%)、6读者(1.25%)、7读者(0.8%),详情见表5。
从数据来看,即便是I类这种非专业性、在高校中普遍利用情况较好的图书,在借阅分布上和整体情况类似,仍然是一个长尾分布,表2中推论得出的最佳复本量依然适用。
对H类图书数据分析后发现有类似的规律,只是比例上略有差异。
表5 I类图书中不同借阅人数的图书种数占比及整体占比情况
3.2013年度外借图书中不同复本数图书的比较。前文从整体和不同中图法分类下分析了读者借阅情况,为采购最佳复本量提供决策参考依据,但数据来自于已产生的借阅数据,是一种回溯性的推论。
增加某种图书的复本量能够减少读者的并发借阅冲突,也增加图书被读者借阅的机会,同时,增大复本又会增加经费支出,减少可购买图书的种类,如果所增加的复本数量并不能有效地被读者借阅,则复本的增加反而降低了图书的使用效率。本节尝试从前往后分析,探索不同复本量图书被读者借阅的情况。选取2013年度的外借数据进行分析。
我馆2013年度被借阅的流通图书中,除掉13种特殊原因导致的高复本图书外,所有被外借的实际流通图书,复本量从1到21本,实际情况如表6所示。
表6 2013年度实际外借图书复本量情况
表7 1-6复本外借图书对应有效读者及图书种数汇总表
从表6可以看出,大多数被借阅的图书,还是集中在小复本区域,以2个复本和3个复本最多。
为了进一步探究复本量与使用率之间的关系,笔者对复本1到复本6的图书(涵盖了98.3%的实际外借图书)借阅情况进行分析,汇总得到不同复本量下与有效借阅读者频次对应的图书种类数,如表7所示。
观察表7数据,可以发现不同复本量下,随着借阅读者数的增加,图书种类数均迅速衰减,其中,2复本和3复本的外借图书种数比较接近,4复本和5复本的外借图书种数也比较接近,如果复本量能够显著影响图书的借阅情况,那么2复本和3复本之间的衰减速度应该有明显区别(同理,4复本和5复本之间也是),但观察其衰减速度,可以发现2复本和3复本之间几乎相同,意味着增大复本量并不能显著提高图书的被借阅频率。
表7中的有效借阅读者,已排除同一读者续借,图书所对应的有效读者数是不同个体的读者,依据上述数据可以计算不同复本图书所实际服务的读者人数:有效借阅读者数*复本下图书种数;实际上,同一读者在不同的图书中可能会被重复计算,所计算出来的人数并非实际读者数,而是剔除了续借的读者人次数。
同样的,可以计算出实际外借所涉及的图书数量:有效借阅读者数*复本下图书种类数*复本量。引入图书单价后,可以计算图书的各种成本。
现实中,图书的单价是不一样的,为了简化计算,引入了2013年我国单册新书的平均定价54.71元[13],以该价格作为一个参考值,估算不同复本图书服务读者效益的年度成本,以2013年度数据为例。
表8 2013年度外借图书的成本估算
如表8所示,随着复本量的增加,新增一种图书的成本急剧增加,而从读者利用的效用价格来看,随着复本量的增加,其效用价格也是增加的,一册图书有一个读者借阅一次的成本(效用价格/本·人次)随着复本的增加而增加,复本小于2其效用价格低于图书成本,其后成本均高于图书成本。但测算数据中3复本的图书效用价格却高于4复本和5复本的,具体原因未知,有待进一步探究,但笔者估计其潜在原因可能是采购者更慎重的使用了其预判。
表8中的效用价格数据是基于一年内借阅情况作出的统计,一本图书提供借阅的时间并不限于一年,随着后来读者的借阅,图书的效用成本价格会降低。然而,随着时间的增长,大多数图书会因为知识老化等原因而导致被借阅的概率也是降低的,从这个角度上来看,复本量过大不论是年度还是长期来看均不具有成本或效益优势。
三、结论
1.各高校借阅情况既有自身的独特性,同时也会表现出高校的共性。不同高校其学科和专业设置、在校学生人数以及教职人员数均不相同,构成了各高校自身独特的特点。分析各高校的流通数据从而为采购提供决策依据,更符合不同学校自身的独特性。
我校为医学院校,外借流通中占比最大的是医药、卫生R类图书,约40%左右,这与我校专业特征具有显著关联性。文学I类是流通中的第二大类,表明文学类书籍是我校读者休闲阅读的主要读物类型。从借阅图书数量来看,休闲阅读的需求仅次于专业学习的需求,统计年度内I类占比有逐年升高的趋势。语言、文字H类居第三位,H类书籍主要源于学生对外语学习的需求,笔者分析了2013年度内被借阅的H类书籍,英语类图书为主要借阅内容,超过58%的H类借阅书籍题名中含有“英语”,超过28%的H类借阅书籍中题名含有“四级”(9.7%)、“六级”(7.5%)、“考研”(8.7%)、“考博”(2%),表明读者借阅英语类书籍含有明确的学习目的。生物科学Q类由于和医学有密切关系,也是我校外借图书中占比较高的一个大类,这也与我校专业特征具有关联性。哲学、宗教(B类)中主要是心理学(45.3%)与伦理学(21.1%)以及中国哲学(8.4%),B类当中伦理学占比较高,可能源于医学比较注重伦理学,医学实验和SCI医学类投稿一般都要求附有伦理学证明。历史、地理(K类)中比较明显类型是人物传记类,占K类外借图书中的约40%。
从上述我校的大类借阅情况可以看出,我校的实际外借图书既表现了学校的特色性(R、Q类),也具有高校的普遍性(I、H类)。
2.依据高校借阅图书情况,可以为估算最佳复本量提供参考。各馆的馆藏量、馆藏特点、读者数量以及读者特点、读者可借阅图书数目以及借阅时限等等多个影响因素,都会影响到读者对图书的借阅情况。僵化地指定具体复本量不符合实际情况,太复杂的方法实际工作中又难以把握,测算指标若过于复杂也不易统计和获得。
通过分析本校读者图书外借的分布情况,则直接综合表现出了上述影响因素,持续的追踪和分析能够为各高校估算最佳复本量提供有效依据。以我校数据为例,单复本能保障读者60%的并发借阅需求,2复本则可以保障80%以上的读者并发借阅需求。如果不考虑读者并发借阅冲突,2复本(年度内可以供12个读者外借)估计可以保障我校读者99%以上的借阅需求。基于数据支持,可以选定2复本为最佳复本量。部分时效性较强的并发借阅需求高的图书可以采购3复本。
当采购复本超过最佳复本量后,从读者实际利用情况看,笔者认为即属于复本量配置过高。如果馆藏图书复本量均值高于最佳复本量则需对图书复本量进行调整。
3.读者对书籍的利用是一个长尾分布,建议减少过高的复本量而增加采购种类。分析我校各类借阅数据,无论是整体上,还是中图法下的大类,读者借阅图书均呈现出长尾分布:绝大多数外借图书年度内仅被少数读者借阅,被多个读者共同借阅的图书占比极小,随着对应读者数的增加,图书种数迅速衰减,详见表2数据。
无论是读者差异性影响极大的专业书籍,还是读者差异性影响不大的文学类书籍,均为长尾分布趋势。也就是说,即便是不强调读者专业性的文学类读物中,读者间的需求整体上也表现出了极大的差异性,至少在一定的时限(如年度)内表现出了极大的差异性。出现这种情况,笔者推测其原因为:一是读者可选资源较多;二是读者间需求存在差异,加上时间因素这种差异就更明显。
如果放大时间跨度,估计不同读者共借同一种文学类读物的可能性会增加。但考虑到时限加长,读者间借阅的并发冲突性减小,仍然建议减少过高的复本量而增加采购种类。
4.从经费的效用考虑,建议降低过高的复本量。从笔者统计的历年数据来看,读者对纸本图书的利用,呈现缓慢下降趋势。此外,考虑到学校招生人数的滞涨或下降,降低过高的复本量也是合理的。
表8中估算的价格也支持降低采购复本量。复本量越高,增加一种图书的成本越高,而读者对图书利用的长尾分布,导致某种图书一旦采购复本超过最佳复本量后,则会使该种图书中的多册图书处于闲置状态,不利于经费的合理使用。在图书采购经费固定的情况下,复本过高也会导致采购图书种类数下降,难以满足读者的多样化需求。
结合表7来看,图书被多少读者借阅,可能更多地取决于读者需求和图书本身。对于大多数图书来说,增加复本量并不能明显提高图书被读者借阅的次数,反而降低了图书的利用率。
四、不足之处
本文分析结论仅依据图书的实际利用情况而言,不适用于具有长期收藏和保存价值的珍贵文献。此外,由于所分析的数据不含借阅冲突,尽管符合大多数图书的情况,但对于短期内并发性需求较强的如资格考试、等级考试类图书也不适用,各馆可沿用其一贯的策略或进一步分析该类图书的预约和续借情况而定,也可以对这类型图书同时提供纸质版和电子版。
[1] 吴志荣.感悟“一个复本”:探究西方大学图书馆的办馆理念[J].图书馆杂志,2004,23(12):42-43.
[2] 常亚青.47所重点高校图书馆复本量抽样调查研究[J].情报杂志,2009,28(6):192-196.
[3] 顾健.中美高职高专图书馆的比较分析[J].中国图书馆学报,2007,33(1):40-43.
[4] ARL.ARL Statistics 2014-2015[EB/OL].[2017-04-05].http://publications.arl.org/ARL_Statistics
[5] 于鸣镝.复本数学模式初探[J].黑龙江图书馆,1983(2):7-11.
[6] 于鸣镝.复本数学模式补正[J].黑龙江图书馆,1984(2):40-41+29.
[7] 王世艳.基于读者借阅需求的图书复本量探析:以黔南民族医学高等专科学校图书馆为例[J].黑龙江史志,2015(9):312-313.
[8] 刘新文.图书馆图书复本量的定量分析[J].西南师范大学学报(自然科学版),2007(4):87-89.
[9] 王居平.图书馆学和情报学中的量化分析和预测方法初探[J].情报杂志,2007(1):105-106.
[10] 潘琳.高校图书馆外文图书利用及馆藏结构调整研究:以浙江师范大学图书馆为例[J].图书馆界,2012(1):20-23.
[11] 张丽君.中文纸质图书利用问题实证分析:以广西大学图书馆为例[J].河南图书馆学刊,2016(1):101-103.
[12] 徐淑琴.基于读者阅读倾向的高校中文图书利用统计与分析:以宁夏师范学院图书馆为例[J].图书馆理论与实践,2014(10):26-28.
[13] 中国出版网.2005-2014,我国图书定价10年走势大揭秘[EB/OL].[2017-01-13].http://www.chuban.cc/cbsd/201603/t20160302_172815.html
2013年2014年2015年A B C D E F G H I J K N O Q R T均值1.61 1.87 1.62 1.43 1.48 1.76 1.3 2.04 2.44 1.78 1.74 1.5 2.36 2.16 1.78 1.6标准差1.145 1.431 1.422 0.89 0.984 1.872 0.696 1.636 2.459 1.241 1.706 0.99 2.054 2.124 1.689 1.213百分比0.42%6.35%1.82%1.58%1.88%1.41%1.85%9.07%17.41%1.04%5.28%0.44%3.20%4.57%40.3%2.89%均值1.48 1.71 1.59 1.36 1.29 1.68 1.27 2.07 2.49 1.76 1.68 1.33 1.95 2.08 1.74 1.72标准差0.75 1.262 1.175 0.995 0.904 1.637 0.777 1.611 2.491 1.265 1.677 0.733 1.647 1.836 1.548 1.44百分比0.71%6%1.91%1.66%1.84%1.47%1.58%8.51%18.98%1.14%5.78%0.45%2.82%4.39%39.6%2.68%均值1.24 1.56 1.84 1.38 1.26 1.46 1.28 1.82 2.12 1.69 1.57 1.39 1.82 1.98 1.65 1.53标准差0.634 1.158 1.661 1.046 0.606 0.915 0.7 1.286 2.168 1.22 1.334 0.75 1.44 1.572 1.381 1.142百分比0.5%6.13%2%1.5%1.85%1.40%1.58%9.16%21.89%1.54%5.59%0.38%3.18%4.87%35.28%2.71%
张精理,第三军医大学图书馆馆员,研究方向为信息技术、图书馆利用;何晓阳,第三军医大学副教授,图书馆副馆长,研究方向信息用户研究、信息检索、信息素养。