高借阅率图书特征分析及精细化采购策略研究*
——以大连理工大学盘锦校区图书馆为例
2023-08-03阎雅娜聂兰渤
阎雅娜 聂兰渤 丁 媛
(大连理工大学图书馆,辽宁 大连 116024)
近年来,纸质图书借阅量逐年走低已成为高校图书馆的普遍现象。纸质文献占据了图书馆大部分空间,其开发和利用程度关系到图书馆在文献信息资源、空间资源、人力资源、经费投入等诸多方面的成本效益。而资源的使用效益也是各高校图书馆现今越来越关注的一个课题,这就使得图书馆一方面分析原因,寻求解决之道,如通过阅读推广、PDA/DDA模式采购等,努力提高纸质文献的借阅量;另一方面也重新审视资源体系结构建设,包括资源建设原则、采购关键指标、纸电协同建设等,以此来助推图书馆藏书建设和发展[1-3]。
高校图书馆信息资源建设主要围绕学校“双一流”建设目标和任务,在藏书体量、学科结构、纸电协调、功能特色等方面构建资源保障体系。在此基础上,不断跟踪和掌握用户的利用需求,持续优化馆藏,满足学校在教学科研、学科建设、人才培养、社会服务等方面对于信息资源的需求。尤其对于馆藏高借阅率图书,其承载了“阅读密度”和“信息热度”,这就要求采访人员抓住此类图书特征,结合馆藏空间、借阅数量、信息时效、阅读习惯、采购规则等因素,多途径多方式满足此类图书的密集需求。
笔者以大连理工大学盘锦校区图书馆中文图书馆藏及借阅数据为例,利用Tableau,VOSviewer分析统计及可视化工具,从图书的学科类目、题名特征、功能特征3方面描述、分析及定位读者利用图书的偏好。采访馆员可在图书馆资源建设原则的基础上,有针对性地调整具体采购策略,进一步合理调整馆藏结构,提高文献的保障率和利用率。
1 数据来源及工具
1.1 数据来源
大连理工大学盘锦校区图书馆2013年建成启用,运行平稳,读者借阅数据连续、完整,分析结果具备可靠性。2020年以来,馆藏及借阅数据受到疫情的一定影响。因此,笔者选取2013—2018年入藏的中文图书,统计馆藏基础数据,包括书目数据、入藏数据、借阅数据,统计时间截至2019年12月31日;计算字段数据,主要利用基础数据,通过计算公式形成的统计数据字段,具体见表1。以每册书为单位,零借阅图书及借出图书(借出一次为一条数据)形成的借阅数据合集,经过对原始数据的清洗,共获得337616条数据。
表1 数据字段名称及内容
1.2 统计分析工具
基于Excel进行数据清洗,通过SQL检索语句,从图书馆自动化管理系统(汇文Libsys)中导出Excel格式的所需数据。在Excel表单内,对缺失数据、错误数据、非规范数据如出版社、学部学院的名称进行规范统一;读者类型标准化为教师、教辅及行政、本科、硕士、博士;通过中图法分类号形成相应的一级、二级、三级学科类目名称映射;对不同字段赋予相应的数据类型(字符串、数值、时间)等。
基于Tableau的计算、分组、下钻、集合等功能进行数据分析及可视化展示,利用不同主题工作表组合成任务型仪表板。在仪表板内,通过工作表的筛选器功能实现仪表板内不同工作表间的交互,能够更清晰地展示影响某一目标任务的各要素发生变动时所产生的联动效果,这也为更深入细致的数据分析提供了便利。
基于VOSviewer的文本挖掘、可视化显示功能,笔者为准确把握高借阅率图书的特点及共性,对图书题名进行分词处理、词频分析及共现分析,用VOSviewer进行结果聚类分析。
2 数据分析
2.1 图书借阅总体情况
2013—2018年盘锦分馆入藏图书98602种200628册,截至2019年底借阅数据及读者人数分布如表2所示。所有图书的借阅次数为193634,借阅总数为216796(包含续借)。按种类计算,有过借阅历史的图书36926种,占入藏图书种类的37.45%。按册数计算,有过借阅历史的图书56646册,占入藏图书总册数的28.23%。由统计数据可以看出,如果按入藏册数统计,超过七成图书没有被读者借阅过,零借阅图书比例很高;同时,图书借阅呈现明显的集中分散现象,借阅频次超过6次的图书种类,占图书数量的9.70%,累计借阅量占比为71.11%;截至2019年底,该校区师生人数约1万人(包含已毕业),有6771人借过图书,占校区读者67.71%,其中借阅频次在51次以上的164种图书的借阅人群中包含全部有过借阅行为的读者。
表2 图书馆藏及借阅数量统计
2.2 高借阅率图书的界定
由上文借阅数据统计可知,大量的借阅集中在少数的图书中,对这部分图书特点的掌握,便于采访人员了解读者需求和趋势,在采购原则的指导下,对具体的采购策略、方案进行调整和细化,有针对性地进行文献资源建设。
对高借阅率图书的设定为,某一种图书不仅借阅次数多同时借阅读者多,即受众面较广的高借阅率图书。为了确定高借阅率图书数据集,笔者引入箱线图中的异常值概念,即箱线图中上边缘(上须值)以外的为异常值个体。对借阅次数及不同读者人数进行箱线图数据描述统计,结果如表3所示。由表3中数据可知,75%的图书品种借阅次数在1~6之间,借阅次数超过13次/种、读者数量超过10人/种,都属于箱线图统计分析中的异常值,笔者将这类图书设定为高借阅次数及高借阅人数的图书。因此,如果以“借阅次数”及“读者人数”的上须值为横纵参考线,可划分成4个象限,如图1所示。每一象限代表不同类型图书,其中第一象限为借阅次数和借阅人数双高的图书,即图书的高借阅率来自众多读者,这部分是需要研究其特点、多复本采购的图书。
图1 图书借阅次数与读者人数象限图
表3 借阅次数与读者人数描述统计
2.3 高借阅率图书特征分析
2.3.1 高借阅率图书类目分析
图1所示第一象限包括2882种图书,占借阅图书总量的7.8%,占馆藏图书的2.9%,借阅总量为84568次,占总量的39.0%,如表4所示。从类目上看,借阅量主要集中在文学、数理科学和化学、工业技术、语言文字这4类图书,合计2330种,占该区域图书的80.9%,借阅总数合计69781次,占该区域借阅总量的82.5%。
表4 第一象限图书数量及借阅次数的类目分布
高借阅率图书集含文学类图书836种,占29.0%;借阅总数占第一象限借阅量的30%;文学类图书受众最广,借阅读者4129人,占借阅人数的61.0%。图书主要来自南海出版公司、人民文学出版社、作家出版社、上海译文出版社等,平均借阅率较高的出版社为南海出版公司、北京十月文艺出版社。
数理科学和化学类囊括613种图书,占第一象限图书的21.3%;借阅总数19275次,占借阅量的22.8%;借阅读者3030人,占借阅人数的44.7%。该类图书主要来自科学出版社、化学工业出版社、清华大学出版社等,其中清华大学出版社的图书平均借阅率最高,为32次/种。
语言文字类包括438种图书,占第一象限图书的15.2%;借阅总数12255次,占借阅量的14.5%;借阅读者2663人,占借阅人数的39.3%。该类图书主要来自机械工业出版社、中国宇航出版社、外语教学与研究出版社、中国人民大学出版社等,其中南京大学出版社出版图书的平均借阅率最高,为30次/种,借阅率较高的多为语言考试类图书。
工业技术类包括443种图书,占第一象限图书的15.4%;借阅总数12873次,占第一象限借阅量15.2%;借阅读者2642人,占借阅人数的39.0%。主要集中在该类目下的自动化技术/计算机技术、化学工业两个二级类目,占该类目下87%的图书借阅量。高借阅率图书主要来自人民邮电出版社、电子工业出版社、化学工业出版社、科学出版社等,其中电子工业出版社、中国铁道出版社出版的图书平均借阅率最高,均为28次/种。
从以上数据可以看出,一方面,高借阅率图书集中在数理科学、外语等公共基础类,计算机通用技术类,以及文学、哲学、历史等通识教育类;另一方面,高借阅率图书类目也与盘锦校区设置的学科结构有很强的相关性,该校区设置有化学工程、应用化学、能源化学、知识产权专业、经济管理、运动康复、海洋技术、环境生态、生物科学和药学等专业方向,因此,其他高借阅率图书类目还包括哲学、历史、法律、经济、生物科学、环境科学、体育科学等,各类高借阅率图书的数量和借阅册次也显示出与专业学科师生数量正相关的关系。
2.3.2 高借阅率图书题名特征分析
上文对高借阅率图书的类目特点做了分析,除此之外,笔者还想从题名上确定具有哪些特征的图书较受读者青睐。因此,笔者尝试利用ROST中文字频统计分析软件对第一象限的2882种高借阅率图书的题名进行中文词切分及词频统计分析,借助VOSviewer进行可视化呈现,结果见图2。
图2 高借阅率图书题名聚类分析
从可视化图中可以看出,一共有5个聚类,比较大的有4个聚类。按照学科的角度可以看出主要集中在计算机、英语、数学、物理和化学方面。从图书功能上划分主要集中在以下5类图书:教学及辅助类图书,如教程、习题、学习指导、辅导、解析等;等级及职业资格考试类图书,如四级(英语)、六级(英语)、二级(计算机)、司法考试等;升学考试类图书,如考研、雅思等;工具类图书,如Matlab、Python、C语言、Photoshop等;应用拓展型图书,如建模、应用、竞赛、程序设计等。
书名的词频分析对语言、工业技术、数理科学和化学类图书可以很好地进行可视化聚类显示,但是对于文学类图书却不能形成高频词及词之间的密切关联。这是因为文学类图书的书名与专业图书专指性概念名词不同,表面上看往往“词不达意”,这就使得图2中看不出文学类图书的聚类。文学类图书按照每种图书借阅次数及每册图书平均借阅次数综合考量,受读者欢迎的排名前10的图书见表5。从表5列出的图书可见一斑,文学类图书中畅销书、经典书最受读者欢迎。
表5 文学类中高借阅图书列表
2.4 高借阅图书借阅次数与借阅时长
图3为不同类目、不同入藏年的高借阅率图书在不同借阅时间内的借阅情况。颜色由“黑”到“红”表示每种图书平均借阅时长由低到高,其中每一方框内的数字由上到下含义分别为:图书种数、借阅次数、平均借阅次数/种、平均借阅时长/种(以“天”计算)。
图3 不同类目图书借阅次数及时长的时间变化
由图中3可以看出,工业技术、数理科学和化学、语言文字类高借阅率图书的数量较多、借阅时间较长。此外,图书入藏第二年的借阅次数及借阅时长达到峰值。如图中白色边框方格内的数字分别为:在高借阅率图书集中,2015年入藏的数理科学和化学类目图书在2016年被借阅了86种,838次,这些被借阅的图书中每种书平均被借了9.7次,平均借阅时长为383天。该方框内的数据是图中平均借阅次数和借阅时长较高的实例,从中也能看出,某一年入藏的图书随着时间的推移,借阅次数和借阅时长不断降低[4]。
目前,本校读者可借阅图书60天(包括续借时间),除去到期自动延续的寒暑假90天(3个月),一年可余270天流通时间,1册图书一年的周转次数可为4.5次,图书馆采购图书为2册/种,即每种图书的周转次数可为9次。与图中高借阅率图书的借阅数据相比,在某些年份和类目下,图书借阅次数和借阅时长基本达到了饱和。当然,以上是根据平均借阅数据得出的结论,在具体到个别图书时,会有读者同时借阅产生挤兑现象,也会有畅销书、经典书远远高于平均借阅次数的情况。因此,在实际工作中,对于这类高借阅率图书,需要采购人员依据采购经验,结合实际使用情况的研判,及时追加复本,完善复本补充机制,满足读者的使用需求[5]。
2.5 电子书满足率分析
图书馆藏书空间有限,而且部分高借阅率图书学术价值不高,阅读热度过后,借阅率很快降低。因此,对于高借阅率图书,可通过采购电子图书的方式进行复本补充[6]。
近年来,针对机构用户,中文电子书发售方式存在一些新变化,从2000年之初的包库打包购买方式升级为可单本定价、单本采选的更加灵活的个性化方式[7]。相对来说,集成商的电子书平台合作出版社比较多、资源覆盖面广,电子书版权清晰,采购方式灵活,可纸电同采、PDA/DDA荐购、学科专业采购,在阅读体验以及与图书馆自动化系统的深度整合上也做了进一步开发。目前,针对机构用户的电子书集成平台主要有北京人天书店的“畅想之星”、中新金桥的“可知电子书平台”、浙江新华书店集团的“芸台购”、湖北三新文化传媒有限公司的“田田网”等[8]。针对上文统计的2882种高借阅率图书,选取其中的两个平台进行书目检索(统计时间为2020年5月16日),以了解当前的电子书平台能否满足图书馆对电子图书的需求。
表6列出包含高借阅率图书数量排名前10的出版社,包括984种图书,占高借阅率图书的34%。两个平台合计提供电子书503种,占高借阅率图书的17.4%。其中化学工业出版社、电子工业出版社、人民邮电出版社的电子书满足率较高,也有部分出版社并未与第三方深度合作,只提供极少电子书,如科学出版社、机械工业出版社、高等教育出版社等。
表6 电子书平台中不同出版社的满足率
通过以上统计可以看出,与高借阅率纸质图书相比,第三方集成平台上能提供的电子书数量有限,并且电子图书新书发售时滞较长,并不能很好地满足纸电同采的需求,只能作为纸质图书采购的一种补充途径。当然,如果各出版社分别采购所需电子书,不论是数量上还是时效上应该优于集成电子书平台,但相应也会面临采购谈判分散、电子书格式不统一、服务平台分散等管理和使用上的不便。
3 研究结论
3.1 针对高借阅率图书特征的采选
通过上述方法,高校图书馆能够分析出高借阅率图书的特征和需求热点。在图书资源配置上,除了考虑热门学科类目图书品种数量上的丰富,还要针对需求图书的功能特征,兼顾教学教辅、等级考试、职业资格考试、升学考试、工具、应用拓展等类型图书的补充,使馆藏图书体系结构功能上更合理,满足读者多样化需求。
3.2 图书采购复本政策的调整
各高校图书馆采购经费不同,采购重点不同,藏书空间饱和程度不同,纸电资源采购比例也不同,因此,纸质图书采购复本数量也有各自的规定。通过笔者对图书借阅频次与借阅时长的分析,图书馆能够掌握不同类目图书的需求密度以及随时间推移借阅需求的变化,图书馆根据借阅规则,可以确定不同类目图书借阅峰值的复本需求,在复本数量采购上可以灵活配置细分类目,制定差异化、精准化复本采购制度。
3.3 多媒体学习资源的补充建设
通过图书题名分词或者图书主题词的可视化分析,可挖掘读者需求的类型特点。从以上分析可知,外语等级考试、出国语言考试、计算机等级考试、职业资格考试、研究生考试等图书需求比较旺盛。纸质图书只能满足少量读者的短期需求,图书馆应购买多媒体考试类学习资源数据库,方便用户同时性、重复性、互动性使用需求,有效补充纸质图书的不足。
3.4 纸电图书的协调互补采购
电子图书能够很好地满足读者对高借阅率图书的需求,既能满足多用户的并发需求,又能节省藏书空间,对于图书馆来说是效益较高的一种采购模式。目前受出版社版权制约,第三方平台集成的电子书,在出版社数量、新书发售时间、发售品种等方面还不能很好地满足图书馆全方位的采购需求,但是图书馆可以结合电子图书出版社平台的学科优势与集成平台的多源综合特点,协调中文纸质图书的补充采购。依据上述分析方法,掌握高借阅率图书特征,把握读者阅读偏好,主动采购该类电子图书作为纸质图书补充,以满足大量的阅读需求。
4 结语
笔者利用大连理工大学盘锦校区图书馆图书及借阅数据进行实证分析,按照笔者的划分标准及方法,高借阅率图书只有2882种,数据样本相对较小,在对高借阅率图书电子书平台满足率的研究中可能会受数据独特性的影响。但统计分析过程中的词频分析及聚类方法、Tableau深度关联的统计分析方法是一种新的尝试,使笔者能从多维度探讨高借阅率图书的特征以及各借阅指标的相互关系及变化趋势,对图书馆采购决策及指标制定具有借鉴意义。