基于OPAC搜索的高校图书馆图书资源需求预测
2020-08-31漆月
漆月
摘 要 论文通过对高校图书馆OPAC搜索的数据挖掘,构建了以国图分类号划分的图书资源需求量预测模型。首先设计了针对OPAC关键词的分类方法,对读者外借、预约及OPAC搜索三个预测器的数据分布进行统计分析,然后完成基于搜索量的线性回归预测模型设计,并与基础预测模型进行伪样本外预测检验,验证了加入搜索关键词变量后的模型能够提供更准确的数据预测结果。最后,提出了基于需求预测结果的采购决策模型,为图书采购的比例分配提供数据参考。
关键词 资源建设 需求预测 回归分析
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2020.07.009
Abstract Based on the data mining of OPAC search in university library, this paper constructs a book resource demand forecasting model divided by national library classification number. First, we design a classification method for OPAC keywords, and make statistical analysis on the data distribution of three predictors: reader lending, reservation and OPAC search. Then, we complete the design of linear regression prediction model based on search volume, and carry out the false sample prediction test with the basic prediction model, which verifies that the model after adding the variables of search keywords can provide more accurate data prediction results. Finally, the paper proposes a purchase decision-making model based on the result of demand forecast, which provides data reference for the proportion distribution of book purchasing.
Keywords Resources construction. Demand prediction. Regression analysis.
0 引言
文獻资源建设是图书馆基础建设工作的核心内容之一,也是图书馆开展相关知识情报服务的基础。根据教育部高等学校图书情报指导委员会2018年底发布的《2017年879所高校图书馆文献资源购置费统计表》,图书馆在文献资源购置中的经费投入越来越高,其中排名第一的中山大学图书馆文献资源购置经费高达上亿元,超过一百所高校图书馆的购置经费高于一千万元,而各高校图书馆的平均购置经费也在500万元以上。然而经费的投入量并不代表文献资源建设质量,大多数图书馆仍然存在资源利用率逐年减低的问题[1]。这一方面是由于互联网环境下读者获取信息的渠道更加多样化,图书馆不再是知识传递的主要途径。另一方面,信息化时代的发展使得读者阅读需求变化更加频繁,而图书馆缺乏对当代读者需求的有效评估和及时响应手段,其资源采购效率往往滞后于读者需求更新。因此,本文以高校图书馆为研究对象,探讨了一种基于大数据技术的图书馆文献资源建设策略,通过对读者在OPAC中的搜索行为进行采集和挖掘,构建读者需求的短期预测模型,对图书馆未来资源需求量进行定量分析与计算,为图书馆资源采购决策提供可信的参考依据。
1 研究现状综述
1.1 图书采购需求预测研究
随着时代发展,“以人为本”的思想逐渐深入人心,图书馆服务工作已经从“馆藏为中心”向“读者为中心”转型,而读者需求也成为图书馆资源采购决策的重要驱动因素。其中,基于 “读者决策采购”(Patron Driven Acquisition, PDA)模式的图书采购研究可以算是图书馆重点关注的领域之一。张甲等在2011年最早在国内提出用户为导向的图书资源建设模式——PDA[2],之后众多学者对该模式下的实践方法[3]、服务效益[4]、影响因素[5]等各方面进行了广泛讨论。PDA模式主要以读者在线提交荐购信息单的形式实现图书资源采购,虽然一定程度上反映了读者的个性化需求,但通常体现的是独立个体的需求,难以从宏观层面对馆藏资源结构进行优化。也有研究从图书流通情况入手,进行需求预测建模。例如鲁萍等人以三年内读者借阅数据为样本,利用BP神经网络和GM(1,1)灰色预测算法,分别以月和学期为周期,对未来一段时间内的读者借阅人次进行了预测[6]。王健提出了一种图书资源利用数据时间序列模型的构建方法,强调季节特性对流通量的影响,并以此为基础进行采购质量控制[7]。孔超等以流通数据为基础,对图书馆普遍存在的零借阅情况进行量化分析,并通过建模进行读者需求预测,以探索合理馆藏结构和读者需求之间的最佳结合点[8]。但是流通数据受到现有馆藏种类和册数的限制(比如副本数少的图书流通量必然较小),并不能完整表达读者对资源的需求,也影响了预测结果的准确性。在充足的经费支持下,图书馆应该寻求更加科学、准确的资源需求预测策略,充分保证资源结构的合理性和有效性,以有效提高文献资源利用率。
1.2 图书馆OPAC搜索研究概述
大多数高校图书馆目前都建有自己的OPAC系统,主要用于向读者提供本馆书目信息的搜索服务。作为图书馆使用率最高的系统之一,关于OPAC搜索的研究也一直受到图书馆学界的关注。例如在搜索功能优化方面,李兵针对目前OPAC搜索结果排序不合理的情况,通过权威性和实效性权重的综合计算实现了对检索结果的排序策略优化[9],陈雪通过对豆瓣图书的社会化标签、评分和热度等信息资源进行整合,实现了OPAC的分面搜索优化[10];在搜索性能評价方面,杨九龙等从用户信息行为的角度出发,基于技术接受模型、技术适配模型和信息系统成功模型, 利用层次分析法构建了OPAC功能的评价指标体系[11],黄崑等根据OPAC日志数据分析了高校用户遭遇OPAC搜索失败的不同原因及其应对方式,并给出了应对效果的评价机制[12]。然而现有的研究中几乎没有讨论过OPAC搜索与图书资源需求挖掘的关联关系及其对采购决策的指导作用。事实上,OPAC系统中记录了所有读者在图书馆的资源检索信息,是反映读者需求的重要指标,能够为资源需求分析和预测提供可靠的数据支持。因此本文将以高校图书馆的OPAC系统为数据来源,结合读者在图书馆的外借和预约记录,完成图书资源需求的短期预测建模与计算。
2 需求预测模型的变量分析
2.1 变量选择
高校图书馆建设的OPAC系统主要用于检索现有的馆藏书目资源,因此,读者在OPAC中搜索的关键词和预约能够反映读者对资源的需求,应该作为需求预测模型的计算参数,而图书外借与预约次数的总和代表了当年的资源需求量,可以用于验证预测结果的准确性。由于图书馆的所有图书资源都根据中国图书馆分类法进行了编目,可以按照此分类法对关键词进行聚类。通过统计每个分类号下的搜索量,再结合该分类号下的借阅和预约量等数据,即可建立图书搜索与图书未来需求量之间的函数关系,从而预测每个分类下的资源需求量。需要说明的是,中图分类法是在5个基本部类的基础上划分了22个大类,每个大类下再细分为若干小类,而图书馆的编目分类则更加具体,为简化计算,本文仅按22个大类进行资源类型划分。
2.2 源数据采集与分类
本文以西南大学图书馆自建的OPAC系统历史数据为样本,并以SPSS为统计辅助工具,采集2016—2018年的操作日志、图书外借日志以及图书预约日志,作为反映图书资源需求量的计算参数。采集2016年的数据是为了与2017年进行比较,判断搜索量的变化对预测结果的影响,2018年的数据则作为预测准确性检验的参照样本。在统计时发现关键词短时间内重复出现的情况比较严重,分析可能是由于网络问题导致读者多次提交搜索信息。因此,本文对连续5分钟内来自同一用户和IP地址的相同关键词进行合并,仅保留一条搜索记录。此外,还发现部分关键词为乱码,因此通过正则表达式对非汉字和英文字符的内容进行了过滤。最终统计结果如表1所示。
为了按类别统计不同分类号下的图书需求量,需要对采集的源数据进行分类。外借、预约数据均可根据图书首位分类号进行归类,这里主要说明关于OPAC搜索数据的分类方式。由于OPAC系统支持题目、责任者、主题词、ISBN、索书号(即分类号)等多种方式的书目查询,且兼容模糊查询和完全匹配模式,因此需要根据搜索类型分别进行处理。本文对于ISBN、索书号、完全匹配的题目直接进行分类;对于其他类型的搜索,则分为按两种情况进行处理。一种是用户有后续访问,读者在搜索结果列表中发现需要或感兴趣的图书,会点击书目详情页面继续浏览。此时可以通过OPAC系统中的网页跳转跟踪记录,获取紧邻时间段内读者访问的第一个详情页,将该书目分类号作为本次搜索的分类。另一种是用户无后续访问,读者在搜索结果列表中未找到需要的信息,则本次操作结束。此时可以调用OPAC系统提供的搜索接口,并将排序参数设置为“按相关度排序”,将返回的搜索结果列表中排在第一位的图书分类号作为本次搜索的分类。
2.3 变量检验
(1)相关性分析。为检验搜索量与需求量的相关性,本文对2016—2018年的分类需求量与搜索量分别进行了线性拟合,如图1、图2、图3所示,其中需求量为外借次数与预约次数之和。可以看出,绝大多数数据都处于95%置信区间以内,其相关系数分别为R22016=0.883(p<0.01)、R22017=0.965(p<0.01)、R22018=0.793(p<0.01),由此可以证明出OPAC的搜索量与图书资源需求量存在关联性,能够对资源的未来需求量起到预测作用。
(2) 数据分布检验。本文以月为单位对变量进行了描述性统计,如表2所示。从统计结果可以看出,每年的需求量和搜索量离散性较大,这主要是因为寒、暑假期间读者的操作次数与学期间相比明显减少。但在时间上数据整体接近于正态分布,因此可以对其进行线性回归分析。
3 图书需求预测模型构建
3.1 模型设定与估计
上节中离散趋势分析结果可以证明OPAC的搜索量与图书资源需求量存在关联性,因此本文通过自回归时间序列模型进行需求量预测建模,将图书资源的需求量作为因变量,设置了图书外借、预约和搜索三个自变量(预测器),生成动态面板形式如公式(1) 所示。
Demand(i)t=a0Borrow(i)t-1+a1Order(i)t-1+a2DSearch
(i)t-1+u(i)+ε(i)t (1)
在公式(1)中,i=1,2……22表示22个图书分类,Demand(i)表示对分类i的图书需求量,DSearch(i)表示该分类的搜索量与前一年之差,u(i)表示分类i不随时间改变的异质性截距项,ε(i)是该分类受时间影响的干扰项。其中u、ε为不可预测的随机变量,因为内容特殊性,某些小众化图书需求量通常较少,另外一些特殊事件可能会造成当年某类型图书的需求量突然增加(例如《三体》获雨果奖后引起的科幻阅读热潮)。需要说明的是,模型中搜索量取的是增量指标,因为参数中已经对借阅量和预约量进行了累加计算。
利用逐个加入变量的方式对预测模型进行多元线性回归分析,通过偏相关性计算发现贡献最大的是Borrow,其次是DSearch,第三是Order,在变量加入后得到的相关系数逐渐增大。且三个变量的系数分别为0的T值检验下,其sig.值均<0.05,故所有变量均拒绝系数为0的假设。方差结果分析表明三个变量分别进入模型后,F值的显著性均<0.01,说明每个变量都对因变量Demand具有贡献。根据拟合度分析结果对调整后的相关系数进行检验,仅以Borrow为变量的模型能够解释需求量89.6%的方差,加入DSearch后的模型能夠解释93.4%的方差,增加了3.8%的相关性,再加入Order后能够解释94.1%的方差,然而修正R2增长较少,说明预约量虽然对模型有贡献,但贡献不大。表3为对Borrow、DSearch、Order三个变量逐步加入模型得到的三个方程(记为方程1、方程2、方程3) 统计的估计结果。
3.2 模型验证
线性回归预测模型通常采用伪样本外预测进行模型的预测能力检验[13]。本文选择一个分类号样本作为预测对象,通过其他21个分类号样本进行模型参数估计以及样本外预测。为检验搜索量的贡献,本文设立了不含搜索增量的基本模型,如公式(2) 所示。
Demand(i)t=b1Borrow(i)t-1+b2Order(i)t-1+u(i)+ε(i)t (2)
然后将均方根误差(RMSE)作为预测误差衡量指标,对两种模型的预测结果与实际值进行比较,检验模型的预测效果如公式(3)所示。
其中,n为样本量,RD和PD分别表示图书资源需求量的实际值和预测值,RMSE值越小越好。表4给出了按分类号分布的需求量预测结果。可以看出,在绝大多数分类号下,基于搜索的预测模型的预测误差小于基础模型的预测误差,前者的平均误差约为986,低于基础模型的约1314。由此可见,基于搜索的预测模型预测结果优于基础模型。
4 基于需求预测的采购分配算法
由于图书的内容、时效性等原因,馆藏使用率不可能达到100%,因此不能直接将馆藏资源量与预测结果之差作为采购数目的衡量标准。但是可以通过馆藏结构中每个分类所占的百分比,与预测结果的百分比进行比较,对每个分类下的图书进行采购的比例分配。根据回归分析的特征可知,时间距离越近的参考样本得到的预测模型越准确。本文以2018年的读者操作数据为基础,对2019年的图书需求进行预测,然后将每个图书分类号下的需求情况和馆藏情况进行对比,结果如图4所示。
可以看出,就总体趋势而言,馆藏结构与读者未来需求情况基本一致,但是部分类别的馆藏比例与需求仍然存在一定偏差,尤其是I类图书,馆藏量比之预测的读者需求量远远不足。虽然部分分类下的馆藏比例大于需求比例,但并不代表该分类的图书完全不必采购。本文首先确定一个图书的最低采购量,即设需求量与馆藏量相减差值最小的分类号采购图书比例为B,则根据需求预测为每种分类号分配的采购比例如公式(4) 所示。
其中,Purchase(i)表示分类号为i的图书采购经费占用比例,P_Demand(i)为i分类号需求量的百分比,P_Collection(i)为i分类号的现有馆藏量百分比,x为根据最低采购比例计算出的常量,如公式(5) 所示。
以实验数据为例,其中馆藏量与需求量比例之差最大的为F类图书,根据实际情况设置其最低采购量为1%,计算得出采购需求最大的I类图书,需分配的采购比例约为17.98%,其次是T类图书,采购比例约占8.43%,所有图书的采购比例分配结果如表5所示。
5 基于需求预测分析的采购建议
本文提取了2018年搜索增量较大的关键词,并绘制了增量排名前100的关键词云,如图5所示,以分析预测模型计算的需求量与馆藏量出现差异的原因。可以看出,“东野圭吾”“三体”及其相关关键词搜索量比之前年有了大幅度增长,尤其是“东野圭吾”的相关搜索增量达到了两万次以上,此外关键词“python”“机器学习”等搜索增量也较为显著,这正好解释了I类和T类图书馆藏明显低于预测需求的现象。
可见,在实际工作中,通过预测模型对每个分类号下的资源需求量进行近似估计,能够帮助图书馆进一步准确把握读者的需求变化,结合图书馆当前馆藏储备,为资源采购工作提供一定的数据参考,从而为用户需求驱动的图书馆资源建设模式提供一种新的思路。基于上述分析,这里对图书馆资源采购提出以下一些建议。
(1) 保持对时代的敏感性。读者的阅读兴趣容易受到当年发生的热点事件影响,例如2018年的高评分电影《嫌疑人X的献身》、获得“雨果奖”的科幻小说《三体》等,都引发了阅读的热潮,此外国家政策的大力支持掀起了人工智能的井喷式发展,也促进了相关资源的阅读量增加。因此采访人员除了具备一定的专业知识外,还需要充分了解政府规划、市场及各行业的动态和发展趋势,对读者的未来阅读需求做出准确预判。
(2) 建立快捷采购通道。由于采购流程的限制,图书资源从采访、编目到最终上架流通往往需要经过较长的时间周期,通常在半年到一年,甚至更长,使得馆藏资源结构常常落后于读者的需要变化。虽然图书馆难以在短期内彻底改变工作方式,但可以另建一条快捷采购通道(例如设立专用经费在网上或实体书店采购图书),以对时效性较强的阅读需求做出及时响应,当监测到关键词搜索增量在短周期内超过阈值时,即可评估是否启用该通道对相关资源进行补充,并通过预测模型计算采购数量。
参考文献:
王跃虎.基于读者需求的馆藏文献利用率研究[J].图书情报导刊,2017,2(12):1-6.
张甲, 胡晓菁.读者决策的图书馆藏书采购:馆藏建设2.0版[J].中国图书馆学报, 2011(2) :36-39.
刘惠敏.纸电同步趋势下我国高校图书馆开展读者决策采购(PDA)的策略分析[J].图书馆建设,2018(6):18-22,38.
陈艳.高职院校图书馆读者决策采购服务效益研究[J].情报探索,2018(10):101-104.
段玉昆.图书馆成功实施读者决策采购的关键因素分析[J].图书馆,2019(1):107-111.
鲁萍,张骏毅.读者驱动资源建设中预测算法的研究及应用[J].计算机应用与软件,2019,36(3):112-115,153.
王健.基于图书资源利用数据时间序列模型的图书采购质量控制研究[J].图书馆研究与工作,2018(2):41-46.
孔超,丁璇.高校图书馆零借阅率的量化分析与馆藏优化策略[J].新世纪图书馆,2015(6):51-55.
李兵.图书馆OPAC检索中融合权威性和时效性的排序优化[J].图书馆学研究,2017(19):61-65,73.
陈雪.基于豆瓣图书信息资源整合的OPAC分面检索优化[J].图书馆学研究,2016(24):47-54.
杨九龙,赵嘉文.用户信息行为视角下的图书馆OPAC功能评价研究[J].新世纪图书馆,2018(3):59-63.
黄崑,程志强,李京津,等.基于OPAC检索失败提问的用户应对效果研究[J].图书馆学研究,2018(7):64-75.
王炼.网络环境下基于消费者搜索的市场预测研究[D].成都:西南交通大学,2014:52-54.