基于多维数据分析的高校图书馆采访改进*
2019-05-05宋爱林朱云霞袁思本
宋爱林,朱云霞,袁思本
0 引言
在互联网时代,网络信息资源丰富,学生获取教育资源的途径增多,加之数字阅读普及,高校图书馆纸本图书流通量的下降趋势已成为大家的共识。但各高校出于教育评估和教研需要,纸本图书藏量仍需保持增长,较低的利用率与持续增长的采购量形成矛盾。十九大后国家实行供给侧改革,就是要让社会生产能够适应人民生活的实际需要,而不是盲目、过量地生产。对于图书馆而言,图书采访是文献资源供给侧工作的主要内容。图书馆选购到满足读者需求、吸引读者阅读的高质量图书,才能为图书馆纸本流通率的提高夯实基础。因此,图书采访无疑是图书馆的生命线,决定了馆藏的数量和质量,直接影响着读者的数量和需求满足程度,是评价图书馆价值和绩效的关键[1]。
1 图书采访的研究现状及其不足
1.1 图书采访研究现状
黄宗忠[2]说:“图书采访是根据图书馆的性质、任务和读者需求,通过觅求、选择、采集等方式建立馆藏,并连续不断地补充新出版物的过程。”图书采访是图书馆的基础性工作,对于如何改进图书采访工作一直是图书馆需要面对的问题。王玲等[3]利用文献计量学方法,从图书品种、复本数量、图书价格、采购资金分配等角度,对某高校馆三年的采购数据进行对比研究,总结采访工作中的得失。顾永时[4]以图书利用率统计为基础,从采访队伍、人员素质、流通数据、书商评级等方面构建图书采访质量评价体系。高景祥[5]从借阅率、系统推荐、读者预约、新书借阅率、零借阅等方面介绍了优化采访流程的具体方法。曹霞等[6]对现有的五种图书馆采访模式进行了比较分析,在知识服务需求的基础上提出用户与馆员双驱动的创新模式。贾朝霞等[7]借鉴读者决策采购理念,提出对中文图书采访模式的改进与思考。
新技术的应用为传统图书采访工作带来更多发展空间。朱会华[8]分析传统图书采访模式存在的问题,提出建立微信采访与书店采购相结合的工作模式。滕胜娟[9]指出要充分运用新媒体技术实现采访创新,新媒体时代背景下的图书采访应重视数据信息的挖掘和整合。张成林[10]运用Web文本挖掘技术提取读者历史查询关键词,构造一种图书采访推荐清单的自动生成模型。王红等[11]通过对馆藏数据、历次采访数据、采访书单数据进行训练和学习,设计出人工智能采访模型运行流程。白广思[12]利用大数据技术,设计了一种基于大数据的图书资源智能采购系统。廖宇峰[13]提出借助数据挖掘相关算法和工具,通过分析高校图书馆的用户数据,可以建立一种全新的基于数据挖掘的图书采访模式。
1.2 当前采访工作的不足
如果说大数据、数据挖掘等学术研究比较理想化,那么利用图书馆自动化系统的流通数据作为研究样本以助力图书采访工作则是常用的手段。但是,部分基于流通量统计的研究因分析角度单一、数据利用不充分、工作目标有偏重,得出的采访优化措施难免偏于笼统。例如,朱轶婷等[14]利用SPSS 软件分析外借图书册数、图书利用率、馆藏册数、新书复本率的相关关系,主要是为了确定大类图书采购册数和复本率。陈鹤阳等[15]基于H-type 指数从学科属性角度进行探讨分析,以期促进学科图书资源建设和学科服务开展。孙书霞[16]通过对新生外借中文图书的流通记录统计,探讨中文图书采访工作的优化措施,但文中对采取哪些优化措施,说明得并不具体。
采访实践的一个方向是读者决策采购(PDA),其本质上是倡导以“用户为中心”的服务理念,在一定程度上提高了读者的参与积极性,但这一模式自身仍存在缺陷。韩冰等[17]从服务支持者和反对者的对立观点中剖析PDA 服务的利与弊,认为将采购自主权完全交给读者会破坏馆藏体系,图书馆应对读者的需求加以引导而不是无条件地满足。邱进友[18]则指出由于存在文献保障程度低、质量不高、费用支出不合理等问题,PDA只能作为传统采购方式的补充,过分依赖PDA将会影响藏书建设的可持续发展。目前众多图书馆采用让读者参与图书选购决策、利用社会化媒体进行需求沟通等方式对图书采访工作进行改进,然而对于动则几万册的购书量和有限的人力资源,这些方式只能作为额外补充。
采用新理念新技术对图书馆挑战大、要求高,靠读者决策不能取代常态化的文献资源建设,依赖馆员意志开展采访又容易破坏供需平衡。在这样的矛盾下,本文提出融合反馈系统思想的高校图书采访工作改进模式,以实证研究视角多维度分析馆藏流通数据,凸显数据分析所起到的监测反馈作用,形成一系列详细具体的采访指导意见,不断改进图书采访工作,提高采访工作成效,使得图书采访更符合读者需求,实现经济效益和社会效益最大化。
2 高校图书馆采访工作改进模式设计
2.1 设计理念
收集并分析各方面的反馈信息以指导图书采访工作是高校图书馆通行的做法,这些反馈信息一般通过不定期的读者问卷调查、师生座谈会等方式获取。但这些零散的、无规律的、间断性的反馈信息收集难以形成连贯性的工作模式,此外较多数量的服务态度、服务质量方面的反馈对改进图书采访工作帮助非常有限。对采访工作而言,最重要的反馈信息是图书的流通数据。首先流通数据是全面客观的数据,它真实地反映出读者的借阅意愿;其次流通数据是一种严格的结构化数据,技术门坎低,利于图书馆员分析和利用;最后流通数据是一种长期存储的数据,利于进行历时性分析和回溯分析。
控制论创始人维纳曾给反馈下过一个定义:“反馈即一种能用过去的操作来调节未来行为的性能。”[19]反馈原来是电子学、控制论中的重要概念,后来广泛应用于工程技术、生物、医学、管理等领域。如今,在工程上常把在运行中使输出量和期望值保持一致的反馈控制系统称为反馈系统,常通过比较系统行为(输出信号)与期望行为(反馈信号)之间的偏差,并消除偏差以获得预期的系统性能[20]。因此,笔者结合流通数据客观、全面、规范、长期、可靠等特点,根据反馈原理对图书采访工作进行改进,使采访方案形成一个涵盖设计、执行、反馈的闭合环路模式。其中,重点通过对历史流通数据的多维度分析形成反馈信息,供图书采访环节的工作人员对比参考;通过不断调整采访目录达到采访工作的最优化。同时,这项工作便于长期、周期性地开展。
图1 融合反馈理念的纸本图书采访工作改进模式
2.2 工作流程
基于反馈系统原理[21]的纸本图书采访工作模式如图1所示。该工作模式对图书采访的具体工作内容和工作流程进行了明确化和规范化,强化每一部分的工作要点,力争摒弃传统图书采访工作中的行政化和简单化操作,减少人为因素和随意性给图书采访带来的影响。该模式中各环节产生的信息变量(I)是宏观概念,具体到各环节中有具体所指,既可以是定量数据也可以是定性描述,如图书数量、借阅量、比例关系、书目清单、政策调整、资金状况等,本文不具体一一列举。
(1)初步方案设计。初步方案设计主要考虑以下几个方面:一是现有馆藏结构、学科建设目标、预算资金情况;二是市面上新出版的图书信息,包括作者、出版社、出版日期、内容简介、用户评价等;三是采访馆员对历史记录的分析、读者需求调查、荐购汇总。结合以上三方面因素对年度的采访方案做总体部署,形成采访工作的参考信息(Ir)。
(2)信息综合对比。信息综合对比主要是将前期形成的参考信息(Ir)与后期反馈分析获得的反馈信息(Ifb)进行对比。在这一过程中,常常会得到偏差信息(Id),用公式可表示为:偏差信息反映了人们的期望值与实际值之间的差异,偏差越小则说明采访工作成效越好。例如《犯罪学》一书,与学校专业吻合度较高,但自上架以来五年时间仅被借阅过1 次,这与预期结果产生了较大差异。
(3)优化采访书单。对图书借阅情况分析学习属于后验性知识学习。优化采访书单的目的是通过对后验反馈信息的不断学习,将后验知识与先验知识逐步融合,尽可能减少或消除信息偏差,以产生直接影响图书采购行为的控制信息(Ic)。
(4)图书采购。最理想的状况是根据优化后的控制信息进行图书采购。但在实际工作中,采购行为可能会受到外界因素的干扰,如各类教学评估、招投标问题、经费是否到位等等。所以,模型中必须考虑干扰信息(It)。但这些干扰因素大多属于突发性情况,并不是工作的常态。
(5)监测反馈。监测反馈环节负责定期对纸本图书流通数据进行统计分析,分析结果将作为反馈信息(Ifb)用以指导下一次的采访工作。统计间距为一学期,具体统计维度包括:借阅学生数和借阅量、各年级各专业借阅量、各类图书本均借阅量、各专业借阅时间段、新增图书本均借阅量等。
3 实证研究
3.1 数据来源说明
实验选取的数据来自于南京森林警察学院图书馆(以下简称“图书馆”)2013年1月至2017年6月共计181300 条图书借阅记录。导出的数据字段包括:MARC 号、题名、责任者、出版社、出版年、借阅单位、借阅人证件号、借阅人姓名、借阅日期、归还日期。值得说明的是2013年至2017年,学校经历了学士学位评估和本科办学水平评估两个重要历史阶段,纸本图书(以下简称“纸本”)增长量和借阅量与之前相比有了本质的变化。因此,虽然跨越年度有限、总量不大,但此阶段的流通数据样本具有一定的历史代表性。
本文的实验设计为:对2013年1月至2016年12月的纸本流通数据进行多维度分析,形成采访工作信息反馈,用以指导2017年初的图书采访活动;通过查询图书馆2017年下半年的纸本流通量,与往年同期量相比较,以检验改进后的图书采访模式是否具有可行性和有效性。本研究主要使用的工具是Access2010和Matlab2016,在Access 中编写SQL 语句完成统计处理,在Matlab 中批量生成借阅曲线和线性趋势线方程。
3.2 纸本流通数据统计
从改进的工作模式流程来看,纸本流通数据的统计就是反馈系统模式中监测反馈环节的工作,其实证分析的结果对反馈信息的生成具有重要的意义。
(1)总借阅量统计。在2013年1月至2016年12月共有45294 本图书被借阅,平均每本图书的借阅次数为3.72 次。其中,借阅次数最多的是小说《平凡的世界》,达到381 次;但有11616 本图书在四年里仅被借阅过1 次,占到被借阅图书总量的25.6%,这一数据也充分反映出目前图书馆存在图书流通率较低的问题。图2为2013-2016年该馆纸本流通量的分段统计图,图中可以清楚地看到,从2013年7月至2016年6月图书借阅量整体呈现下降趋势,但2016年7-12月借阅量出现较大幅度增长,这与2016年招生人数增加有密切关系。
图2 2013-2016年纸本流通量
对图书借阅量进行排名有助于了解和掌握学生课程学习和课余休闲时的阅读偏好。根据流通数据将45294 本图书按照借阅量进行降序排序,并根据图书应用的不同,分为课程学习类和休闲爱好类两种类别进行统计。表1列出两类图书排名前15 的图书名称和借阅次数。
表1 借阅量排名前15的图书
从表1可以看到,课程学习类图书中侦查类和法律类图书比较受欢迎,这与专业性质有着极大关联;休闲爱好类图书中探险类、历史类和中外名著比较受欢迎,如受盗墓文化和媒体报道影响,鬼吹灯和盗墓笔记系列图书的借阅量明显要高于其他图书。
采访员根据这些借阅总量方面的分析,从借阅量数值的多个维度记录反馈信息(Ifb)的值,作为一个周期采访的反馈值;然后对比上一周期的期望值,评估整体层面的采访工作成效,同时也可以以此为依据估算下一个周期的期望值。
(2)年级专业借阅量统计。为更好地研究各年级各专业学生群体的借阅习惯和特征,在做本项统计之前,笔者人工去除所有教职工的借阅记录。表2列出按学年度统计的各年级学生图书借阅量(其中null 值表示无统计数据,在该时间段对应年级学生未入学或已毕业),表3列出了各年度借阅图书数量较多的专业及其借阅情况。
表2 各年级学年度图书借阅量统计
表3 各年度借阅量按专业统计排行榜
从表2中看出,学生年级越高图书借阅量越少,且数据下降幅度非常大,这一点不管从表格的行方向还是从列方向来看都非常明显。例如,2013 级学生大二时的图书借阅量较大一时下降60.8%,大三又较大二下降41.6%。以表2所列三个学年度的借阅总量来计算,大一、大二、大三、大四学生的图书借阅量占比分别为47.2%、29.5%、17.2%和6.1%,大一学生的图书借阅量占了近一半。表3则说明图书的借阅量与该专业各年度的招生人数大致保持正比关系,以2016年为例,治安学和侦查学招生人数均为320人,刑事科学技术招生240人,招生最少的是公安情报80人。但也有专业出现了与招生人数不相符合的波动,如公安情报专业,在招生人数每年稳定在80人的情况下,借阅量出现了较为明显的下降,究其原因情报专业受网络信息资源的冲击更为明显,而图书馆的图书资源与现有主流技术已逐渐脱节。以上分析从年级专业与借阅量之间的比例关系维度形成反馈信息(Ifb),提示后期采访工作针对这一类新兴技术的图书应如何取舍是需要认真考虑的问题。
(3)各专业学生借阅时间点差异性分析。对用户行为的分析向来是图情领域的研究热点,日常的纸本流通数据同样可以反映出学生的学习和作息特点,为图书馆精准化服务奠定基础。本文基于流通数据中的借阅时间对各专业学生的借阅行为进行了初步的探索。图3列出了四个专业学生不同时间段图书借阅量的变化趋势(因不同专业学生人数和馆藏数不同,所以图3纵坐标刻度的差值不同)。以特警专业和情报专业为例,由借阅量的波峰出现时间可以看出情报专业学生的学习启动时间要早于特警专业学生;特警专业学生因下午进行专业训练,借阅行为大部分集中在晚上,因此对图书的复本率要求更高。通过对各专业学生借阅时间的分析,采选图书不仅要考虑到专业的招生人数、是否为重点学科,还需要结合专业及课程特点,多角度进行考虑。
在统计过程中,通过分析每本图书的借阅日期,还发现一个有趣的现象:借阅量在100 次以上的学生,初次借阅图书的时间距离其入学时间平均为1.5个月(以入学当年9月15日开始计算),其中66.7%的学生第一次借阅图书在其入学一个月以内;而仅借阅2 次图书的学生,初次借阅图书的时间距离其入学平均为2.7个月;仅借阅1 次图书的平均为3.1个月。因此,大致可以认为:借书时间开始得越早的学生,后续的借阅量也会越大,读的书也越多。借书时间和借阅量之间的关系意味着图书采访员需要关心新生的初始借阅时间,争取在此之前做好学科图书采访上架工作,形成对应专业的新书采访时间点维度的反馈信息(Ifb)。
(4)图书历时借阅量统计。具体到一本书是否受欢迎,其借阅数据的时间变化曲线能说明一切。因此,笔者基于时序分析思想,以月份为切分单位,统计每本书每个月的借阅情况,配合折线图以更好地展示数据量的发展过程、方向和趋势,并预测将来时域可能达到的目标。以课程学习类图书《社会心理学》和兴趣爱好类图书《平凡的世界》为例,其历时借阅统计情况如图4所示。由图4可以看到,经过一段时间每本图书都会生成一条与其借阅量相对应的借阅曲线。在相同坐标轴下,曲线的峰值和波动性能够反映该图书的需要程度,时间轴越长,越能体现出图书的历史借阅特征。基于这一思想,在相同的坐标空间下通过对曲线特征分析,从另一个角度对馆藏图书进行分类。
图3 四个专业学生的借阅时间点统计
图4 两本图书的历时借阅量统计对比
图4反映出两本图书借阅量的变化趋势,可以采用线性公式y=ax+b 来更为精确地表示其变化量。a 为正数则表示该图书的借阅量总体是上升趋势,a 为负数则为下降趋势;b 的大小反映该图书基本借阅量,b 越大说明该图书越受读者欢迎。例如,图书《社会心理学》趋势公式为y=-0.0075x+2.6002,借阅总量处于缓慢下降趋势;图书《平凡的世界》趋势公式为y=0.13x+4.7527,借阅总量处于上升趋势,说明阅读需求较多,可能受到影视作品或者其他人推荐的影响。根据线性趋势线公式中系数a 的取值大小,将图书分为4个类别,具体划分依据见表4。采访馆员通过对不同趋势类别图书的统计,搞清趋势分布和具体清单,按照a 的数值进行排序,形成趋势类维度的反馈信息 (Ifb)。例如,“下降型”图书需要进一步分析原因:是否内容已经过时?抑或专业有调整?还是有更好的替代品?如此分析为优化采访书单提供有效参考。
表4 a取值区间划分表
3.3 纸本采访指导意见
通过对2013-2016年纸本图书总借阅量、各专业借阅量和各图书历时借阅量的统计中及多维度分析,得到的结论如下:(1)纸本图书借阅量整体呈现下降趋势;(2)课程学习类图书中侦查类和法律类图书比较受欢迎,休闲爱好类图书中探险类、历史类和中外名著比较受欢迎,休闲爱好类图书借阅量明显要高于课程学习类图书;(3)年级越高图书借阅量越小,大一、大二学生的图书借阅量占总借阅量的近80%;(4)图书的借阅量与专业学生的总人数大致保持正比关系;(5)借书时间开始得越早,学生的后续借阅量也会越大;(6)专业图书的复本数除考虑学生人数外,还要综合考虑各专业的课程特点。
以上结论以数值、比例、排序等形式生成反馈信息(Ifb),采访馆员根据偏差信息公式Id=│Ir-Ifb│将其与先期制定的采访方案参考信息(Ir)进行对比。这个对比的过程不光是简单的数值相减,还包括时间点的比较、排序上的比较等等。二者越接近说明方案越合理,否则就需要调整预期。根据监测反馈环节各维度的分析结论,形成新的图书采访指导意见:(1)增加侦查类和法律类的专业性图书;(2)适当增加探险类、历史类图书,增加畅销作家的作品;(3)适当增加大一、大二学生更需要的图书,如基础课程辅导资料、大学生学业指导以及思想养成方面的书籍;(4)尽可能减少与“下降型”图书相类似的书籍;(5)适当增加特警、战术等有训练性课程的专业图书的复本量;(6)在新生中开展更多新书介绍和宣传,使学生较早养成阅读习惯。通过偏差信息的结果分析,图书馆采访员修正参考方案,生成采访工作改进模式中的控制信息(Ic),例如图书馆大类经费比例、细分类别的数量、新订或者补订书单目录等等。本实验过程中的新增图书采访工作没有遇到干扰信息(It),因此控制信息可以直接指导采访行为。
3.4 新购图书的借阅情况实证对比
根据上述图书采购指导意见,新书采购完毕进入流通环节,即开始新一轮的采访周期。本文以借阅量维度的实证数据为例,对图书馆2017年3月新购1020 册图书的借阅情况进行跟踪调查,将其与其它图书同期的借阅情况进行对比。数据对比发现,在2017年9-12月新购图书中共计927 本图书被借阅1331 次,平均每本图书被借阅1.44 次;2016年同期,3月份新购图书3205 本,在9-12月被借阅1204 次,平均0.38次。对于图书馆整体纸质图书借阅量而言,2017年9-12月的借阅量与2016年同期借阅量相比也有了比较明显的提高,具体数据见图5。根据偏差信息公式Id=│Ir-Ifb│,反馈的图书实际借阅量Ifb越接近预期期望值,则误差Id越小,表明反馈系统对采访决策的调节作用越明显。
图5 2016年、2017年同期图书借阅量对比
4 结语
数字信息资源广泛普及导致阅读习惯变化的趋势是无法回避的,高校图书馆的纸质文献资源呈现出有效供给不足、借阅率逐年下滑的趋势,距布拉德福定律所定义的相对较为理想的馆藏体系(文献利用比例在75%~85%之间)越来越远[22]。但从国家提倡的供给侧改革角度看,高校图书馆提高图书采访的质量,实现为教学科研服务的目标,物尽其用才是王道。否则,纸本图书的积累只能是数字上的变化,发挥不了其应有的文化传承与知识传递的价值。
本文提出基于融合反馈思想的纸本图书采访模式,一方面用实证数据分析形成后验知识弥补前期采访的盲目性;另一方面利用进一步的实证数据证明新模式对于图书馆整体流通量、新购图书本均借阅量的提升能有效促进。该模式看上去维度较多、信息量较大,但具有较好的通用性和可操作性,其优势在于纸本流通数据方便获取,数据分析方法简单易行,专业技术门槛低,易于图书馆员学习使用,当形成机制和习惯后,可以被反复利用,以降低人力成本。下一步的研究考虑结合阅读评价等,采用数据挖掘算法为图书馆的图书选购、图书排架设计等具体工作提供更多参考和依据。