图书采访订单处理模式存在的问题与解决方案*

2020-12-26伏立霞王文刚

山东图书馆学刊 2020年6期

伏立霞王文刚

(1山东职业学院图书馆，山东济南 250104；2山东省图书馆，山东济南 250100)

1 引言

文献资源建设质量的高低直接影响图书馆的读者服务工作，影响读者对图书馆藏书的利用[1]。同时，图书馆文献资源的建设也需要有高效的图书采访工作的保障[2]，而采访数据的处理则是采访工作的首要环节。其中，订单查重是图书采访人员决定是否采购的关键一步。当前大多数图书馆都能够依靠图书馆管理系统自带的查重工具实现批量快速查重[3]。对采访人员来说，出版信息都相同或都不同很容易判定是否为重书，但ISBN相同，其他字段不同，则有重书的可能性；而ISBN不同，但题名和责任者兼相同，同样有重书的可能性[4]。2017年CIP数据统计，《西游记》《水浒传》《红楼梦》和《三国演义》中国古典四大名著每种的重复版本均超过了130种，这不仅“令读者判断哪一版本才是最佳的，实在勉为其难，对图书采访工作也是一个严峻挑战”[5]。笔者多年的工作经验发现，在经过多次查重处理后，馆藏仍存在大量出版信息不同但内容雷同的图书。

因此，设计一套完善的图书采访订单处理系统，实现订单问题的一站式处理，快速地筛选出有效订单，是目前图书采访人员面临的共同课题。

2 问卷调研

为了更详实地了解当前图书采访订单处理情况，以图书馆采访人员为调查对象，笔者进行了问卷调查。

2.1 问卷设计

问卷设计为个人资料和采访订单处理情况两大块。结合采访工作实际，采访订单处理情况部分包含采用的订单处理模式、订单处理周期以及订单筛选处理时遇到哪些问题等主要情况的调查。题目的设置分为是非题、选择题、开放式回答。本次调查采取问卷星网络平台进行，来自山东、北京、天津、山西、广西等全国各地的高校图书馆，其中本科院校60所，专科院校55所，共收集问卷115份。

2.2 问卷结果

2.2.1 采访订单的处理模式统计

从调查结果可以看出，目前50%的图书馆都用现有的图书馆管理软件来进行简单的查重处理；32%的图书馆用纯人工筛选处理模式，有专门的处理系统或软件的图书馆仅占17%，如图1所示：

图1 图书采访订单处理模式

2.2.2 图书采访工作订单需处理的问题统计

每个图书馆的筛选、处理原则和侧重点不一样，但处理时面临的问题大同小异，如图2所示：

图2 图书采访订单需处理的问题

2.2.3 订单处理周期及到货周期统计

据调查数据显示，目前，图书馆采访订单数据的筛选处理工作基本都是人工完成，图书采访人员需要对着电脑查看Excel表格逐条浏览，多数图书馆一个订单处理完需要5天或者更长的时间。订单处理时长太久影响下单订货，导致订单从发货到到货的周期太长，如图3所示，超过80%馆到货周期都超过30天，耗时耗力，效率低下，使得图书馆有限的购书经费不能最大化地利用。

图3 订单到货周期调查统计

最后开放式问题要求答卷人结合工作实际谈对图书订单处理有哪些体会或建议时，共收集了65条有效建议。

3 当前图书采访订单处理模式的弊端分析

从调查结果看，普遍认为现有的订单处理模式弊端重重，结合调查数据分析，主要集中在以下几方面：

3.1 处理质量不高，效率低下

从调查数据看，目前超过三分之一的图书馆都使用纯人工筛选处理。采访订单处理工作中无论是对非本馆所需种类、高价图书以及出版时间的筛选，还是复本的设置，都需要逐条仔细处理。尤其是通过书目来采选图书，书商如果在自编征订书目中掺杂一些非本馆所需书目，绝大部分采访人员是无法判断的。面对几千条订单数据不仅容易出现疲劳，“长期重复简单劳动容易使得工作人员产生懈怠情绪，进而影响查重效率”[6]。靠传统的人工筛选处理，或使用简单的Excel筛选，“在大量的数据信息中逐条进行比对的传统查重方式已经满足不了当前采访工作人员的工作需要，需耗费大量的时间和精力且容易出错”[4]。这种模式处理后的订单不仅不全面，数据漏选现象频出，质量不高，低端的重复性劳动占较大比例。大数据的时代，繁冗的数据处理不再适合手工比[7]。

3.2 处理周期过长，影响馆藏资源利用率

据调查了解，目前多数图书馆采访订单数据的处理工作中超过5000条数据的订单处理完需要3天或者更长的时间。订单处理耗时太久影响下单订货，导致订单从发货至到货的周期太长。一般来说，“现货图书的到货周期一般二至三周，预订图书到货周期一般四至六周，如果超出这个范围，将会影响到图书馆的采购计划与读者的阅读需求”[8]，严重影响采编工作效率，新书上架后时效性大打折扣。近年来，各高校“图书馆文献信息的利用率极低，馆藏文献资源对读者吸引力越来越弱了”[9]。其中很重要的原因之一就是新书到馆周期太长，在网络资源日益发达的今天，很多读者就会放弃图书馆而选择网络途径获取资源。长此以往，不仅导致有限经费的浪费，馆藏得不到充分的利用，图书馆也就失去了其存在的价值。

3.3 无法解决馆藏重复订购问题

调查对象中有50%的图书馆利用现有的图书馆管理软件处理采访订单。当前流行的图书馆管理软件汇文、ILAS、金盘、MELINETS等只有基本的订单查重功能。这些软件和图书数据采集器的查重都是同样的原理和效果，即如果一本书的所有出版信息包括ISBN号、题名、作者、出版社等外部特征信息完全一致，系统将认为是重书。但当一本书仅仅是题名相同或类似，其他出版信息不相同的时候，现有的查重系统就认为不是重书。《2018年全国新闻出版业基本情况》显示，2018年全国出版图书24.7万种，重印图书27.2万种，图书出版的发行量很大，图书出版质量却参差不齐，重复出版。据笔者了解，现实中各个图书馆馆藏中内容雷同而其他出版信息有所差异的图书少则几种多则几十种甚至上百种。馆藏重复已成为图书馆面临的共性问题，其造成的资金浪费、检索困难、书库危机等问题也越来越凸显，目前的采访查重解决的主要是显性复本的甄别问题对于隐性复本(内容相同或相似而外部特征不同的文献)的控制无能为力[10]。采访人员也没有很便捷的方法对这些书进行再次甄别，导致馆藏重复订购问题无法解决，馆藏结构不合理现象日益加重。

图书馆信息化和现代化的发展日新月异，大数据时代现有的订单处理模式弊端日益凸显，制约着图书采购质量和馆藏资源建设水平。基于目前图书采访订单处理工作的现状，据调查结果显示，74%的调查对象很期待开发一款便捷、高效的订单处理系统，可以按照自己需要的要求，进行筛选，并且能全方位及时合理匹配到已订购和现有馆藏的图书。

4 图书采访订单数据处理系统的设计

针对上述当前处理模式的弊端，如何开发一种高效的处理系统即能帮助图书馆解决采访工作中订单筛选处理耗时耗力、效率低下的问题，又能实现和馆藏比对后解决馆藏重复订购问题呢？本文就以这个目的为出发点而研究的“图书采访订单数据处理系统”。

4.1 系统设计原则

信息处理系统的设计要充分考虑系统运行环境、用户使用需求以及处理速度等环节。图书采访订单数据处理系统是面向图书馆采访人员，为采访工作提供便利，提高采访工作效率的信息处理系统。其设计遵从以下原则：(1)简便易操作。首先系统运行只需office软件，配置、运行环境较少出现问题；其次从事图书馆采编工作的人员几乎没有计算机专业背景，待处理的订单也多数是Excel格式，因此系统设计时要充分考虑操作的便捷性，让每个采访人员都能熟练操作。(2)全面兼容。由于每个图书馆使用的管理系统不一样，导入和导出的订单和馆藏文件格式也有差别，数据字段也不一致，系统在设计时对此做了全面的了解和调查，使每个图书馆无论使用哪个管理系统都能方便地使用本系统处理订单。(3)速度与质量兼顾。首先图书采访订单处理完越早反馈给书商，就能缩短配货周期，使新书尽早上架与读者见面；其次要方便采访人员多方面的检索与处理需求，提高订单质量。因此，在系统处理速度上采用了最先进的Hash算法，增加了智能检索功能。

4.2 系统总体的设计目标和方案

设计一套科学、有效的采访数据处理系统，帮助图书馆采访人员方便快捷地处理图书馆采访数据，及时下单进书。提高采访工作的效率和质量，把采访人员从低端的人工处理中解放出来，提升图书采访工作的自动化、智能化程度，推进智慧图书馆的建设和发展。具体设计方案如下图4所示。

图4 订单数据处理系统设计方案

4.3 系统设计技术与算法

系统的设计与实现主要使用VBA语言编写。为了系统运行的准确性和高效性，还使用了以下主要技术算法：(1)数组技术。为了提高检索的准确性，使用了两个数组将订单中的题名中的小写转换为大写，中文标点转为英文，并删除空格。由于数组是写入内存的，在替换的过程中极大地提高了速度。(2)Hash算法。鉴于馆藏数据的庞大，为了提高运行速度，使用Hash算法。HashTable占内存大，数据存储合理稀疏，在完成馆藏比对功能时能快速实现。由于使用了此算法，系统多次完善后运行时间由40多分钟缩短至1分多钟。

4.4 系统功能模块设计

根据系统对图书采访订单进行自动检索、筛选处理，并与馆藏进行比对，提高图书馆采访工作质量和效率，主要功能结构有以下几个模块：

模块一：导入分类(订单)。(1)原始订单的导入。

将需要筛选的订单转化为xls或xlsx格式后，按照系统给出的字段顺序调整好数据，再将其复制到“原始订单”工作表中。(2)馆藏书目的导入。将馆藏书目信息从图书管理系统中导出，导出格式为txt的文件，保存到安装目录下并命名为“馆藏数据.txt”。

模块二：规范数据，此模块分三个子模块。子模块一订单查重：可以实现对原始订单的重名筛选、条件筛选。重名筛选主要是可检索出原始订单中书名及ISBN号重复的书目信息。子模块二订单筛选：主要完成以下功能：(1)种类筛选。通过设定字符种类筛选过滤本馆不适合的图书。由于每个图书馆的筛选条件不一样，所以本模块在设计时增加了自由添加筛选字符种类的功能，可根据本馆要求，自由添加筛选字符，字符数要求4个以下。(2)筛选高价图书。根据设定的高价区间，将该价格及以上的图书筛选出来由采访人员决定是否订购此书。(3)筛选出版日期。过滤、筛选，并可删除某一出版日期之前的数据记录，具体日期可根据各馆要求自由输入。子模块三订单检索：可将“原始订单”中“书名”“分类”列中含有筛选字符的书目信息全部检索出来，满足各馆对特需图书采购的检索需求。

模块三：比对馆藏。将书目订单与馆藏数据进行题名比对，将两者题名相同的图书一并列出，加亮显示馆藏已有相同或类似题名的图书题名及册数，采访人员可根据需要自行判断是否再订购此种图书。

模块四：生成书单。本模块将经过以上处理后的订单进行最后的复本设定后自动生成最终订购书目。复本的设定可以按照两种规则：一是按照价格设定，高价图书与低价图书复本分别设定；二是按照《中国图书馆分类法(第五版)》分类设定复本。

5 系统的测试

测试是保证系统质量的重要手段。为了验证本系统的实用性和高效性，本文以山东职业学院图书馆为例测试系统的主要功能。

结合该馆馆藏概况，图书馆制定的筛选原则是儿童、小学、初中、茶、医学等相关的图书不订；其次出版日期在2016年1月1日前的图书不订；复本的设定原则是定价在100元以下的订3本，100～200元的订2本，200～500元的订1本，500元以上的筛选出待定；和现有馆藏题名相同或类似的全部筛出待定。此测试用的原始订单共4000条数据(种)，馆藏量为20万条数据(种)，按照上述图书馆筛选要求和设定的筛选条件(自由设定)对原始书单进行种类、出版日期及高价图书筛选序处理。系统用时2.19秒筛选出符合上述筛选条件的数据共360条，其中单价超过500元的15条，2016/1/1以前出版的98条，不符合该馆需求的种类247条，订单自身重复数据27条，分别以不同的颜色加亮显示方便采访人员查看、处理。

将经过以上处理过的“原始书单”中的数据，与馆藏数据进行比对，系统用时58.02秒检索出订单中与馆藏题名相同或相似的数据共344条并写入“待定书目”工作表中，如图5所示，“待定书目”工作表的A列中带索书号且加亮显示的图书为馆藏图书，带“不订购”字样的为“原始书单”中的图书。根据馆情如需订购，采访人员可将“不订购”字样删除，程序会将该图书写回“原始书单”。

图5 馆藏比对结果

该系统已经过多次严格测试，结果表明在图书采访过程中发挥了较大作用，原来采访订单动辄几万条数据的工作量，需要采访人员花费几天的时间进行筛选处理，现在利用本系统只需1分钟左右即可处理完善，大大提高了采访工作的效率，深受图书馆采访人员的欢迎。

6 结语

总之，该系统研究将采访订单数据自动地进行规范、筛选、过滤、添加复本，并实现了和馆藏数据的自动比对、处理等操作，形成最终有效的订购书单。不仅弥补了现有图书馆管理系统缺失的原始书单筛选处理功能，其运用的Hash Table等比较先进的算法，大大提高了运算处理速度，提升了图书采访订单处理工作的自动化程度。极大地提高了图书采访的效率和准确率，缩减了采访人员的工作量，使图书采访工作更加系统化、程序化、规范化。