利用Excel进行图书查重方案的设计
2016-01-01蔡建康
蔡建康
(1.西安交通大学,陕西 西安 710049;2.西安交通大学城市学院,陕西 西安 710018)
利用Excel进行图书查重方案的设计
蔡建康1,2
(1.西安交通大学,陕西 西安 710049;2.西安交通大学城市学院,陕西 西安 710018)
图书查重是图书管理工作的重要组成部分,不能只采用某一字段进行单一查重,而应以题名、责任者、ISBN为主、参考其他字段为辅的复合查重方式。文章提出的利用Excel进行多字段图书查重工作的办法,能够实现批量图书查重,提高图书查重工作效率。
Excel;ISBN;VLOOKUP函数;图书查重
查重工作是图书馆日常工作的重要组成部分之一,贯穿了整个图书采购和图书编目的过程。采购查重是指通过有关检查工具将准备购买的文献和馆藏文献进行对比,剔除待购买文献中的重复部分,挑选出未入藏或需要增加订购副本的文献信息的过程。采购查重的质量直接决定着图书馆馆藏图书的数量和质量,是影响图书馆馆藏资源建设的先决因素。编目查重则在对待编新书进行加工时,再次通过题名、作者、ISBN等多种途径进行查重,保证同种文献的分类标识和主题标引的前后一致性,提高图书分编工作效率。编目查重的质量直接影响着图书馆馆藏书目数据的质量,关系着读者使用图书服务的质量。通过计算机实现高效的查重工作,不仅可以促进图书采购工作,而且对图书编目工作的也具有重要意义。
1 查重工作现状
1.1现有的查重方案
(1)手工逐条录入查重。工作人员在图书馆自动化管理系统内通过对每册图书的信息进行手工录入,逐条审核判定是否为重书。手工逐条录入的速度慢、效率低,且长期重复简单劳动容易使得工作人员产生懈怠情绪,进而影响查重效率。
(2)便携采集器查重。便携采集器因其体积小巧、方便携带,被广泛应用于图书现采工作中。通过扫描图书的ISBN条码,与预先导入便携采集器中馆藏数据的ISBN进行比对,判定是否为重书,是否需要新订或增加副本。但便携采集器一般只通过ISBN号来判定是否为重书,而实际工作中存在多卷书共用同一ISBN、精装简装版本使用不同ISBN、同一内容多个出版社发行等多种复杂情况,单纯通过ISBN进行判定难免会出现漏订或重订的情况,影响图书馆经费高效利用和馆藏资源建设质量。
(3)计算机批处理程序查重。部分图书馆结合本馆自动化管理系统,利用VB,VF,C语言等设计开发了适应本馆的查重批处理程序,网络上也有出版社或供货商提供的各种查重批处理软件,但这些批处理工具的普遍适用性不足,与不同的图书馆自动化系统之间兼容性不足,且不能针对每个图书馆提供个性化功能,而技术能力不足的图书馆又无法在此基础上进行二次开发。
1.2现有查重途径
(1)ISBN查重。国际标准书号(International Standard Book Number,ISBN)ISO 2108作为国际标准化组织认定的国际标准之一被广泛应用于图书出版领域,现行的中国国家标准GB/T5795-2006同样规定国际标准书号可独立使用。理论上讲,ISBN具有唯一性,每一种图书都有自己唯一对应的ISBN,因此可以广泛利用于图书馆的编目、检索以及查重工作中。但在实际工作中却存在每一种图书与一个ISBN并非一一对应的关系。有同一种图书使用多个不同的ISBN的情况,如:重印图书与原版图书ISBN不同、简装和精装版本图书ISBN不同、影印版图书和原书ISBN不同等;也有同一ISBN被分给多个不同的图书的情况,如:多卷书共用同一ISBN,ISBN由10位升至13位时更换图书种类等其他“一号多用”的情况。这使得单纯依靠ISBN进行图书查重工作可能会出现重复订购和漏订的可能。
(2)题名查重。题名能够最直接地反映图书的内容,通过输入图书的题名进行计算机查重也是常见的查重途径之一。但是按题名进行查重的效率,一方面当题名复杂时,受输入速度的影响;另一方面,当题名过于简单时,命中的检索结果会很多,逐条去对比也影响查重效率,如高等数学、大学物理、统计学等。
(3)责任者查重。责任者也可以作为判断图书异同的重要标准,通过单独使用图书责任者或在题名过于简单时辅以责任者查重也是有效的查重方法之一。但是当责任者是以下情况时,查重的效率就会大打折扣,如易重名使得无法判断责任者是否为同一人、高产作者作品多导致命中大量书目记录、外国人名的不同翻译结果等。
2 利用Excel进行查重方案的设计
图书查重不能仅仅依靠单一字段,需要综合使用多个字段来进行判定,如最常用的题名、责任者、ISBN。都相同或者都不同则非常容易判定是否为重书;而ISBN相同,其他字段不同,则有重书的可能性;而ISBN不同,但题名和责任者兼相同,同样有重书的可能性。Excel作为日常办公软件之一,处理数据简单高效。因此,多字段的图书查重可以通过Excel实现。
2.1 统一馆藏MARC数据和待订购图书数据为Excel格式
首先需要导出全部馆藏MARC数据。以ILAS 2.0为例,导出方法为:编目管理→数据接口→输出馆藏数据,在打开的馆藏数据输出页面,“输出检索途径”选择分类号,起始和终止键值分别为A,Z,这样即可导出全部馆藏MARC数据。
接着使用Marc To Excel转换工具把导出的MARC文件转换为Excel格式文件。转换的过程中,可以只保留需要的题名、责任者、ISBN对应的200$a,200$f,010$a 3个字段,其他字段可以根据实际需要进行选取。
无论是订单选购还是现采,一般图书供应商或出版社都会提供Excel格式的待订购数据。如果为MARC格式,按前述方法转换为Excel即可。
为了方便处理数据,把馆藏数据和待订购数据分别放置在一个Excel文件的两个sheet中,分别取名为“馆藏表”和“订购表”,馆藏表的A,B,C列依次为:题名、责任者、ISBN,订购表的A,B,C列同样依次为:题名、责任者、ISBN。
2.2利用VLOOKUP函数进行查重
在订购表中新建D列“ISBN查重结果”,选中D2单元格,选择菜单栏中的“公式”→插入函数→常用函数→VLOOKUP,打开函数参数页面,在Lookup_value(即查找值)一栏内输入“C2”,在Table_array(即数据表)一栏内输入“馆藏表!C:C”,在Col_index_num(即序列数)一栏内输入“1”,在Range_lookup(即匹配条件)一栏内输入“0”,输入完成后点击确定,这样即完成了对订购表中C2单元格ISBN的查重。这个VLOOKUP函数表示查询订购表C2单元格的ISBN,查询范围为馆藏表C列,返回查询范围中第一列(即馆藏表C列)的命中结果,匹配条件为精确匹配。如果馆藏中已有相同ISBN则查询结果显示该ISBN;如果馆藏表中没有相同ISBN则显示“#N/A”。
在订购表中新建E列“题名+责任者查重结果”,选中E2单元格,插入以题名+责任者进行查重的VLOOKUP函数。按上述路径打开函数参数页面,在Lookup_value(即查找值)一栏内输入“A2&B2”,在Table_array(即数据表)一栏内输入“IF({1,0},馆藏表!A:A&馆藏表!B:B,馆藏表!C:C)”,在Col_index_num(即序列数)一栏内输入“2”,在Range_ lookup(即匹配条件)一栏内输入“0”,输入完成后点击确定,这样即完成了对订购表中“A2+B2”单元格“题名+责任者”的查重。这个VLOOKUP函数表示以订购表“A2+B2”单元格的“题名+责任者”为一个变量进行查询,查询范围为馆藏表A+B列、C列,返回查询范围中第二列(即馆藏表C列)的命中结果,匹配条件为精确匹配。如果馆藏中已有相同“题名+责任者”则查询结果显示该书的ISBN;如果馆藏表中没有相同“题名+责任者”则显示“#N/A”。
最后,选中D2与E2两个单元格,点击单元格右下方的填充柄,按住鼠标左键向下填充,直至订购表的结尾处。
3 对结果的处理
查重结果可能出现4种情况,需要进行相应的数据处理:
(1)都显示ISBN号码。则表明图书的题名、责任者、ISBN完全一致,可以判定为重书。
(2)都显示“#N/A”。则表示图书的题名+责任者、ISBN完全不同,判定为新书。
(3)ISBN查重结果显示图书ISBN,题名+责任者查重结果显示“#N/A”,则需要参考其他字段进一步考虑,是否为多卷书共用ISBN、分册共用ISBN等其他一号多用的情况。
(4)ISBN查重结果显示“#N/A”,题名+责任者查重结果显示图书ISBN,则需要参考其他字段进一步考虑,是否为相同内容再版图书、精装与简装的差异、影印版与原版图书等情况。
通过前述方法完成每次图书的查重工作,产生新的订单。把本次新订数据添加到馆藏表中,完成数据的同步工作,下次查重即可省去馆藏数据导出转换部分,直接进行查重操作。
4 结语
设计方案以常见的查重途径题名、责任者、ISBN来进行综合判定,如需要进一步判断,可再辅以副题名、出版发行项、丛编项等其他字段。而Excel又是办公自动化常用软件之一,其普遍适用性是毋庸置疑的。经过在图书馆图书采购过程中的使用,完全满足图书查重工作的需要,杜绝了新书到馆查重后退书的问题,减轻了图书馆工作人员的负担,而且缓解了图书馆与书商之间因为退书可能产生的不快。
[1]邵永强.基于ilasⅡ2.0系统的采访批量查重[J].现代情报,2005(4):133-134.
[2]肖婷.从ISBN的唯一性谈中文图书采访的查重[J].图书馆工作与研究,2013(5):85-87.
[3]郑燕平.信息技术发展对文献现采查重模式的影响分析[J].图书馆工作与研究,2015(8):28-30.
Design of books check up scheme by use of Excel
Cai Jiankang1,2
(1.Xi'an Jiaotong University, Xi'an 710049, China; 2.Xi'an Jiaotong University City College, Xi'an 710018, China)
Books checking is an important part of the work of library management, not only using a single field investigation, and should take a heavy check method of basing on the title, responsible, ISBN, and composite reference other fields. This paper supplemented by Excel multi field books checking work, which can realize batch books checking, and improve books checking work efficiency.
Excel; ISBN; VLOOKUP function; books checking
蔡建康(1987— ),男,陕西榆林,硕士,馆员;研究方向:信息咨询,用户教育。