从编目实践角度看编目自动化可行性研究
2024-06-16朱云秦
摘要:智慧图书馆时代,图书馆编目工作逐渐从传统人力重复劳动工作转变为自动化编目管理和利用。随着智慧信息化的融合,图书馆编目工作面临着机遇与挑战,传统的编目方式越来越跟不上时代的发展,而自动化编目技术的应用逐渐成为图书馆编目工作的研究方向。文章从分析编目实践角度看编目自动化的优缺点,探索编目自动化技术在图书馆编目工作中应用的可行性策略。
关键词:编目自动化;图书编目;编目工作
中图分类号:G254.3文献标志码:A
0引言
图书编目工作是一项非常烦琐细致的工作,书目数据的创建是一项耗时、耗力、低产出的工作,因此,需要引入编目自动化新技术。通过编目自动化对图书书目数据进行编目,为图书编目工作提供助力,真正把图书编目工作带入智慧化图书馆时代。
1图书编目工作概述
图书编目通常是指以特定的使用对象和目的,按照相应的规则及方法为各种文献资源进行分类整理、编制目录,从而建立馆藏目录体系的工作,简称编目,其主要任务是对文献资料的内容和形式特征进行描述和揭示[1]。图书编目是文献信息资源管理中的一项技术性基础工作,它的主要作用是通过编制目录对文献信息进行有序化处理,对文献资料进行书目控制,通过目录控制文献资料的存在状况和特征,以达到利用文献资源、交流书目信息以及资源共享的目的,从而为用户提供信息服务[2]。
图书编目工作发展到现在经历了3个阶段,分别是手工编目、计算机编目和联合编目。传统的编目方式是统编铅印卡片目录,随着计算机技术的发展,传统手工方式向计算机编目转变。计算机编目是指依据编目规则,运用计算机编制机读目录格式,以特定结构和代码形式记录在计算机载体上,能够通过计算机识别并编辑制作书目信息。联合编目是指运用计算机与互联网信息技术,由众多图书馆一起合作编目,利用具有统一标准的书刊联合目录数据库,在此基础上进行联机共享编目,即任何一个授权成员图书馆对入馆新文献的编目下载以后,其他图书馆成员便能够从网上查询并下载,从而减少了文献编目工作中的重复工作,提高文献数据质量和信息加工效率,实现文献资源的互通与互享,加快文献信息的传递[3]。
2编目自动化的概述
在智慧化图书馆时代,图书馆编目工作面临着机遇与挑战。传统的编目工作是一项非常烦琐复杂的工作,在编目过程中,通过实物书对照来获取信息的方式比较烦琐,人工操作存在不确定性,因此,需要引入各种自动化技术。通过编目自动化技术工具辅助,对图书信息进行编目,由手工输入过程变成机器输入,或由纯人工填写变成只需要人工校验,从而减少工作量,提高工作效率,为图书编目工作的融合创新发展提供助力,更好地实现图书资源的共享和利用。
2.1编目自动化的优点
2.1.1提高编目工作效率和准确性
传统图书编目工作需要手工操作,环节多、重复操作率高、耗时长、效率低,人工操作容易出错,比如错误著录题名、责任者、出版信息等需要客观著录的信息,影响图书编目质量。智慧图书馆时代,图书编目工作可以通过使用智能化方法对图书进行编目工作,减轻编目工作量。例如,采用光学字符识别(Optical Character Recognition,OCR)技术可以自动识别图书信息,包括题名、责任者、出版信息等,并将这些信息转化为可编辑的文本形式。OCR是一种将图像中的字符转换为可编辑文本的技术,OCR识别技术的原理是通过对图像进行分析和处理,提取出其中的文字信息[4]。在编目实践中,编目员通过采用OCR技术拍摄图书,将图片中的文字转化为可编辑的文本,从而自动录入,减轻了编目员的工作负担,提高工作效率,通过OCR技术还可以自动识别图书的题名、出版社、责任者等,避免手动录入过程中出现的漏字、错别字等问题,确保图书信息的准确性。
2.1.2降低培训难度,节约人力成本
随着现代出版行业蓬勃发展,出版量日益增大,图书馆新书采购、入藏量也随之不断增大,但是图书馆在馆编目员数量是一定的,依靠馆内编目员进行逐条编目很难在有限时间完成所有新书的编目工作,因此,大多数图书馆会选择将编目业务进行外包,以达到节约成本提高效率的目的。然而编目外包公司招录的编目员大部分缺乏图书馆专业知识,不是图情专业科班出身,没有系统学习过《中文图书机读目录格式》和《中国图书馆分类法》等著录规则、分类法知识。外包公司更是为了节约时间和成本,往往只是对员工进行短时间培训就直接上岗实操,编目员大部分都是边干边学,在实际工作中,经常会出现错字、漏字、多字、遗落字段等硬伤问题,对标引和分类问题更是缺乏深度思考,导致标引分类错误。图书馆在编编目员的初学者从零基础到独立自主编目至少需要半年时间,需要逐个字段地掌握具体编目规则、对图书的主题词和分类法有深度思考,编目这个工作还需要以老带新的模式不断积累经验。而外包公司为了追求经济效益,不会对外包编目员进行长时间的岗前培训,编目工作是计件工作,为了追求数量,外包公司编目员必然会在短时间内完成更多的数据数量,在没有新技术的前提下,数据数量和数据质量本身就是矛盾体,势必会导致编目数据出现硬伤错误,从而影响图书检索的准确性。编目自动化系统可以自动完成图书编目流程,降低编目成本。对于使用者来说,需要了解编目自动化系统的使用方法,简单了解编目基本规则和分类法。编目员可以借助编目系统,做出契合本图书馆规则的书目数据。湖北三新文化传媒有限公司在降低编目难度、降低培训难度和节约人力成本方面做出了创新性研究,开发了一个独立于业务系统的编目数据预生成、核验的在线编目协作平台。系统中自带280条固定编目规则,这些编目规则提炼全国1000多家图书馆的日常编目中共性的部分。通过对编目规则的解读,解读为标准格式,由开发人员对这部分规则进行配置,配置成系统中的图书馆自定义编目规则,导入实际的数据,通过规则处理之后,将处理的结果逐个字段进行验证。编目自动化集合编目数据聚合套录、编目数据生成、外部数据导入、数据智能校对等功能为一体,将编目数据制作的时间由原来的分钟级降至毫秒级,从而大大节约了人力成本。
2.2编目自动化面临的问题和挑战
2.2.1需要克服自动分类和标引的技术难题
图书标引和分类是图书编目工作赖以生存的基础,是编目工作的一个重要环节,也是编目工作的一个难点,如何利用编目自动化技术实现标引和分类的自动化是编目自动化面临的一个重大挑战。标引和分类自动化旨在根据图书内容自动分类,不过这项技术需要投入大量的研发成本和技术支持,目前来看,还暂时不能准确实现自动化分类和标引。现有自动化编目数据的主题标引和分类标引存在着直接套录CIP(在版编目)数据,无法做到真实揭示图书主题和对图书进行准确分类。
例1:《飞行疲劳管理》徐莉,李嘉主编
606# $a飞行疲劳$x管理(CIP标识)
690##V321.95(CIP标识)
本书从书名看,似乎讲的是飞机疲劳,实际上,本书通过对飞行人员的健康状况及生活方式进行分析,总结提炼了疲劳管理在飞行工作中的应用。实质上讲的是飞行员疲劳影响飞机飞行安全,CIP原分类号为航空发动机的疲劳,因此,该书应给的690分类标引为:
690##V328。
例2:《畅销书》(美)奥利维亚·戈德史密斯(Olivia Goldsmith)著
606# $a畅销书$x创作(CIP标识)
本书从书名看,是一本关于如何创作畅销书的专著,实际上,本书将写作的艰辛、竞争的激烈、主人公之间的爱恨纠葛描述得淋漓尽致,情节跌宕起伏,是一部小说,因此,该书的正确主题标引应为:
606# $a长篇小说$y美国$z现代
2.2.2需要克服数据安全问题
数据是图书馆的核心要素,数据安全是智慧化图书馆的重中之重。由于图书馆信息资源庞大,数据安全对于图书馆信息安全是非常重要的,对于图书馆来说,一旦发生数据安全事件,例如网络攻击、数据窃取、越权访问、信息泄露等,不仅会造成数字文化资源的损失,还会不可避免地对数字化图书馆信息安全产生潜在影响。编目自动化平台如果想要和图书馆编目系统完美融合,不可避免地需要和图书馆编目系统进行对接,从而在编目自动化系统处理工作时,能直接从图书馆编目系统中获取所需的数据,在编目自动化工作处理完成并经编目员确认之后,能直接从编目自动化系统中将数据导入图书馆编目系统。
例:2001#$a 乞丐的愿望$b 专著$f (美)南希·克雷斯著
2252#$ 世界科幻大师丛书
462#0$1001002431595
投标区LDR改为oam2
“世界科幻大师丛书”编目系统库里是进行了丛书总记录的,因此,编目自动化平台要想和丛书总记录进行挂接,就需要和图书馆编目系统库进行对接,调取丛书总记录号,然后通过462字段进行连接,让本书《乞丐的愿望》能够挂到丛书总记录中去。而这个对接工作就不可避免地涉及数据安全问题,编目自动化系统是否会攻击图书馆管理系统、窃取图书馆数据信息、对图书馆敏感数据进行挖掘,这对图书馆管理来说也是一个不小的挑战。
3编目自动化实现的思考
关于自动著录、自动标引问题。人工智能技术已经经历了数十年的发展,在自然语言理解、深度学习技术、机器学习和知识获取等领域有了深入的进展,技术上的突破为图书编目自动化实现增加了可能性。就编目而言,一本图书的完整编目模块分为图书的物理特征描述、图书主题内容揭示和责任者规范控制3个模块。要想编目自动化像人一样,自动著录一条完整、准确的数据是有待研究的,但是如果让这3个模块分别单独进行深度学习,等这3个模块深度学习调整到最优状态,再让它们相互作用、相互影响、相互连接,实现真正的编目自动化,还是值得期待的。
关于数据安全问题,编目自动化系统如果和图书馆编目系统进行对接,图书馆系统就需要采用先进的技术手段保护本馆数据的安全,例如:建立数据备份系统,对馆内数据进行备份;对重要数据进行屏蔽,未经授权不得随意查看;对数据进行加密,保证数据在使用过程中不被非法获取;对越权访问的软件进行限制访问等,编目自动化平台对接编目数据库时,只开放部分权限,以防平台篡改数据,造成数据的泄露。
对于编目员而言,编目自动化改变了传统编目工作模式,提高了工作效率,是一种全新的编目工作模式,是利用人工智能技术进行内容创作和编辑。因此,编目员需要具备大局意识,理解编目自动化的重要性和必要性,并且需要主动学习编目自动化的使用方法和操作技巧,善于发现编目自动化的优点和缺点,提出改进建议,推动编目自动化的完善和发展。
4结语
随着自然语言处理技术、机器深度学习技术等各种信息技术的发展,探索编目自动化平台在图书编目领域应用已经成为大势所趋。应用智能化自动化技术进行图书编目,可以最大限度发挥人机结合优势,提高编目的工作效率,降低编目人工成本。未来的发展方向上,需要借助人工智能技术,对编目自动标引进行更深度的学习,提高编目数据质量的可靠性,加强编目员人才的培养,为编目自动化更进一步发展提供智力支持。
参考文献
[1]卢红梅.高校图书馆编目工作存在的问题及对策研究:以聊城大学图书馆为例[D].保定:河北大学,2009.
[2]何乐.数字环境下我国文献编目工作的变革与创新研究[D].南昌:南昌大学,2019.
[3]方威明.我国联机编目现状述要[J].图书馆建设,2001(2):28-30.
[4]李利沛.数字化时代图书馆编目工作的自动化与智能化发展研究[J].中文科技期刊数据库(全文版)社会科学,2023(6):49-52.
(编辑何琳编辑)
Feasibility study of cataloging automation from the perspective of cataloging practice
Zhu Yunqin
(National Library of China, Beijing 100081, China)
Abstract: In the era of smart libraries, library cataloging work has gradually shifted from traditional manual repetitive labor to automated cataloging management and utilization. With the integration of intelligent information technology, library cataloging work is facing both opportunities and challenges. Traditional cataloging methods are no longer keeping up with the development of the times, and the application of automated cataloging technology is gradually becoming a research direction for library cataloging work. The article analyzes the advantages and disadvantages of cataloging automation from the perspective of cataloging practice, and explores the feasibility strategies of applying cataloging automation technology in library cataloging work.
Key words: cataloging automation; book cataloging; cataloging
作者简介:朱云秦(1990— ),女,馆员,硕士研究生;研究方向:中文图书编目。