APP下载

机器学习在图书馆特藏文献信息资源建设中的应用探究

2021-05-29解登峰

兰台世界 2021年5期
关键词:涉海书目机器

李 靓 解登峰

作为最能体现图书馆个性、亮点与特色的资源,特藏资源(或特色资源)是图书馆资源的重要组成部分,“被置于图书馆内涵建设与外延发展的交叉点上,既是图书馆内涵的个性化标记,也是代表文化的标志性高地。特色资源能够弥补图书馆间馆藏同质化严重这一根本性缺陷,使图书馆在精神取向上获得较大提升”[1]。

一、特藏文献建设的“智慧化”发展需要

1.特藏文献建设的概念与价值。特藏指按照一定的主题,遵循一定的收藏原则,经长期积累而形成或者经购买等渠道收集的比较完整的或具有相当数量的藏书,这些藏书并在相关学科领域内造成一定的影响[2]。具体来说,特藏指只有本馆拥有而别馆却不具备,或本馆收藏丰富而别馆却相对贫乏的各种馆藏资源。

它的含义应该包括两个方面,一是指图书馆收藏的独具特色的那部分信息资源;二是指图书馆建设起来的信息资源体系所具有的特色[3]。保存珍贵的馆藏资源,彰显图书馆独特的历史文化积淀,以及建设某一主题或具有专业特色的资源来支持本校的学科建设或本地区的相关研究,是特藏最具代表性的两个功能[4]。简言之,特藏资源体现了一个图书馆特有的品位与风格,是某个图书馆与其他图书馆资源差异的所在。比如,中国海洋大学图书馆的“海洋文库”,就是中国海洋大学图书馆独具特色的资源。

美国研究型图书馆协会(Association of Research Libraries,ARL)在《作为核心的特藏》报告中指出:由于特藏(special collections)的卓越特性,特藏建设可以为研究型图书馆的发展提供丰富的机会,以实现其教学和科研任务[5]。在馆藏资源日益同质化的当下,特藏资源日益成为图书馆声誉、地位及核心竞争力的根本保障,建设特色鲜明的馆藏体系成为图书馆界的共识,加强特藏文献建设也成为图书馆资源建设的发展趋势。

2.传统模式无法适应新需求。与图书馆一般资源建设模式相同,特藏文献建设模式主要由馆员采访和专家采访两种模式构成。两者中,馆员采访是目前图书馆特藏文献建设的主要模式,主要依据书商、出版社提供的出版物目录,由馆员依托主观的采访经验作出决策。

具体而言,目前图书馆特藏文献建设主要采用人工逐条通读并予以标记的方法,在这个过程中,重点关注的字段是题名、丛编、提要、使用对象、主题词及分类法。由于特藏文献建设的特藏关键词普遍较为明显,因此与一般资源采访决策活动相比,特藏文献建设决策依据往往更为客观,采访过程相对程式化,采访决策的不确定因素也较小。

众所周知,随着图书馆的发展进入智慧化时代,图书馆文献资源建设工作随之日趋“大数据化”,现有的特藏文献建设工作却始终处于在海量文献中人工识别、筛选、采集特藏资源的状态,导致特藏文献人工采访耗时、耗力的弊端日益暴露,不仅使特藏文献建设的完整性毫无保障,无法满足工作要求,而且也耗费了本就紧张的人力资源。因此,图书馆特藏文献建设走上“智慧化”进程已经迫在眉睫,亟需开发“智慧化”工具,以实现特藏文献建设的“智慧化”发展。

二、基于机器学习理论的解决途径

1.人工智能时代的来临。1956年,在达特茅斯大学对非生物智能研究的夏季会议(Dartmouth会议)上,以约翰·麦卡锡和明斯基为代表的一批数学、心理学、神经学、信息论、计算机科学等学科的学者提议将人工智能确立为一门独立的学科,第一次在公开场合使用“Artificial Intelligence”这一名词,被认为是“人工智能(AI)”正式诞生的标志[6]。人工智能的定义随时间推移而演变,《人工智能标准化白皮书》(2018版)将其定义为:“人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,是感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术与应用系统。”[7]

迄今,人工智能作为一门交叉前沿学科已有六十余年的发展历史,在诸多应用领域取得了举世瞩目的成就。近年来,随着大数据、机器学习、云计算、物联网等的兴起,人工智能应用领域愈来愈广,且已渗透到生活中各个行业。图书馆作为信息技术应用的先行者,对信息技术的发展有着高度的敏感性,持续关注人工智能技术的应用。Smith在1976年对人工智能在图书馆信息检索系统中扮演角色和潜在作用进行了调查[8]。《2017新媒体联盟地平线报告:图书馆版》将人工智能技术列为4—5年内重点关注的技术之一[9]。人工智能在图书馆领域的应用为图书馆的发展带来划时代的改变,推动图书馆由“传统”向“智慧”转型。

2.机器学习的理论背景。1959年,IBM公司的计算机科学专家亚瑟·塞缪尔提出了“机器学习”这一术语,并将它定义为:可以提供计算机能力而无需显示编程的研究领域。机器学习是人工智能研究领域中极其重要的研究方向,也是发展最快的分支,是一门多领域交叉学科,涉及概率论、统计学、优化理论、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构并使之不断改善自身的性能[10]。

机器学习的主要内容是研究如何从数据中构建模型的学习算法。有了学习算法之后,将训练数据集提供给它,算法就能根据这些数据构建模型,从而使用模型进行预测,因此机器学习的一个核心内容就是研究学习算法[11]。在机器学习的过程中,系统不断进行自我完善和自我改进,当再次进行同样或相似工作的时候,就能更好地完成目标。

机器学习包括监督学习和无监督学习。监督学习通过对数据的学习和训练,获得对应数据隐含规律的模型,对事实真相进行描述,并能够利用模型,进行有效预测[12]。监督学习是建立在人类已有的经验基础上,对事物进行一定的描述、概括、分类,让监督学习算法对数据进行训练和学习,获得可靠的描述模型,图书馆现有的数据,绝大部分为有标记数据,因此人工智能图书馆当前主要采用监督学习技术[13]。

3.机器学习工具的功能和作用。随着我国文化产业的发展,图书出版量剧增,一方面,为开展特藏资源建设工作创造了条件,提供了丰富的选择;但另一方面,出版信息数据剧增导致的信息过载使特藏文献的完整性无法得到保障,特藏文献信息资源建设工作的质量和效率由于图书馆人力资源的有限亦随之下降。如何解决有限的人力资源与不断加重的信息过载问题之间的矛盾,成为特藏资源建设工作的当务之急。

在图书馆特藏文献信息资源建设工作中引入机器学习工具,可以充分利用机器学习的优势,使其在由采访馆员工作经验构建的现有特藏文献资源数据中不断进行监督学习,从复杂、多维的数据中掌握特藏文献内在本质特征,构建特藏文献的描述模型,并最终实现特藏文献资源的自动识别。

将机器学习引入特藏文献信息资源建设,使特藏文献信息资源建设工作实现由人工筛选向机器自动识别的转化,不仅可以解放图书馆人力资源,进一步提高馆员的工作效率与工作质量;还将构建出更加符合读者兴趣需求和特藏文献信息资源建设需要的模型,从而不断提高机器识别的准确性与读者满意度;同时,还可有效促进图书馆特藏文献信息资源建设工作更快发展,在特藏文献信息资源建设领域真正实现“智慧化”,并为机器学习在图书馆资源建设工作中的全面应用探索全新的解决方案。

将机器学习引入特藏文献信息资源建设工作,基于机器学习算法开发机器学习工具,在特藏文献建设工作中发挥具体而实际的辅助作用,不仅可以提高特藏文献建设工作的质量与效率,而且能切实解决图书馆人力资源有限与数据信息过载的现实矛盾,对于推动特藏文献建设和资源建设工作的智慧化进程是一条行之有效的解决途径。

三、引入机器学习的创新性与可行性

1.创新性分析。要了解将机器学习应用于特藏文献建设的理论创新价值,需要研究截至目前该领域的文献发表情况。2019年10月,以“Cnki中国知网”为数据来源,以“智慧图书馆”为主题搜索文献发文量,从检索结果可以看出,我国图书馆界对智慧图书馆的研究热度和发展速度从2010年开始进入快速增长期,随后呈现出“井喷式”的发展态势,关于智慧图书馆的研究现已进入并将继续维持热点状态,其研究和实践都在快速发展过程中(图1)。然而,同样在“Cnki中国知网”搜索“智慧图书馆”研究关键词矩阵图,却未见资源建设领域相关研究(图2)。

以“智慧图书馆”和“资源建设”为关键词检索智慧图书馆在资源建设领域的研究现状,显示相关文献数量为0;以“机器学习”和“图书馆”为关键词检索机器学习在图书馆方向应用的研究现状,显示相关文献数量为7;以“机器学习”和“文献”为关键词检索机器学习在馆藏文献方面应用的研究现状,显示相关文献数量为2;以“机器学习”和“资源建设”及“机器学习”和“特藏”为关键词检索机器学习在图书馆资源建设领域及特藏文献建设领域应用的研究现状,显示相关文献数量均为0。可见,智慧图书馆研究和探讨的领域虽有一定广度,但仍集中在宏观理念层面,截至目前,在资源建设领域进行机器学习的研究现状尚属空白。将机器学习应用于图书馆特藏文献建设领域,开发机器学习工具用于特藏文献建设工作,可使图书馆特藏文献建设领域走向“智慧化”,亦可推动“智慧图书馆”的研究与实践,在学术层面极具研究价值。

2.可行性分析。在当今不断繁荣的文献出版背景下,图书馆特藏文献建设的采访目标主要由新出版书目数据和尚未采访的历史书目数据组成,而采访馆员在图书馆文献资源建设工作中处理的书目数据为MARC数据。MARC即机器可读目录(Machine Readable Catalog)的英文缩写,简称机读目录,就是以代码形式和特定结构记录在计算机存储介质(磁带、磁盘、光盘)上的用计算机识别和阅读的目录,MARC是国际性的机读目录格式标准[14]。

MARC数据受控于MARC格式标准、分类法、叙词表等,具有标准的结构,属于格式化数据,利于特征信息的提取。因此,图书馆特藏资源识别所依赖的特征信息都有规范的格式化表达,所需学习及处理的书目数据有标准的结构,有利于实现特征信息的提取。

在图书馆特藏文献建设工作中,传统的人工识别方式,通过人工逐条通读书目数据中的题名、作者、主题词、关键词、出版社、出版时间、ISBN号、丛编、分类号、提要、使用对象等基本字段,发现符合特藏特征的信息后,作为特藏文献予以标记。而机器学习识别同样是对特藏文献特征信息的识别与筛选,与人工识别所依据的字段相同,字段的信息语义与自然语言语义亦相同。机器完全可以通过学习掌握特藏资源特征信息,并对数据项目进行自动识别判断,通过机器来学习特藏文献特征以辅助或代替人工处理海量书目数据具有技术与工作的逻辑可行性。在新书出版种类繁多,采访馆员无法完整、全面地收集,更无法处理几十万至百万条数量级的数据时,机器学习识别凸显出了更快、更全的显著优势。

四、基于机器学习特藏文献推荐系统开发与实践

机器学习可以深入数据内部和细节,模仿人类思维机制和决策过程[15]。笔者研究团队通过以下四个步骤来实现基于机器学习特藏文献推荐系统——中国海洋大学涉海文献推荐系统的开发与实践。

1.数据储备。不同于通过编程告诉计算机如何计算来完成特定的任务,机器学习是一种数据驱动方法,这意味着方法的核心是数据。对机器学习来说,往往需要大量的数据,才能获得准确的学习和预测结果。因此,开发基于机器学习特藏文献推荐系统首先应通过国家图书馆、商业数据库、新华书店等销售商、网络搜索引擎等多种渠道全面收集图书出版信息,并全面收集馆藏特藏文献书目数据,用作开发特藏文献推荐系统所需的训练数据、测试数据和建模数据等储备数据。

通过随机采样,笔者研究团队提取2009—2020年每年约2万条书目数据,合计248719条,其中涉海书目数据共8509条,占比3.42%。将数据集随机等分为10份,其中6份作为训练集,2份作为验证集,2份作为测试集。随后,将原始数据集通过数据清洗、数据变化等方式,统一数据结构,剔除“噪声”数据,并在整理过程中检查数据合法性与完整性,补全不完整数据。

2.特征工程。特征工程,即通过特征提取、特征变换等方法将数据转换成全新的带有衍生特征的样本数据。以海洋文献为例,海洋文献特征工程是指整理近年新书书目数据、涉海古文献书目数据、民国涉海图书书目数据、海洋文库书目数据,用以构建建模需要的测试数据,在识别涉海图书和理解书目数据的基础上,通过属性选择和数据抽样方法,确定用来识别目标的数据特征。特征工程是机器学习后期进行分析、预测、识别的先决条件,直接影响最终学习结果准确性,是开发基于机器学习特藏文献推荐系统的重要基础。

为全面标记涉海图书特征,研究团队十余年来分别对涉海古文献[16]、民国时期涉海图书[17]、截至2020年中国海洋大学图书馆馆藏涉海图书等涉海图书进行了分析。对由特藏文献构成的训练数据进行分批次的训练和学习,如训练数据中的题名、作者、主题词、关键词、出版社、出版时间、ISBN号、丛编、分类号、提要、使用对象等字段信息,重点学习MARC数据中的200字段(题名与责任者)、225字段(丛编项)、330字段(提要文摘附注)、606字段(学科名称主题)和690字段(中图分类号)。对于训练数据中的题名、作者、关键词、出版社、使用对象等字段信息的属性内容,经过预处理后调用jieba库进行分词处理,得到中文分词文本作为Word2vec工具(gensim库)的输入,使用Skip-gram模型进行训练,构建中文词向量。而对于中图分类号、出版社等带有类别信息的字段,则将其进行One-Hot编码,模型的代码实现基于Google开源的机器学习框架TensorFlow,离散化能提升模型的非线性能力。

此阶段,笔者研究团队共收集涉海图书二级分类号386个,其中出现即可判定涉海图书的二级分类号103个,需要组配主题词、高频词才能识别涉海图书的二级分类号283个;共收集涉海主题词2594个,其中出现即可判定涉海图书的主题词1240个,需要组配高频词、分类号才能识别涉海图书的主题词1354个;共收集涉海高频词471个。在此基础上形成语义网络,为机器学习算法设计提供参考,如2020年涉海图书题名语义网络(局部)(图3,见下页)。

图3 2020年涉海图书题名语义网络(局部)

3.模型的建立与训练。为了对模型进行充分的实验验证,笔者研究团队先进行了词向量的预训练,同时基于TensorFlow框架实现了模型,随后利用pythonflask注册到java spring-cound eureka,进行微服务调用的线上部署。涉海文本识别是一个明显的二分类任务,将注意力机制引入模型中,更多地专注于提取文本序列中字与字之间的影响力,从而实现基于BiLSTM-Attention的文本二分类命名实体识别模型,该模型由Embedding模块、BiLSTM模块及Self-Attention-CRF模块组成,其框架结构见下图(图4)。

图4 基于BiLSTM-Attention的文本二分类命名实体识别模型框架图

模型具体实现步骤为:对待分类文本进行预处理,通过Embedding模块将经过分词处理后的输入文本表示成向量的形式,将Embedding模块对应的向量输入至BiLSTM模块中进行上下文特征的提取,然后将BiLSTM模块的输出输入至Attention模块中,最后得到文本分类结果。其中,Embedding模块主要负责将输入的中文词语转换成向量的形式,每个词语对应的向量由预训练得到的词向量构成,中文词向量来源于词向量工具在中文语料库上的语言模型训练结果;BiLSTM模块的输入为Embedding模块的输出,使用双向LSTM结构提取输入文本的上下文特征,该模块由LSTM前向层、LSTM后向层和拼接层组成;Attention模块主要完成文本分类任务,其输入为BiLSTM模块的输出,输出为该文本的分类结果。

LSTM即长短期记忆网络(Long Short-Term Memory Neural Network),是循环神经网络(Recurrent Neural Network,RNN)的一种变体。LSTM通过“门”向单元状态中添加或从中移除信息,每个“门”由sigmoid函数和逐点乘法运算组成,sigmoid函数输出0到1之间的数值,描述了信息可以通过门限的程度,0为不让任何信息通过,1为让所有信息通过。“门”通过权重参数和偏置参数对信息进行筛选,决定信息通过多少,这些参数在网络训练过程中得到。每个LSTM单元通过遗忘门、输入门和输出门三个“门”来控制信息对单元状态的影响。

在此阶段后期,需要依托搜集并整理的测试数据,对所建立的应用模型进行训练,使用构建好的应用模型对测试数据进行预测和数据标记。采用人工抽查的方法,将应用模型数据标记与人工标记进行比对,计算出模型数据标记的误差,得出应用模型的使用满意度和性能评估指标,并在下一次输出结果前自我校正。在这个过程中,需要不断增加测试数据的数量,从而使应用模型从错误中不断吸取经验。在模仿人工识别的过程中,应用模型把每一条测试数据都看作独立认知对象,通过持续的自我学习、自我训练和自我修正,不断调试模型参数,在这个过程中实现自我优化,逐渐提高预测的准确性,最终完成特藏文献推荐系统的开发。

4.推荐系统的完善。基于机器学习特藏文献推荐系统开发完成后,要继续分阶段导入测试书目数据集,由推荐系统独立处理,计算出符合特藏要求列入采访目录的文献信息,以测试推荐系统在限定条件下进行最优化特藏文献建设决策的效率与准确率,在优化过程中不断提高推荐系统算法的性能。

后期,根据特藏文献建设日常接触到的数据类型、文件格式,实现推荐系统对多种类型数据的规范、兼容及转换,以满足图书馆特藏文献建设多元化的实际工作要求,同时实现推荐系统的统计分析、提取规范词汇表等功能,最终达到甚至超过人工标准的特藏文献建设效果。在实际工作中,推荐系统会及时根据自身的不足,不断在特藏文献建设的全过程实现系统的完善、优化与升级。特藏文献自动识别完成后,采访馆员还需要对推荐系统的识别结果进行最终的审核。

五、特藏文献推荐系统应用效果及评价

下图为笔者研究团队现已开发出的特藏文献推荐系统——中国海洋大学涉海文献推荐系统工作界面(图5),该推荐系统支持ISO文件格式及Excel文件格式的数据包输入,识别结果支持Excel文件输出。

图5 中国海洋大学涉海文献推荐系统工作界面

为验证所开发涉海文献推荐系统的有效性,得到该推荐系统科学的应用效果及评价,笔者在图书供应商的征订目录中选取了最新的7个征订目录,将7个书目数据包中的合计11044条书目记录作为样本数据。在机器识别前,先由特藏采访馆员按每天1000条书目数据的工作量进行人工识别,随后通过涉海文献推荐系统进行机器识别,二者的识别结果对比如下表所示(表1)。

表1 书目数据测试结果

通过分析表1中数据可以发现:在11044条书目记录中,共有217条涉海图书书目数据,占比为1.965%;人工识别出170条,共漏检52条,漏检率为0.471%,共错检5条,错检率为0.045%;机器识别出298种,共漏检20条,漏检率为0.181%,共错检101条,错检率为0.915%。随后,对上述数据进行比对分析可以发现。

1.机器识别效率极高,成本极低。以样本数据为例,在11044条书目记录中,涉海书目数据仅有217条,占比仅为1.965%,这凸显出特藏文献数量少这一基本特征,目前我国每年出版50多万种图书,以人工识别的方式在这50多万种图书中发现比例极低的涉海及其他特藏文献,需要占用大量人力与大量时间,这与图书馆日渐紧张的人力资源之间呈现出不可调和、日益加剧的矛盾。面对同样的样本数据检测任务,人工识别需要大约10天的检测时间才能完成,机器识别则仅需不到10分钟即可。毫无疑问,机器识别的引入对于图书馆特藏文献建设工作的效率提升而言,无疑是飞跃式的质变。因此,基于机器学习开发的特藏文献推荐系统可以成为人工识别工作的有效补充,能够帮助图书馆采访馆员在浩如烟海的海量文献中高效、便捷地发现和补足所需用的特藏文献。

2.机器识别的漏检率较低,错检率较高。通过观察表1中的数据可以看出,机器学习的漏检率仅为人工识别漏检率的38.462%,可以较好地解决人工识别由于数据量巨大、人力不足等原因造成的漏检问题。与漏检率较低相对应的是,机器学习的错检率较高,这主要源于机器学习工具建立在书目文本信息基础之上,对自然语言的正确认知能力有限,尤其在面对带有修辞性质的自然语言时,极易造成机器错检。比如,当文本信息出现“知识的海洋”“文字的海洋”等看似与“海洋”相关但本意并非涉海的字眼时,机器识别就会错将其归为涉海图书。正是由于机器识别的这一局限性,在样本数据中,机器识别的错检率高达0.915%,是人工识别错检率的20余倍。因此,后期尚需不断加强数据训练及调试,以更好地应对此类特殊情况,从而提高机器识别的正确率。

3.将人工识别与机器识别有机结合。在特藏文献建设的实际工作中,需要将人工识别与机器识别有机结合,具体情况具体分析地加以利用。比如,在日常特藏文献建设工作中,应以人工识别为主,在人工识别后辅以机器识别进行二次筛选,从而有效避免人工识别对特藏文献的漏检现象及机器识别错检率较高的问题;而在特藏文献的缺藏分析与补藏工作中,当面对几十万条数量级的书目数据时,机器识别的效率优势就得以充分凸显,此时则需以机器识别为主,先使用机器识别进行初步筛选,随后由采访馆员对机器识别的结果进行最终的审核与判断。只有将二者有机结合、相辅相成、互相补充、协同发力,才能更有效地促进图书馆特藏文献建设工作。

六、结语

从本研究来看,基于机器学习实现特藏文献资源的自动识别,缓解了信息过载,提升了特藏文献资源建设工作的质量和效率,证实了机器学习应用理论、技术与算法有效,机器识别是人工识别的有效补充。随着图书馆发展进入智慧化时代,资源建设走向智慧化也成为必然,基于机器学习的特藏文献建设改变了资源建设工作,智慧化理论研究与实践落后于图书馆其他业务,但要真正实现资源建设的智慧化愿景,还需进一步实践印证和理论研究。

猜你喜欢

涉海书目机器
机器狗
推荐书目《初春之城》
机器狗
涉海翻译语言服务人才培养现状与问题研究①
战略管理导向下涉海企业全面预算审计体系研究
基于管理创新涉海企业投资审计运行机制研究
未来机器城
首届“中国涉海类博物馆馆长论坛”在港顺利举办
《全国新书目》2009年1月荐书榜
赠书书目