图书在版编目自动辅助标引方案初探
2015-04-07耿锐
耿 锐
(北方工业大学计算机学院,北京 100144)
图书在版编目自动辅助标引方案初探
耿 锐
(北方工业大学计算机学院,北京 100144)
本文论述了全文检索技术和中文分词技术的技术特征,给出了方案的实施思路、实施流程、功能架构等,并对方案进行了实验验证。该方案可以实现计算机辅助标引,可以有效提高图书在版编目(CIP)标引人员工作效率。
图书在版编目;全文检索;中文分词;自动标引
1 引言
图书在版编目(Cataloguing in Publication,英文缩写CIP),是指依据有关的国家标准为在出版过程中的图书编制书目数据,并将其印制在图书版权页上的工作。通过这种方式,图书和它的编目数据可以同时被图书馆、图书销售企业、政府管理部门和其他需要这一数据的人们所利用。我国的CIP实施工作从1993年起步至今,已经覆盖全部580余家图书出版社98%以上的图书, 2014年CIP数据的年编制量达到30余万条。
目前图书上是否印有CIP数据已经成为出版物标准化、规范化的重要标志之一。与此同时CIP中心已经建立起了一个全国唯一的、信息最全的图书印前书目数据库,实现了数据实时传输的网络编目,截至2015年8月底,CIP标准数据库已有书目数据近340万条。但逐年增长的图书出版量与CIP制作人员不足的矛盾日益暴露出来,特别是依靠手工标引图书主题和分类号的方式,已经无法满足CIP数据制作周期的要求。
本文探讨一种适合CIP工作的自动辅助标引解决方案,以求依托全文检索和中文分词技术,实现计算机自动辅助标引,提高标引人员工作效率,促进我国出版行业发展。
2 关键技术
2.1 全文检索技术
全文检索技术是针对大规模文字信息最高效的检索技术。全文检索是一种将数据库中所有文本与检索项匹配的检索方法。计算机索引程序通过扫描文本中的每一个词,对每一个词建立一个索引,记录该词在文本中出现的次数和位置,当用户进行检索时,检索程序依据事先建立完成的索引进行查找,并将查找的结果反馈给用户。全文检索系统是按照全文检索理论建立起来的,用于提供全文检索服务的软件系统。全文检索系统可实现全文检索,完全支持模糊检索、同义词检索、布尔检索等。全文检索系统可提供每秒上百次的并发检索支持,保证全面快速的响应用户检索需求。
本方案采用Lucene全文搜索引擎。Lucene是一个开源的全文检索引擎工具包,是一个JAVA编写的全文检索引擎的架构,其提供了完整的索引引擎和查询引擎。Lucene提供的简单易用工具包和程序接口,可以使软件开发人员方便的在目标系统中实现全文检索的功能,也可以此为基础建立起完整的全文检索引擎。
图1 中文分词处理过程图
2.2 中文分词技术
中文分词是中文信息处理的关键,它是信息检索、文本分类、机器翻译、自动标引的基础,如对于东方语言(如中、日、韩等语音)的文字内容,在做文字内容分析之前,一般需要采用分词技术将文字内容进行分词。在对文字内容进行分词的同时,也对整个系统的检索精度和效率有很大影响。分词系统在保证分词的准确、快速的同时,还要保证分词系统与全文检索系统的协调、配合。
图2 CIP辅助标引流程图
现有的中文分词技术主要有三种方法:(1)基于字符串匹配(词典)的分词方法,优点是较容易实现,但是精度不高;(2)基于理解(规则)的分词方法,优点是精度较高,但是规则不易维护;(3)基于统计的分词方法,优点是无需切分字典,依据词频统计,可以有效识别未登录词,但是效率较低。现有的中文分词工具主要包括:Paoding、Imdict、mmseg4j、IKQueryParser、ICTCLAS等。
经过深入比较,本方案采用中国科学院计算技术研究所研制出的中文分词工具ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)的 GB2312版本,主要功能包括中文分词;新词识别;命名实体识别;词性标注;同时支持用户词典。用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助式定做适合自己的分词系统。分词精度达到98%以上,API和各种压缩后的词典数据均较小,是目前最优秀的汉语词法分析器。ICTCLAS全部采用C/C++编写,支持Linux、Windows等多种操作系统,支持C/ C++/C#/Java /Delphi等主流开发语言。ICTCLAS支持当前广泛认同的分词和词类标准。
图3 功能架构图
3 CIP辅助标引实施方案
3.1实现思路
依据CIP标准库中的历史数据:建立CIP规范库,并生成分类号、主题词对照表。通过将出版社申报的原始CIP数据记录中“正书名、副书名、交替书名、合订书名、并列书名、分册名、附注项、内容提要”等字段分词,利用全文检索搜索引擎技术,在CIP规范库中查找相似的数据,为标引人员提示建议分类号和建议主题词,再由标引人员手工选取提示结果。
3.2 实施流程(见图2)
3.3 功能架构(见图3)
3.4 功能概述
3.4.1 全文检索
采用开源全文检索引擎(Lucene),解决目前数据库对文本信息模糊检索效率低问题,同时缩短在线生成辅助标引信息响应时间。中文分词采用汉语词法分析系统ICTCLAS。
3.4.2 CIP规范库管理
CIP规范库是独立的CIP数据库,数据来源为目前CIP系统中标准库数据。用户可以通过批量导入的方式将CIP系统的标准库数据导入到规范库中,相关用户在此基础上不断地完善规范库,使其形成CIP数据标准,同时生成分类号主题词对应表,如图4所示。
规范库管理功能包括:
(1)数据导入:在现有标准库中选中记录导入到规范库中;
(2)数据维护:可以对规范库进行修改、删除;
(3)批量修改:支持批量修改主题词和分类号。
图4 CIP规范库管理
3.4.3 词库管理
3.4.3.1 停用词库
由于书名、内容提要等信息中存在一些时间、地名等停用词,将这些词统一维护在停用词库,可以提高检索精度。
3.4.3.2 分类号主题词对应表
3.4.3.3 字段权重管理
字段权重可以由正书名、副书名、交替书名、合订书名、并列书名、分册名、附注项、内容提要等字段组成。字段权重越高,智能生成返回的主题词分类号的准确率越高。
3.5 实验结果
3.5.1 实验环境
联想ThinkPad T430i笔记本(内存:4G,CPU:i5-3337U),Tomcat 7.0
3.5.2 CIP规范库的建立
我们用CIP标准库的340多万条数目数据位基础建立CIP规范库,其中包括“CIPID”、“正书名”、“副书名”、“交替书名、“合订书名”、“并列书名”、“分册名”、“附注项”、“内容提要”、“主题词”、“分类号”等字段。将这些数据分词、存储、建索引后数据大小约4G。
3.5.3 检索输入
我们将出版社申报的原始图书信息作为输入内容。对输入内容按照中文分词技术提取关键词,作为搜索引擎的输入。
3.5.4 检索输出
输出结果是与输入内容相近的5个CIP规范库中的书目,包含所有字段内容和每个匹配书目的得分。
3.5.5 实验结果
单次全新检索的平均检索时间小于6秒(包括对输入内容提取关键词和检索出结果的整个过程)。通过人工判定,与输入内容最相近的主题、分类标引内容都排在返回结果的前面。
4 总结
本文在采用Lucene全文检索引擎包和中文分词工具ICTCLAS的基础上,制定了图书在版编目(CIP)自动辅助标引方案,并对该方案进行了初步测试。依据测试结果可以看出该方案能够针对出版社新报送的CIP数据快速生成辅助标引提示。实际应用中,可以调节关键词过滤条件(最低词频、最小词长度、最小文档频率、最多检索关键词数等),来优化效率和精确性。
[1]余 春. 自动标引研究进展[J]. 图书馆学研究,2012,04:18-22.
[2]苏武华. 汉语自动分词和自动标引方法研究[J].农业图书情报学刊,2004,07:103-105.
[3]王 莉,许 凯. 浅谈文本数据自动标引系统的设计[J].图书馆理论与实践,2013,06:95-97.
[4]王 昊,邹杰利,邓三鸿.面向中文图书的自动标引模型构建及实验分析[J].现代图书情报技术,2013,Z1:55-62.
[5]龙树全,赵正文,唐 华. 中文分词算法概述[J].电脑知识与技术,2009,10:2605-2607.
[6]熊泉浩.中文分词现状及未来发展[J].科技广场,2009,11:222-225.
[7]王志嘉,薛 质.一种基于Lucene的中文分词的设计与测试[J].信息技术,2010,12:50-54.
[8]李颖,李志蜀,邓 欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报(自然科学版),2008,05:1095-1099.
[9]黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012,12:246-247.
主题词对应表是依据CIP规范库自动生成,由三个字段组成,关键词串、主题词和分类号,通过中文分词工具获得的词语通过查找《分类号主题词对应表》的关键词串可以快速获得辅助主题词和分类号。