图书在版编目自动辅助标引方案初探

2015-04-07耿锐

中国科技产业 2015年10期

关键词：全文检索标引书名

耿锐

（北方工业大学计算机学院，北京 100144）

图书在版编目自动辅助标引方案初探

耿锐

（北方工业大学计算机学院，北京 100144）

本文论述了全文检索技术和中文分词技术的技术特征，给出了方案的实施思路、实施流程、功能架构等，并对方案进行了实验验证。该方案可以实现计算机辅助标引，可以有效提高图书在版编目（CIP）标引人员工作效率。

图书在版编目；全文检索；中文分词；自动标引

1 引言

图书在版编目（Cataloguing in Publication，英文缩写CIP），是指依据有关的国家标准为在出版过程中的图书编制书目数据，并将其印制在图书版权页上的工作。通过这种方式，图书和它的编目数据可以同时被图书馆、图书销售企业、政府管理部门和其他需要这一数据的人们所利用。我国的CIP实施工作从1993年起步至今，已经覆盖全部580余家图书出版社98%以上的图书， 2014年CIP数据的年编制量达到30余万条。

目前图书上是否印有CIP数据已经成为出版物标准化、规范化的重要标志之一。与此同时CIP中心已经建立起了一个全国唯一的、信息最全的图书印前书目数据库，实现了数据实时传输的网络编目，截至2015年8月底，CIP标准数据库已有书目数据近340万条。但逐年增长的图书出版量与CIP制作人员不足的矛盾日益暴露出来，特别是依靠手工标引图书主题和分类号的方式，已经无法满足CIP数据制作周期的要求。

本文探讨一种适合CIP工作的自动辅助标引解决方案，以求依托全文检索和中文分词技术，实现计算机自动辅助标引，提高标引人员工作效率，促进我国出版行业发展。

2 关键技术

2.1 全文检索技术

全文检索技术是针对大规模文字信息最高效的检索技术。全文检索是一种将数据库中所有文本与检索项匹配的检索方法。计算机索引程序通过扫描文本中的每一个词，对每一个词建立一个索引，记录该词在文本中出现的次数和位置，当用户进行检索时，检索程序依据事先建立完成的索引进行查找，并将查找的结果反馈给用户。全文检索系统是按照全文检索理论建立起来的，用于提供全文检索服务的软件系统。全文检索系统可实现全文检索，完全支持模糊检索、同义词检索、布尔检索等。全文检索系统可提供每秒上百次的并发检索支持，保证全面快速的响应用户检索需求。

本方案采用Lucene全文搜索引擎。Lucene是一个开源的全文检索引擎工具包，是一个JAVA编写的全文检索引擎的架构，其提供了完整的索引引擎和查询引擎。Lucene提供的简单易用工具包和程序接口，可以使软件开发人员方便的在目标系统中实现全文检索的功能，也可以此为基础建立起完整的全文检索引擎。

图1 中文分词处理过程图

2.2 中文分词技术

中文分词是中文信息处理的关键，它是信息检索、文本分类、机器翻译、自动标引的基础，如对于东方语言（如中、日、韩等语音）的文字内容，在做文字内容分析之前，一般需要采用分词技术将文字内容进行分词。在对文字内容进行分词的同时，也对整个系统的检索精度和效率有很大影响。分词系统在保证分词的准确、快速的同时，还要保证分词系统与全文检索系统的协调、配合。

图2 CIP辅助标引流程图

现有的中文分词技术主要有三种方法：（1）基于字符串匹配（词典）的分词方法，优点是较容易实现，但是精度不高；（2）基于理解（规则）的分词方法，优点是精度较高，但是规则不易维护；（3）基于统计的分词方法，优点是无需切分字典，依据词频统计，可以有效识别未登录词，但是效率较低。现有的中文分词工具主要包括：Paoding、Imdict、mmseg4j、IKQueryParser、ICTCLAS等。

经过深入比较，本方案采用中国科学院计算技术研究所研制出的中文分词工具ICTCLAS (Institute of Computing Technology， Chinese Lexical Analysis System)的 GB2312版本，主要功能包括中文分词；新词识别；命名实体识别；词性标注；同时支持用户词典。用户可以直接自定义输出的词类标准，定义输出格式；用户可以根据自己的需求，进行量身自助式定做适合自己的分词系统。分词精度达到98%以上，API和各种压缩后的词典数据均较小，是目前最优秀的汉语词法分析器。ICTCLAS全部采用C/C++编写，支持Linux、Windows等多种操作系统，支持C/ C++/C#/Java /Delphi等主流开发语言。ICTCLAS支持当前广泛认同的分词和词类标准。

图3 功能架构图

3 CIP辅助标引实施方案

3.1实现思路

依据CIP标准库中的历史数据：建立CIP规范库，并生成分类号、主题词对照表。通过将出版社申报的原始CIP数据记录中“正书名、副书名、交替书名、合订书名、并列书名、分册名、附注项、内容提要”等字段分词，利用全文检索搜索引擎技术，在CIP规范库中查找相似的数据，为标引人员提示建议分类号和建议主题词，再由标引人员手工选取提示结果。

3.2 实施流程(见图2)

3.3 功能架构(见图3)

3.4 功能概述

3.4.1 全文检索

采用开源全文检索引擎（Lucene），解决目前数据库对文本信息模糊检索效率低问题，同时缩短在线生成辅助标引信息响应时间。中文分词采用汉语词法分析系统ICTCLAS。

3.4.2 CIP规范库管理

CIP规范库是独立的CIP数据库，数据来源为目前CIP系统中标准库数据。用户可以通过批量导入的方式将CIP系统的标准库数据导入到规范库中，相关用户在此基础上不断地完善规范库，使其形成CIP数据标准，同时生成分类号主题词对应表，如图4所示。

规范库管理功能包括：

（1）数据导入：在现有标准库中选中记录导入到规范库中；

（2）数据维护：可以对规范库进行修改、删除；

（3）批量修改：支持批量修改主题词和分类号。

图4 CIP规范库管理

3.4.3 词库管理

3.4.3.1 停用词库

由于书名、内容提要等信息中存在一些时间、地名等停用词，将这些词统一维护在停用词库，可以提高检索精度。

3.4.3.2 分类号主题词对应表

3.4.3.3 字段权重管理

字段权重可以由正书名、副书名、交替书名、合订书名、并列书名、分册名、附注项、内容提要等字段组成。字段权重越高，智能生成返回的主题词分类号的准确率越高。

3.5 实验结果

3.5.1 实验环境

联想ThinkPad T430i笔记本（内存：4G，CPU：i5-3337U），Tomcat 7.0

3.5.2 CIP规范库的建立

我们用CIP标准库的340多万条数目数据位基础建立CIP规范库，其中包括“CIPID”、“正书名”、“副书名”、“交替书名、“合订书名”、“并列书名”、“分册名”、“附注项”、“内容提要”、“主题词”、“分类号”等字段。将这些数据分词、存储、建索引后数据大小约4G。

3.5.3 检索输入

我们将出版社申报的原始图书信息作为输入内容。对输入内容按照中文分词技术提取关键词，作为搜索引擎的输入。

3.5.4 检索输出

输出结果是与输入内容相近的5个CIP规范库中的书目，包含所有字段内容和每个匹配书目的得分。

3.5.5 实验结果

单次全新检索的平均检索时间小于6秒（包括对输入内容提取关键词和检索出结果的整个过程）。通过人工判定，与输入内容最相近的主题、分类标引内容都排在返回结果的前面。

4 总结

本文在采用Lucene全文检索引擎包和中文分词工具ICTCLAS的基础上，制定了图书在版编目（CIP）自动辅助标引方案，并对该方案进行了初步测试。依据测试结果可以看出该方案能够针对出版社新报送的CIP数据快速生成辅助标引提示。实际应用中，可以调节关键词过滤条件（最低词频、最小词长度、最小文档频率、最多检索关键词数等），来优化效率和精确性。

[1]余春. 自动标引研究进展[J]. 图书馆学研究，2012，04：18-22.

[2]苏武华. 汉语自动分词和自动标引方法研究[J].农业图书情报学刊，2004，07：103-105.

[3]王莉，许凯. 浅谈文本数据自动标引系统的设计[J].图书馆理论与实践，2013，06：95-97.

[4]王昊，邹杰利，邓三鸿.面向中文图书的自动标引模型构建及实验分析[J].现代图书情报技术，2013，Z1：55-62.

[5]龙树全，赵正文，唐华. 中文分词算法概述[J].电脑知识与技术，2009，10：2605-2607.

[6]熊泉浩.中文分词现状及未来发展[J].科技广场，2009，11：222-225.

[7]王志嘉，薛质.一种基于Lucene的中文分词的设计与测试[J].信息技术，2010，12：50-54.

[8]李颖，李志蜀，邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报(自然科学版)，2008，05：1095-1099.

[9]黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息，2012，12：246-247.

主题词对应表是依据CIP规范库自动生成，由三个字段组成，关键词串、主题词和分类号，通过中文分词工具获得的词语通过查找《分类号主题词对应表》的关键词串可以快速获得辅助主题词和分类号。