利用信息组织技术编制书刊索引探析
2015-09-08孙辉
孙辉
[摘要]本文分析传统书刊索引的知识揭示和定位功能,指出利用信息组织技术编制书刊索引可提高索引的质量和效率,保证丛书索引的一致性,并为复合出版的知识服务打下基础。基于上述思路,本文通过原型系统对中华人民共和国史领域的丛书索引进行实践。
[关键词]书刊索引;信息组织技术;主题词表
DOI:10.3969/i.issn.1008-0821.2015.01.018
[中图分类号]G254.92 [文献标识码]A [文章编号]1008-0821(2015)01-0096-04
索引是知识组织的工具。通过索引可以有系统地揭示各类文献的内容,将分散记载于大量文献中的知识初步地组织起来,以方便检索。过去,由于我国学术规范和评价体系不完善,图书期刊的索引编制不被重视。2012年新闻出版总署提出“按照国家最高学术出版的标准,探讨建立一套科学、完善、规范的学术出版评价体系。我们将在中国出版政府奖、国家出版基金和“三个一百”原创出版工程的评审标准中增加一条:凡是索引、注释不规范的图书一律取消评审资格。”本文基于国家标准《索引编制规则(总则)》(GB/T22466-2008),结合信息组织技术,就计算机辅助书刊索引编制进行研究和实践,主要探析以下几个问题:(1)索引的本质是什么?信息时代,全文检索和数据库能否代替书刊索引,书刊索引是否有必要存在;(2)信息组织技术是如何支撑书刊索引编制的;(3)实现书刊索引编制需要解决的实际问题有哪些以及如何实现。基于上述探析,本文设计索引原型系统,系统包含“主题词表模块”“文本标注模块”“索引整理输出模块”,实现《中华人民共和国史编年》清样的索引编制。
1.书刊索引的知识揭示和定位功能
书刊索引,一般指文后索引,是对某一部文献的内容作标引,并附在该书末尾的文献内容索引。其功能主要是简便查询过程,加快定位知识单元所在的文献或文献中的位置,其过程是对文献进行知识层次的解构和重构,方便用户将某一知识单元的文献或文献片段聚合在一起。在信息技术高度发达的今天,数字出版的技术和形式层出不穷,传统书刊出版不断受到挑战。书刊索引作为一项繁琐的劳动更加被忽视,人们认为,既然能够实现全文检索,何必需要文献内容索引。其实,传统索引的原理是建立全文检索和数据库检索的基础。在全文检索系统中,索引是不可缺少的部件,其过程一般是:通过分词词典对全部文本进行切分,对切分后的词语建立索引(或建立单字索引),其索引结构为“索引词+位置序列”——类似印刷版的书后索引,此处“位置”表示为该词汇在文献中的字符串位置,而书后索引的“位置”表示该词语所在的“页码”。另外,索引也是所有数据库系统不可或缺的部件,其索引结构也为“索引词+位置序列”,此处的“位置”是指数据库中的记录号。离开索引技术,数据库系统是不能实现高效检索的。因此,与全文检索不同的,书刊索引中的索引标目(索引项)是经过专业人士精心挑选出来,全文检索中“索引标目”指文本中的所有词汇,是“大数据”,此处的“大数据”不能提供关键信息,无法主动推送文献主题信息,用户只能通过不断检索来尝试定位重要知识单元。
复合出版更加强调“内容与内容之间的关联”,突出出版的知识服务功能,索引作为知识单元的组合引擎,在包括传统出版在内的所有出版形式中都是不可或缺的要素,现有的传统书刊出版中的索引可以为该作品的复合出版提供知识服务入口,已经出版的书刊索引可以为复合出版中建立统一的学科知识组织标准提供知识积累。此外,尽管数字出版模式出现多样化趋势,学术类书刊因其阅读深度,暂时不能告别传统出版,书刊索引作为知识揭示的关键手段,有着不可替代的重要作用。
2.信息组织技术与书刊索引编制
机编索引软件利用信息技术辅助书刊索引生成。孙琳对国内外索引软件尤其是国内索引之星软件和Word索引功能进行对比,认为当前的索引软件存在不足并对新的索引软件提出如下期望:支持多种类型的索引,支持多种文本类型,排序的多样性和准确性,自动编配参照系统以及实现概念标引等。本文认为,上述软件最大的缺点是不能重复利用已经出版的书刊索引的成果,对于同一套丛书,可能存在前后索引选词考量不统一的问题。已经出版的书刊索引是对文献的知识揭示,包含了索引工作者的智慧和汗水,如果仅仅作为一次性成果,难免可惜,也不利于丛书的统一性和完整性。信息组织即信息的有序化与优质化,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和排序,实现无序信息流向有序信息流的转换,从而使信息集合达到科学组合实现有效流通,促进用户对信息的有效获取和利用。书刊索引是印刷时代的一种信息组织方式,手工编制的书刊索引,在索引项选择、参照设定、页面摘录和合并等方面存在随意性和一定的差错率。利用信息组织技术中的主题词表技术和数据库技术可以提高书刊索引编制的质量和效率,并保证丛书索引的一致性和完整性,具体分析如下。
2.1基于概念组织索引款目
在书刊索引中,要求意义相同的标目统一合并为一个统一标目,统一标目尽量选用规范表达的词语,其他同义词虽然可以作为标目,但其后不包括页码,通过“见”项指向统一标目;在有紧密内在联系的标目之间,如果存在等级关系,可通过设立副标目、次副标目的方式来体现这种关系,如果存在其他关联关系,可通过参照标目“参见”其所关联的标目。在信息组织技术中,主题词表是规范的信息描述语言,它主要反映了两方面的关系,一是同一概念的规范语言与自然语言的关系,即主题词与入口词的关系;二是不同概念之间的属种关系和参照关系。可以看出,主题词表与书刊索引在概念的组织和表达方面具有一致性(见表1)。
学科主题词表包含了本学科重要术语,使用主题词表中的词汇标引书刊,可获得索引初稿;人工根据书刊索引初稿进行标目补充,再将补充的标目词汇增加到主题词表中以供后续标引。通过这种迭代方式丰富的主题词表,可继续用于同类学科书刊的索引编制,体现了学术用语的规范性,也有利于同一套丛书索引的统一性和完整性。此外主题词表可作为索引款目关系的标准,有助于构造索引款目的参照关系和排序等。endprint
2.2通过文本标注定位索引位置
文本标注用于定位词语在文献中位置,使用的是中文分词技术,一般采用的基于切分词表的词语切分方法,切分词表包含上述主题词表中所有的主题词和入口词。文本标注时采用的类似XML的语言,可转换成排版标记语占,便于在校样中突出显示,方便索引校对;由于索引标记是嵌入在小样文件中的,索引页码也由排版软件即时生成。这种手段改变了传统索引流程。传统索引流程中,为了保证页码的确定性,索引工作是在书刊的最后一个校次的校样上进行的,索引本身因校对次数少而不能保证质量,整个出版进程也不可控。通过文本标注定位索引的方法支持用户从初稿开始进行索引工作,用户在排版周期的任何校次上都可以核对和修改索引项,编辑可以在出版初期获得索引初稿,便于计算索引密度,把握索引篇幅,这样既保证了索引的高质量和完整性,也保证了出版进度和出版成本的可控性。
2.3基于数据库自动生成索引
通过文本标注获得索引标目的位置信息,还需要进行款目合并、款目等级定位、款目参照(“见”“参见”)关联、页码合并、款目排序等过程才能生成索引。由于主题词表本身是以数据库形式存储,文本标注后的索引标目与位置关系也以数据库形式存储,将两表进行对照,根据主题词表的概念关系调整索引表中的记录,将同一款目的页码合并到一个记录中,如果存在同义关系,只在主题词款目下呈列页码,入口词款目后跟“见”项,指向主题词;如果存在等级关系,则输出时,按副标目处理;对于连续页码,通过排序算法进行合并;最后利用数据库技术对索引款目进行排序。这样生成的索引基本符合出版需求。
4.讨论
4.1主题词表的知识来源
利用信息组织技术编制书刊索引,无论是文本标注模块还是索引整理输出模块都要用到主题词表,可以说,主题词表是该系统的核心部件。主题词表的知识是不断迭代生成的,最初的知识来源于学科主题词表、工具书,在实际文本标注后,用户会发现新索引项。这些新的索引项被添加到主题词表中并建立相关关联关系,等一校样完成后,索引款目基本定型,可以随时输出索引。由于中华人民共和国史领域本身没有主题词表,本文通过人物名录、职官志、百科辞典等工具书以及4卷本的《中华人民共和国史编年》校对,共获得收集人名概念3063个,涉及3158人物名称;收集地名概念1610个,涉及2188个地点;国家机构2396个,涉及3898个机构名称。
4.2索引编制与排版软件的关系
书刊索引的编制软件是寄生在出版软件之上的,一是借助排版软件即时生成索引;二是借助排版软件在校样中凸显索引项,便于在任何校次的校样中检查索引项。因此基于主题词表索引编制应该成为排版软件的一个功能,而不应该另起炉灶。本文当前是对方正小样文件进行处理,再通过方正排版预览效果。经多次试验,索引项采用下划线或着重符时,对版式影响比较小,但还是有个别地方影响版式,期待排版软件公司能关注这方面需求,在设计时兼容此类功能。
4.3索引编制是人机结合的工作
索引编制是人机结合的工作。本系统支持抽词标引,对于赋词标引,需人工进行。赋词标引后的索引项应该加入到主题词表中,供后续的索引整理输出。此外,在文本标注模块,由于机器的智能有限,单纯的文本标注容易出现的切分错误、漏标和歧义标注。切分错误举例如下:对“交通运输部门”标注出“交通运输部”;对“大兴调查之风”标注出地名“大兴”,对“我们曾三次建议谈判解决”一词标注出“曾三”人名。漏标漏标的原因有二,一是词表收词不全;二是部分概念无法通过抽词匹配。另外,文本中的自然语言有一定随意性,不是用固定的字符表示,造成无法机器匹配。例如“交通、公安两部”“我委、部同意人民、文学、美术、世界知识、中国青年、中国少年儿童、音乐、体育、商务和上海的人民、文艺、美术、少年儿童等13个出版社与兄弟国家相近性质的出版社”,此处机构都是以不完整的词汇出现,无法直接抽词标注。由于机器标注暂不考虑语法分析,故出现歧义标注。例如“邓小平同新西兰共产党代表团团长、中央政治局委员麦卡拉会谈”,此处的“中央政治局”如抽出,在文后索引中会与“中共中央政治局”页码汇合。另外,在主题词表构建过程中,概念之间的等级关系和同义关系也需要领域专家的审定。这些问题都说明,机器是索引编制的辅助工具,人工参与是不可缺少的环节。endprint