检索语言的表示形式及发展方向
2010-08-15孙赟星
孙赟星
(哈尔滨市科学技术情报研究所,黑龙江 哈尔滨 150000)
1 检索语言的定义
检索语言是信息检索系统存贮与检索所使用的共同语言。它是专门用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。由于自然语言不可避免地存在词汇上的歧义性,语义上的歧解性,不便用于标引和检索工作,因此情报检索领域出现了各种检索语言。 检索语言由具体的检索标识构成。包括分类语言、主题语言和代码语言。分类语言是以数字和字母相结合作为基本字符,以基本专业类目为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。用分类语言来描述和表达文献内容的加工方法称为分类法。
2 检索语言的表示形式
2.1 以词表的方式建立的综合词表和各类专业词表
受控检索语言是通过词表对检索语言中的同义词、同音词、多义词、同形异义词、近义词等进行规范化处理,建立各词之间的相互关系和位置。具体地说就是通过“用、代、属、分、参”来限定各词的语义和关系,通过词族可了解一词的上下位关系,通过用/代项可知道某词的同义词和近义词,对于采用主题法对文献进行主题标引并使文献按一定规律排列的加工过程来说,叙词表起到了规范用词的标准作用。
世界各大型情报机构都有自己的主题词表。例如:英国剑桥科学文摘CSA(Cambridge Scientific Abstracts)有主题词表(Thesaurus),作为标引和检索的查询工具。在我国,比较权威的是应用分类法组织文献信息的《中图分类法》和应用主题法组织文献信息的《汉语主题词表》,以及代表文献处理发展方向——分类主题一体化的《中国分类主题词表》。各个专业情报机构依据专业资料的特殊性又相继编制了各类专业词表。据不完全统计,国内已实际应用的词表有60多部,词表容量超过1万的有10部左右。我所《电子科技文摘》的编辑与组织就是依照《电子技术叙词表》进行主题标引的,同时建立的“电子科技文摘数据库”也以该表作为检索语言。
2.2 词表的联机显示
将叙词表输入到计算机中,应用菜单技术制成电子版的多窗口联动的显示界面,可同时显示一词条的相关关系(如中英文对照、分类号、用词代词等),有利于机辅标引时词表的使用和词表维护修订。中国国防科技信息中心研制的图书馆业务子系统(LibMIS)中的“文献著录和标引模块”,采用了以《国防科学技术叙词表》为主体的计算机辅助联机标引,依次通过“叙词导航”提供查询词库功能,通过“叙词定位”反映叙词词族关系,“叙词调整”使叙词进入到标引记录,通过“增加自由词”实现自由词标引。该中心2000年出版的电子版《国防科学技术叙词表》拥有叙词90000条,自由词2000条,在词表维护界面上可完全实现对词表的增、删、改以及对某词条的范畴号、用代词的界定。如此大容量的词表若印刷成书,其厚度将难以想象。计算机的应用以其高速度、大存储容量为检索语言的联机显示铺平了道路。
《计算机世界》的在线标引界面的叙词与自由词同时显示为标引人员提供了另一便利:自由词库也同叙词库一样变得“透明”起来:标引员甲标引过的自由词被存储在词库中可供标引员乙、丙参考使用;经过一定周期的积累利用词频统计,可将高频自由词转为叙词。在这里计算机内的自由词库为词表的扩充起到了统计依据。
3 检索语言的发展方向
3.1 基于词表的机辅标引与检索系统
90年代初开始的自然语言处理以及检索语言的机读化和联机化开始了检索语言应用的新纪元。1991年10月,美国情报学会(ASIS)在华盛顿举行第54届年会,会上讨论了文献处理技术的重点--检索语言技术。在检索语言机读化方面走到前列的美国医学图书馆和NASA的宇航情报中心介绍了他们的研究成果。以美国医学图书馆主题表MeSH和宇航情报中心的NASA叙词表及其支持的数据库为代表的专业情报界的检索系统历经10多年的应用与不断改进,发展成为今天占主流的基于控制语言(无论是主题词表、叙词表、关键词表、自由词表、中介词表、停用词表还是特例词表)的机辅标引和联机检索系统。
在国内,多年来情报界与计算机界的专家一直在探讨利用计算机软件技术实现文献标引、分类、编写文摘的自动化。近年来我国情报界已研制成多个自动标引系统,例如北京大学的“汉语科技文献自动标引系统”、上海交通大学和上海科技情报研究所合作研制的“中文科技文献的自动标引系统”等堪称为国内水平的代表作。
3.2 基于自然语言的检索系统
众所皆知,作为主题法(叙词法)处理文献依据的叙词表为标引提供了理论依据;若将叙词表显示在检索界面上将会为检索用户提供查词依据:根据检索到文章的多少按照词族表进行上位词扩检或下位词缩减。这将要求用户熟悉叙词表的编制框架和编制原则。是否能让用户完全使用自然语言提问检索呢?基于自然语言处理的检索系统是国内同行的另一个研究方向。“演绎情报检索系统”则是其中的一例。
传统的情报检索过程中用户所能操纵与检索的数据仅是实际存在于检索系统中的数据,这些数据称为实数据。由实数据和逻辑推理功能相结合可得到一种新型检索系统--演绎情报检索系统。新系统所占实际物理空间与传统情报检索系统相差无几,只是多了若干规则。正是由于这些规则,使系统实现推理,使用户能检索到没有明显存放着的虚数据。演绎情报检索系统的特点是以自然语言为检索语言,以自然语言为输出检索结果。而通常用叙词表表示的上下位关系和用代关系等都利用程序设计语言将规则理解和表示。与一般的情报检索系统相比,它除了有信息数据库以外,还有一个检索数据库,此数据库是由将情报检索专家的知识和经验及应用领域的知识归纳抽象成一系列程序子句构成的,从而真正实现了智能化检索。基于自然语言处理的检索系统除了演绎情报检索系统,还有单汉字检索系统、全文本检索系统。
综上所述,基于控制语言(词表)的检索系统和基于自然语言的检索系统都在这10年中得到了蓬勃发展。有人预言,以控制词汇(词表)为基础的模式向以自然语言的字(关键字)为基础的模式转变,是当今检索系统的发展趋向之一。但还有人声明,受控语言的主导地位不会被取代,一种结构良好的叙词表能够以任何方式支持主题标引和检索作业,包括机辅标引(或自动标引)和全文检索、自由词检索,都离不开各类词表的支持。上面提到的单汉字检索系统尽管没有以叙词表为基础的人工标引,但还需要“停用词表”(Stop List)支持其自动抽取关键词。
3.3 检索语言由前控向后控的发展
为了弥补无控制词表的不足,单汉字检索系统还需要建立后控词表,一种不供标引只供检索用的词表。当检索者为了查全某一主题的资料,而不了解相应的同义词和相关词时,只需输入一个自己以知的检索词,系统就能通过后控词表自动将有关同义词与相关词纳入检索式,并用“或”逻辑连接在一起,从而提高查全率。配备后控制词表是提高自然语言检索效率的有效措施。
3.4 受控语言与自然语言相结合的标引
传统的受控语言与自然语言共同使用,可起到优势互补的作用。这在国内外已形成共识。《电子科技文摘》的文献加工、组织排序即采用此种方式:同时用分类号(范畴号)、叙词(主题词)、自由词(关键词)标引一篇文献,检索时分类号、叙词、自由词皆为可检索字段。有人将分类号、叙词、自由词合为一体的检索方式称为整体化检索语言,实践表明,整体化检索语言是联机检索系统理想的语言。
[1]王伟新.BDS数据库检索[J].北京文献服务处.
[2]杜元清.美国情报学会第54届年会述略[J].情报理论与实践,1992,(3),52-53.
[3]李惠芬,王永成.演绎情报检索系统[J].情报学报,1992,11(1),5-10.