文献信息检索中关键词的选择和使用
2016-06-11徐春燕
徐春燕
摘 要:文章主要介绍了关键词的概念和作用,以及从五个方面阐述了在文献信息检索中如何选取关键词。
关键词:信息检索 文献检索 关键词
在对文献信息检索的过程中,不少的信息用户在面对大量的信息资源时,仍不能找到满足自身需求的信息。出现这种现象,主要是因为信息用户对信息检索技巧与方法掌握的不足。关键词的选取就是信息检索环节中非常重要的一个环节,其中涉及了不少检索技巧,下面给大家介绍一下选取关键词的相关概念和选取技巧。
一、关键词的概念
关键词是直接从原文的题目、摘要或者全文中抽取出来的,具有实质意义的、未经规范化处理的自然语言词汇,对揭示文献内容有重要意义。被抽选出来的关键词可以作为标引词在索引中轮排,作为检索词进行检索。由于关键词表达实物和概念比较直接,不受词表控制,能及时反映新事物、新概念,目前被广泛地应用于手工检索和计算机检索系统中。关键词是未经规范化处理的自由词,除了禁用词,如冠词、介词、副词等,几乎所有具有检索意义的词都可用作关键词。
二、关键词的作用
关键词检索属于主题检索范畴,它的特点是:具有检索的直接性,能够反映主题的灵活性以及便于特性检索,查准率较高。利用关键词检索已成为计算机检索系统下检索者查找文献的主要检索途径之一。主题检索语言包括标题词、元词、叙词、关键词。其中,标题词、元词、叙词是经规范化的语言,也称为规范词或受控词。虽然规范词具有种种优点,但这种受控的语言具有标引难度大,标引一致性和专指性差等缺点。一般的信息用户并不熟悉受控词的相关规则及技术,使用起来比较困难。而关键词检索不受受控词表的控制,任何能揭示文献主题内容,具有检索意义的词语都可以用作关键词进行检索。检索者不需要去查相关词表及其使用规则,能很快理解和掌握这种方法。但是由于关键词语言存在大量的同义词、近义词、多义词和同形异义词,因此在信息检索中,关键词的选择恰当与否对查全率和查准率具有很大的影响。
三、关键词的选取
1.选择具有检索意义的词。在信息检索中,关键词的选择对与检索的效率起着有很大的影响。检索中的无关词过多,就会降低检索效率,返回的相关文献较少或者为零;检索词越少,返回的冗余信息越多,增加我们筛选相关信息的工作量。因此在选取关键词时,我们应选择对待检课题具有检索意义的重要词作为检索词。比如“对于信息素质的培养问题”,在这一课题中,真正具有检索意义的重要词为“信息素质”、“培养”,而“对于”和“的”以及“问题”这几个非重要词对于这一个课题没有实质的检索意义,因此本课题关键词为“信息素质”和“培养”。
2.尽量选全同义词。在《现代汉语同典》中对同义同的定义是:意义相同或相近的词。如“尊重”和“敬仰”,“计算机”和“电脑”。信息检索领域中的同义词比语法学上的同义词要更宽泛。包括学名和俗名,全称和简称,新称与旧称,外文形式及其简称。
3.优先使用代码。现在不少的信息都有自己的代码。例如,图书的国际标准书号ISBN、期刊的国际标准刊号ISSN、专利号、报告号、合同号、索书号以及元素符号、分子式、结构式、ISO标准号等。在检索的时候优先使用这些代码作为关键词能快速地检索到一批满足信息用户需求的信息,这将提高检索的查准率。例如想了解手机型号为NIKIA 5530XM的手机的相关信息,在百度搜索引擎的关键词输入框里输入手机型号代码“NIKIA 5530XM”就能检索到关于这部手机的图片、性能、报价等相关信息。
4.注意上位类词和下位类词的选取。上位词:指概念上外延更广的主题词。 例如:”花”是”玫瑰”的上位词,”植物”是”花”的上位词,上位词是相对某主题词的,有它自己的等同词、上位词、下位词、同类词。
下位词:指概念上内涵更窄的主题词。 例如:“大学图书馆”的下位词包括”重庆大学图书馆” 、”西南大学图书馆”,”苹果”是”水果”的下位词,下位词是相对某主题词的,也有它自己的等同词、上位词、下位词、同类词。
上位词、下位词的检索方法有两种,一种是直接采用“扩展检索”,这种力法是考虑主题概念的上位概念词。课题“玫瑰的种植”与“牡丹的种植”,将“玫瑰”与“牡丹”组配,结果等于向上位“花”的概念扩人,再与“种植”组配,完成了课题的要求。另一种方法是将其上位词、下位词并用。如检索“森林铁路”的有关文献,森林铁路是干线、岔线的上位词,反过来干线、岔线是森林干线的下位词。检索森林铁路时应用“森林铁路”的上下位词并用,即把“森林铁路”“森林干线”“森林岔线”几个关键词并用,扩展检索篇数明显大于用“森林铁路 ”检索的篇数。
5.英语关键词的选取技巧。在信息检索过程中,对于同一个概念的表达,往往可以使用不同的词汇。在英文检索的时候,情况也如此。例如:在检索关于“环境”主题的信息时,若只选取environment作为英文检索关鍵词,则会漏检。在英文中,“环境”这一概念还可以用surroudings,setting等词汇来表达,少选了其中的一个词,则含有该词的文献就不能命中,产生漏检。因此我们要掌握同一概念词的不同词汇,以提高查全率。另外,对于词根相同的单复数形式,时态不同的词汇等,我们可以通过截词检索技术对其进行检索。
四、结语
关键词是表达用户信息需求和检索课题内容的基本构成要素,关键词选取恰当与否将直接影响检索的最终效果,即检索的查全率和查准率。因此在检索课题时,应充分分析课题内容,对其主题概念和属性进行分析,选取恰当的关键词,进行相应的逻辑组配,再灵活选用各种检索方法和检索技巧,优化检索策略,才能提高检索效果,检索出用户满意的信息。
参考文献:
[1]马景娣.实用信息检索教程[M].杭州:浙江出版社,2004年:27.
[2] 沈艳红.信息检索中检索词的选择对查全率的影响[J].情报探索.2006.11