关于文献关键词标引问题
2010-04-10河北工业大学科技情报研究所
河北工业大学科技情报研究所
〔天津市红桥区 300100〕 战英民
一、关键词标引的作用
(一)关键词标引
关键词标引(Key Word Indexing)是指人们通常所说的“提出(写出、找出)文献(包括论文、著作、报告、文件、专利文献等文字资料)的关键词”。近年来,其他类型的平面媒体、网络文献或视频资料也用关键词来描述、存储或检索。本文着重讨论文字文献的关键词问题。关键词是几个(通常是 3~8个)词或词组,它们能概括一份文献资料的主题。但是,关键词不同于文献的标题,关键词不成句,它们之间没有语法上的逻辑关系。关键词也不同于文献的摘要,摘要是比标题更加详细的能概括文献主题的文字简述。标引工作是给文献资料赋予“检索标识”的处理过程。 通俗地说,“标识”即标志;“检索标识”是文献检索(包括存储和查找)的“引路标志”。
(二)标引分类
按照使用检索语言的类型,标引可分为分类标引(写“分类号”)和主题标引(写“主题词”)。实际上,文献检索系统的建立是从文献作者这里开始的。例如,有的刊物要求作者在投稿时在文稿中既写出关键词,也写出分类号(根据文稿内容所属的学科、专业,按《中国图书馆分类法》第 4版的分类规定写出)。分类标引工作的难度不是很大,但是主题标引是有一定难度的。原因是,主题法文献检索是一种“新的”检索方法,是适用于计算机自动检索的。以主题词(Sub ject term),又称叙词 (Descrip tor)为检索标识,进行文献资料搜索。凡是检索标识所涵盖的,并由主题标识逻辑关系所控制的文献资料都可以成批地被查找出来。主题词标引是否准确、全面、规范,主题词排列是否科学、逻辑是否合理,将影响文献资料检索的准确性。由于标引人员在业务水平和工作经验上的差异,以及文献资料内容的错综复杂等原因,因此产生标引不当,甚至错误是完全可能的。错标、漏标(漏掉主题词)、过度标(主题词过多)和过粗标(主题词过少或逻辑关系混乱)都是常有的现象。情报检索标引人员的业务水平的提高,固然是提高标引质量和文献检索质量的重要因素,但是专业标引人员的专业学科知识水平毕竟有限,不可能掌握所有学科专业的知识。主题词的来源首先是文献资料作者自己标引的关键词。关键词的标引质量将直接影响文献检索的成功率(查准率、查全率和查找速度)[1]。
(三)关键词标引对于编辑出版机构的重要性
作为一个学术刊物或图书出版等编辑出版机构来说,必须要求作者尽量做好关键词的标引工作。同时编辑人员也应当把好关键词修改的关口。一个刊物在学术界的影响力是通过它的 “影响因子”来衡量的。影响因子是由其他刊物的论文引证该刊物中刊载的文章次数的多少,经过计算而得出来的。如果某刊物刊登的文章很有学术价值、有“创新”,但是由于文章的关键词标引不当,而很少被检索出来,也就很少被引证,甚至长期不被发现,其结果是降低了刊物的影响力。一些期刊的编辑部往往不对文章作者自己标引的关键词进行修订,因此它们刊载的文章长期不被引证,其原因之一就是关键词标引不当。凡是有编辑出版各种文献资料职责和功能的机构,如党政机关的秘书机构、司法机关等,它们书写、编辑和出版的各种文件资料的关键词标引与前述编辑出版专门机构的关键词标引有着同样的重要性。因此,编辑人员对作者自己提出 (标引)的文献关键词必须根据 《主题词表》和专业知识进行核对与修订。审稿人员和编辑人员应当熟练掌握关键词标引的技术、技巧,尽量保障关键词标引的科学性和准确率。
(四)关键词标引对文献资料作者的重要性
一位 (群)作者创作一篇 (部)文献作品的目的是参与社会上的情报交流,把自己的观点、方法、发明、经验等介绍给需要它的人们,以促进科学与技术的发展和社会进步。在信息化社会里,主题(词)法文献存储和检索的方法已经成为主流,这种方法的起点是作者自己作关键词标引。如果能够做到标引科学和准确,那么将大幅度地提高自己作品的被检索率。反之,关键词标引不当或者错误,而在编辑出版环节和文献存储过程中又没有被校正和修订,那么将大大降低作品的被检索率,甚至长期不会被检索出来。
二、主题词标引和关键词标引的异同
主题标引是指以词(词组)或短语作为文献检索标识的一种标引方法。文献存储是以主题词为引导的,而查找文献是以同主题词对应的“检索词”为“检索入口”的。这与传统的学科专业分类法文献检索是不同的。主题(词)法文献检索适用于计算机自动检索,也可以由人工检索。在国际上,英文主题(词)法文献检索是通用的。按照使用标引词的差别,主题标引可分为关键词标引和受控标引。关键词标引是自由标引,即由文献资料作者自己写出关键词。在写出关键词时可不借助检索语言工具书(一般是各学科专业的《主题词表》),而是按照作者自己的理解直接将文献中关键性的词及词组、或短语提取出来,作为检索标识[2]。
受控标引是指采用统一的、规范的检索语言来控制和限定主题词,而不能随意使用非标准词。各学科专业的主题词在该学科专业统一的检索语言工具书——《主题词表》中列出。主题词是经过各学科专业的专家和图书、情报与文献专家共同研究审定后收入《主题词表》内的。我国已制定出各学科专业的《主题词表》。鉴于中文(汉语)词汇的丰富性、复杂性、外来语词多、方言词多,以及汉语文字形态的特殊性,在计算机文字处理和文献检索识别上的难度等多种因素,《主题词表》中收入的词条,基本上是“一词一义”。例如,“Motor”一词,在汉语中就有“发动机”、“马达”和“摩托”等说法。在《主题词表》中只限定“发动机”一词为主题词,而不用其他词。因此,受控标引只能选用词表中规定的主题词作为文献的检索标识。
受控标引是文献检索服务专业人员的工作,有其相当的复杂性,如果没受过专门的培训,是难以完成这项工作的。有的刊物收稿时要求作者自己写出主题词,是不现实的。然而,这并不是说,作者在对文献进行关键词标引(自由标引)时,可以自由地、随意地和不受任何约束地选择关键词。下面的论述主要是就关键词标引问题加以阐述。
三、关键词标引的误区
(一)关键词标引的原则
关键词标引应当反映文献中论述的实质性主题内容(包括显露的和隐含的主题内容),选用最恰当、最专指的关键词。所写的关键词能反映文献中所提出的新论点、新技术、新成果,并且是本学科专业中被公认的、约定俗成的,直至是定型的、规范的、统一的和形成标准的名词术语。要以最少量的关键词,最完善、最准确地描述主题内容。
(二)关键词标引的一些误区
1.整个标题照抄。不假思索地将整个标题照抄下来作为关键词,特别是在标题很短,只有两三个词(词组)的时候。
2.对标题中的词(词组)不加选择地分成若干个单位照抄。例如,“关于强制采用国家标准计量单位问题”,关键词写成:“关于;强制;采用;国家;标准;计量;单位;问题”。实际上,只写:“国家标准”和“计量单位”两个词组即可,其他的词都是多余的。特别是“关于”和“问题”两个词,在关键词和主题词标引中,这类词属于没有实际意义的“通用词”。
3.将全文中的章节小标题都调出来当作关键词。例如,“文献传播刍议”,关键词写成:“文献传播;含义;要素;过程;特点;方式;功能;价值;原则;规律;效益”。实际上,只写“图书馆;文献传播”即可。因为文章是论述图书馆的文献传播问题的,这两个词(词组)可以概括文章的主题。其他词都是一般的通用词(泛指词),对这篇文章来说,没有专指性,可用,可不用。如“含义”,可说成“内涵”、“要素”,也可说成“要点” ,等等。
4.认为关键词的数量与文献的篇幅“成正比”,篇幅越大,关键词数量就越多。其实,这是不科学的。如论文《俄语科技新词汇术语的汉译规律》(5千字),关键词标引:“俄语;术语;科学技术术语;翻译;汉语”;而《俄汉机电工程词典》(80万字),关键词标引:“俄语;汉语;机械;电气;词汇 (或词典)”。这就是说,关键词的数量与论著的篇幅无关。
5.使用过长的、不规范的短语作为关键词。如“大中专院校学生的素质教育”,应当分解为:“大学;中等专业学校;教育;素质教育”。其中,“学生”可以省略,因为“学校”和“教育”都涵盖了“学生”。“大中专院校”是不规范且过长的口头说法。
6.使用非标准、不规范的术语。 如“电脑”(应为“计算机”)、“马达”(应为“发动机”)、“醋酸” (应为“乙酸”)、“扩印” (应为“自动化印片”)、“社科” (应为“社会科学”)、“马列” (应为“马克思和列宁”)、“镭射” (应为“激光”)以及“液化气”(应为“液化石油气”),等等。
四、关键词的标引原则:组配技术和标引规则
(一)标引原则
关键词标引总的原则是:能反映文献(论文、著作、报告、文件等)中论述的实质主题内容(包括显露的和隐含的概念);选用最恰当、最专指的术语(词、词组或短语)作为关键词。关键词能反映文献中所提出新观点、新技术、新成果或其他新的信息。关键词应当是本学科专业中被公认的、定型化的、规范的和标准的名词术语。要以最少量的关键词,最完整地和最准确地描述主题内容。
(二)组配技术
在文献中常常遇到许多自然语言词汇的复合词或短语(自然语言是指文献作者自由采用的语言词汇,这些词汇不是规范化的和收入主题词表的)。这些复合词或短语的概念很复杂,组成复合词或短语的独立词之间相互关系也很复杂,或从属、或并列,不宜用它们来作关键词标引。应该将它们分解开来,采用若干独立的、并列的关键词来标识。通过这些词之间的形式逻辑关系来表达出复杂的概念,这就是组配技术。通过组配技术,可以把两个或多个概念按照一定的规则复合起来,表示一个更专指的完整概念。下面举例说明,同时介绍一些运用组配技术的规律。
例1:半自动磨床。应分解成:半自动机床;磨床。此间,在 “半自动”的后面加了 “机床”一词,因为“机床”涵盖了 “磨床”。这样,在将来其他人检索 “磨床”资料,提出检索词时势必先将 “机床”一词作为检索入口。因此,如果只提出 “半自动”,而不提出“机床”,那么这篇文章就会被漏检。另外,“半自动”对这篇文章来说,不是专指的,而是泛指的,可以修饰大量的科技术语。“半自动机床”就是专指的了。“半自动机床”与 “磨床”的概念是相容的。它们的外延是部分重合的关系,也就是说,半自动磨床即是一种半自动机床,又是一种磨床。因此,用 “半自动机床;磨床”这两个对应的概念词来组配是很准确的。
例 2:食品包装用玻璃容器。关键词应为:食品包装容器;玻璃容器。如果标引为“食品包装;玻璃容器”,则是不对的。“食品包装”与“玻璃容器”并不相容,因为“食品包装”不一定专指容器,它也可以指包装技术、包装材料、包装标准或包装装潢。只有在“食品包装”后面加上“容器”一词,才能使文献检索机构的标引员做主题标引时不至于出错。
例 3:喷气式垂直起落飞机。关键词应为:喷气式飞机;垂直起落飞机。不能写成“喷气式;垂直起落;飞机”,更不能写成:“喷气式;垂直;起落;飞机”。否则,其文章就会被漏检。
例4:光化学反应机理。关键词应为:光化学反应;反应机理。后者不宜只写成“机理”,因为“机理”一词的泛指性太强,可以指任何机理。而加上“反应”一词,一下子把“机理”划到了化学反应的范围内,“反应机理”这个关键词就有了很强的专指性。
(三)专指性规则
选择关键词的时候,要使用最符合于文献主题概念的、最具专指性的词。换言之,要尽量避免使用那些与文献主题概念所属的学科、专业距离太远的泛指词,如理论、实验、原则、问题、研究、机理和规律,等等。即使选择的是专业术语,如机械、配件、动力、轴、车、水、压力、光和气体等词,也要适当加上限定词,以使其具有专指性。
例1:轴系的计算机辅助设计。虽然文献的主体是“轴”,但是在正文内容中却是指齿轮、皮带轮、链轮等传动零件上用的轴,因此关键词应写成:传动轴;计算机辅助设计。而不能将“传动轴”写成“轴”,因为只一个“轴”字,不能表明它属于机械零件类。尽管文献标题中只有一个“轴”字,但是必须根据文献主题,将其扩展为“传动轴”。
例 2:弯曲疲劳极限。此间有“弯曲”、“疲劳”和“极限”三个词。但是,不能把这三个词列为关键词,因为它们对于文献主题来说,都缺乏专指性。“弯曲”并不是材料力学的专指词,可以指许多专业学科的“弯曲”。同样,“疲劳”一词,如果不加以扩展的话,最容易联想到的是体育运动或人体科学类的用词。如果扩展为“弯曲疲劳”,那么就属于材料力学类了。“极限”最好扩展为“疲劳极限”,否则“极限”一词就太泛指了。因此,关键词标引成“弯曲疲劳;疲劳极限”是最好的[3]。
(四)主题分析误差
主题分析是写关键词之前的必要程序。主题分析是对文献内容进行分析,从中提炼出主题概念,据此写出最恰当的关键词。主题分析工作极为重要,关键词标引质量的好坏及以后文献被检索率的高低,首先取决于主题分析结果的优劣。
主题分析包括对文献的审读、主题概念的提炼和隐含主题概念的分析等步骤。隐含主题概念是指文献标题和摘要中都没有显露出来的概念。此概念只能从文献全文中去提炼,如果不提炼出来,关键词就无法正确标引。因此,文献标题和摘要最好能把反映主题概念的词(词组)包括进来,否则关键词就得从文献全文中去寻找。
主题分析误差,是指提炼出来的主题概念与文献中论述的主题概念之间的人为误差。这种误差是文献作者在标引关键词前,主题分析不准造成的。主题分析不准,必然造成关键词标引不准,并会导致这份资料不能被检索出来,或者很容易被其他不相干的专业学科的人员检索出来(但是由于没有用处,而弃用)。主题分析误差有如下几种类型,即:
1.主题概念提炼不全。提炼出来的主题概念少于文献中论述的主题概念。在大多数情况下,一篇文献的主题概念都不止一个。如果少提炼出一个,则关键词就会少标引一个。如果文献检索机构的主题词标引人员在做主题标引时,按作者自标的关键词抄录,那么就会形成“漏标”。以后有信息用户在检索与上述文献主题概念相同或相近的文献时,“漏标”的这篇文献就会被漏检,甚至这篇文献有如石沉大海、永远被埋没。例如,激光检测超声波探头聚集效果,这里应有“激光”、“激光检测”、“超声波探头”、“超声波聚集”等几个主题概念。如果漏掉一个“超声波探头”主题概念,那么有人检索关于超声波探头的文献时,就会漏检这篇文献。
2.主题概念提炼过多。提炼出来的主题概念多于文献中论述的主题概念,于是造成了过度标引。由于关键词标引量过大,造成主题词标引量也大,由此所产生的问题是:其一,主题词的专指度过深、主题概念过细、主题词过多。继而造成的结果是,用户在文献检索时,提出的主题概念没那么细,提出的检索词的专指度没那么深,因此上述的那篇文献就会检索不出来。例如,食糖代用品——甜味剂、木糖醇、蛋白糖、甜菊糖、糖精等的色谱分析,实际上只标引 “甜味剂分析;色谱分析”就可以了。如果标引成 “食糖;代用品;甜味剂;木糖醇;蛋白糖;甜菊糖;色谱;分析”,那么主题概念就太深了,也太细了。当有人想检索关于甜味剂的色谱分析时,只提出“甜味剂;色谱分析”两个检索词。那么,上述这篇文献就会漏掉。其原因是,检索词涵盖主题法检索某文献的主题词时,该文献就可以被检索出来,否则就会漏检。上述文献的关键词标引太细,像“木糖醇”一类的甜味剂名称都标引出来,就说明主题概念提炼太深了。其二,因为标引了无检索价值的关键词,在后期有人进行文献检索时,也提出一些无价值的检索词,就会检出一堆无关的和无参考价值的文献,这就影响了查准率。
3.没有分析出文献中隐含的主题概念。隐含的主题概念是指隐藏在文献正文中的,但是在文献标题和摘要中都没有显露出来的主题概念。因为这样的主题概念是隐含的,所以不容易发现、容易漏掉。因此,在提炼主题概念时,务必要透过现象看本质,以防漏标重要的关键词。例如:(1)高温环境中使用的合金。实际上,其主题概念是“耐热合金”,但是在标题和摘要中都没有显露出来。此间,“耐热合金”这一关键词是不可缺少的。 (2)聚合物燃烧的毒性气体。实际上文献隐含了“火灾”或“消防”主题概念。(3)烟囱排出烟尘的防治。它隐含了“大气污染”的主题概念。
五、通用概念词的标引规则
(一)通用概念词的标引
在科学技术论文、著作和其他文献中常常出现“问题”、“研究”、“方法”、“理论”、“设计”、“制造”、“原理”、“刍议”、“讨论”、“规则”、“探讨”、“分析”、“论证”、“调研”、“对策”和“措施”等,这些词都属于通用概念词之列。尽管这些通用概念词有一定程度的专指性,但是它们的外延广泛、内涵很浅。因此,通常只用来标引一些泛指性强的文献,如综述性文献。在专指性文献,即专门论述某个科学技术专题的文献中,上述的通用概念词不能不加选择地一一加以标引。否则,必将造成泛标。其结果是,不但没有起到加深揭示文献主题内容的作用,反而把专指性文献变成了泛指性文献来加以存储,进而会造成泛指性的综述性文献与专指性文献“混在一起”(因为都标引了通用概念词)。当有人检索某专业学科的文献时,如果某篇文献标引的主题词(援引了作者自标的关键词)中有通用概念词,而检索时的检索词又没有这个通用概念词,于是产生这样的后果:或者检出一大堆无参考价值的综述性文献(有时多至几百、上千篇),以致要查找的专业文献被淹没在大量文献中无法找到;或者因没有提出这个通用概念词,而检索不出所需要的专业文献。另一种情况是,当检索综述性文献时,由于作者的专业文献标引了通用关键词,而被检索出来,但是又没有用处。应当指出,并非通用概念词都不作标引,当它们与其他词形成有专指性的词(词组)成为专业词时,应当标引,如理论物理、发展研究、工业设计、差示热分析等。
(二)举例说明
例1:“治疗心率失常的几种方法”不必标引“方法”一词。
例 2:“青霉素过敏休克机制的研究”不必标引“研究”一词。
例3:“关于加强企业开发研究的措施”可以标引出“研究”一词,因为“开发研究”是这篇综述性文献的主题概念。“企业”一词应当标出,而“措施”一词可不标。“加强”一词不标。
六、标引深度的规则
(一)标引深度的概念
标引深度是指对文献的内容特征(如标题、摘要和文献全文)进行描述时所达到的深度,即对一篇文献所给予的关键词(在文献存储时再转化为主题词)数量的多少。标引深度确定的是否合适将直接影响标引质量和将来的文献检索效率,而标引深度的确定在很大程度上取决于关键词(主题词)标引是用于人工检索系统,还是计算机检索系统。对于人工检索系统来说,平均每篇文献的关键词选择2个~5个为宜;而对于计算机检索系统来说,平均每篇文献的关键词以5个~15个为宜。因为人工检索系统是由检索人员手工操作的,他们在查找文献时既根据主题词,也发挥个人的智能、思维和联想能力,所以即使只有几个主题词,也能将用户所需要的那些文献检索出来。计算机检索是靠信息用户提出的检索词与原来文献标引的主题词(根据作者自己标引的关键词转化而来)的对应和匹配程度,由计算机根据汉语词(词组)或外文词 (一般为英文)的形态(经由软件数码转换),在文献存储数据库中进行搜索而查找出来的。因此,它要求有足够量的,而且是恰如其分的文献主题词标引。
(二)举例说明
例如,“保持水果新鲜的方法”一文,在正文中论述了在地窖中用调节空气的方法对各种水果进行储藏的经验,从而较好地保持水果的色味。
如是人工检索系统,即手工检索系统的关键词标引为:水果;食品;保鲜;食品;储藏。
如是计算机检索系统,则关键词标引为:水果;食品保鲜;食品 ;储藏;地下储藏;空 (气)调 (节);储藏。
七、过度标引的后果和克服办法
过度标引是指不切合主题概念的关键词标引,有以下几种情况:标引了一些专指度过深的关键词(和以后的主题词),标引了一些没有实际情报价值的关键词,在同一标引深度上反复标引或乱标引。这样,就降低了标引质量,其结果是严重地影响了被标引文献的被检索效率。或许,这篇文献永远不会被检索出来。造成过度标引的原因,主要是作者撰写文献后,在标引关键词时,不善于进行主题概念分析和提炼。作者往往认为,只要把文献标题中的主要词(词组)提取出来就行了,并且认为关键词越多越好,可结果却适得其反。举例说明。
例1:焊接厚度不锈钢板。该文对“厚度”一词没有作具体的阐述。文中所表述的是对有一定厚度的不锈钢板进行焊接的技术。“厚度”只是捎带叙述的概念,是次要的概念。不锈钢板的焊接,当然要涉及不同厚度的板材。因此,“厚度”一词在该文献中并不是特别专指的术语,于是也就不用作为关键词提取出来。当有人检索不锈钢板焊接的文献时,会检出上述这篇文献。如果标引时加上“厚度”一词,在检索时,又不提取出“厚度”这个检索词,则上述文献就有可能漏检。
例2:对涂层颗粒燃料进行辐射实验,以确定封装燃料的石墨涂层最佳厚度。此文中的“厚度”与“例1”中的“厚度”不同 ,“例 2”中的“厚度”恰恰是文献中很重要的主题概念。如果没有这个术语,文献就没有意义了;而“例 1”中的“厚度”并不那么重要。因此,“例2”文献中的关键词必须标出“厚度”这个词。
八、关键词标引的术语规范性原则
(一)关于主题词标准问题
由于汉语字的构词、语音和形态有博大精深的一面,也有错综复杂的一面,在计算机中,中文文字的处理、存储、辨认和搜索都比英文复杂得多。英文只有26个字母、10个数字和若干个符号,经过数码变换编制成比较圆满的英文文献检索语言。而汉字就没那么简单了,光标准中文简化字的软件编码就比英文复杂得多,而且 “一词多义”和 “一义多词”的现象比比皆是,加之简、繁体字 (我国大陆的繁体字编码和港澳台繁体字Big5编码),异体字、古体字和自造简化字 (人们也能认识)及数字的各种写法等情况,如果不加以规范的话,根本无法进行计算机文字处理,更无法进行文献检索。为此,一方面,中文文献检索的国家主管机构要下大力气对各学科专业汉语术语、主题词 (检索词、关键词)进行规范;另一方面,也要求专业技术人员提高这方面的业务水平,尽可能掌握关键词标引技术,为国家中文文献检索系统做出贡献,也为自己的文献被广泛利用做出努力。
(二)不规范技术术语举例
例1:硫氧、碳氧、溴氧和铵海波在摄影冲洗中的应用。这里的几个化学物品的名称全错了。“硫氧”应为“亚硫酸钠”、“碳氧”应为“碳酸钠”、“溴氧”应为“溴化钾”,而“铵海波”应为“硫代硫酸铵”,这确实是在某杂志中出现的错误。前三个化学物品俗名是解放前到 20世纪 60年代在照相业使用的俗语,“铵海波”一词是错在以讹传讹。“海波”(Hypo)是定影剂硫代硫酸钠的德语商品名。后来,摄影化学家发现硫代硫酸铵的定影能力比硫代硫酸钠强,定影时间很短,而且易溶于水。“钠”和“铵”一字之差,于是有人编造出“铵海波”这个错误的术语。
例2:层析、薄层层析、气层、液层。这几个术语是20世纪80年代以前分析化学界使用的术语。 20世纪 80年代后期国家制定色谱术语标准和《英汉色谱技术词汇》(第 2版)(1985年,科学出版社出版,作者:战英民)的出版,上述几个术语分别应当是:色谱(法)、薄层色谱 (法)、气相色谱法、液相色谱法。
例3:不规范的缩写词。如环保(环境保护)、工管(工业管理)、农行 (农业银行)、成教 (成人教育)、基建 (基本建设)、汽配 (汽车配件)、光驱 (光盘驱动器)、软驱 (软盘驱动器)和彩电 (彩色电视机)等 ,这些不规范的缩写词都不能用作关键词,必须使用科学和完整的术语。
例 4:不规范的术语。如资讯(信息)、软体(软件)、程式 (程序)、的士 (出租车)、录影 (录像)、光碟(光盘)和菲林 (感光胶片)等来自我国港澳台的不规范术语,也不能用作关键词。
例 5:不规范的外文译音、商品名或俗称引出的不规范词(词组)。如福尔马林(甲醛水溶液)、哥罗仿(氯仿、三氯甲烷)、米吐尔(甲基对氨基苯酚硫酸盐)、海波(硫代硫酸钠)、傻瓜照相机(小型自动照相机、袖珍自动照相机或便携式自动照相机)、电眼或光眼 (光敏传感器)和“猫”(调制解调器)等 ,这些从外文译音、商品名或俗称引出的不规范的词(组),都不能用作关键词。
例6:国名、地名、单位名、人名和民族名等不能随意缩减作为关键词。如大马(马来西亚)、印尼(印度尼西亚)、京津 (天津和北京)、港澳(香港和澳门)、河大(河北大学)、河北工大(河北工业大学)、北大(北京大学)、中科院(中国科学院)、国办 (国务院办公厅)、沫若(郭沫若)和蒙族(蒙古族)等 ,这些国名、地名、单位名、人名和民族名等(以及在包含它们的词组和短语中),都不能随意缩减作为关键词。除非是已经固定的和规范化了的词(词组)和短语,如“马氏体”、“马列主义”、朝鲜(朝鲜民主主义人民共和国)和韩国(大韩民国)等可以作为关键词。
例7:对于化学品名称,应当采用标准化学命名,不要使用俗称。如甲酸(不用“蚁酸”)、甲醛(不用“福尔马林”)、乙酸 (不用“醋酸”)和碳酸钠 (不用“纯碱”)等。
例8:对于还没有形成规范的和普遍采用的一些术语。像“火用”(yong)字(物理化学用词)等还是词典中没有的。在标引关键词时,它是核心的关键词。为确保这篇文献将来能够被检索出来,并加以引证,可以采取另加一个解释性概念词(词组)或短语的方法,也可以在其后加上英语术语。
例9:对于商标名,一般不宜作关键词,除非是知名度很高的商标名。知名度低的商标名,极少有人用它来作检索词。如果非用这个商标名不可,就加上它的商品名或物质名。
九、关于英文关键词问题
(一)英文文献关键词的特点
前面已经谈过,由于汉语言文字的特殊性和复杂性,因此在主题法文献检索系统中,对关键词、主题词和检索词的要求很严格。关键词的标引,必须做到科学、规范和合理。否则,必将引起文献检索的麻烦:检索速度慢,甚至反复修改检索词也难以查出,查全率和查准率都很差;而英文文献检索的麻烦就少得多。除了英文文字的计算机处理比汉字要省事得多以外,还有一个重要因素,即英文文献的关键词 (主题词及以后的检索词)越来越倾向于使用自然词(非受控的主题词)。当然,所谓自然词,也包含了规范的和标准的专业技术术语。另外,对于中国人来说,在英语学习过程中,学的是标准英语,很少带英美国家的俚语及其他不规范的地方语言色彩。在这些背景下,我们撰写英文文献使用的英文词语是比较规范的,所标引的英文关键词也是比较规范的。
(二)英文关键词标引简则
在标引英文关键词的时候,尽量不要使用“and”、“ of”、“&”、“ -”、“* ”等连接词、介词和符号,也避免使用冠词。不要词组套词组,非用短语作关键词不可的,也不宜太长。只要标引的关键词能说明问题,用词量越少越好。总体来说,无论是直接写英文关键词,还是由中文关键词译成英文,标引规则和注意事项与中文关键词是基本一致的。只是英文关键词的用词不像中文关键词要求的那么严格,不必苛求必需是规定的和主题词表上列出的。但是,在各学科专业的汉语主题词表中所收录的规范词后,都列出了英文对照词;在专业汉英词典中收录的词汇都是精心选择、反复核实和论证的。各词条释文的第一个英文词,都是规范或推荐用词。选择它们作关键词是比较可靠的,应当尽量采用。
十、结 束 语
作者对文献进行关键词标引的目的是:为文献检索系统的标引人员进行主题词标引做基础工作。关键词标引质量对主题词标引将产生决定性的影响,主题词标引的质量将直接影响该文献今后被信息用户检索的几率。简言之,作者对文献进行关键词标引的目的是为了使信息用户能够顺利和准确地检索到自己的文献。因此,关键词标引工作是十分重要的和应当做好的。
关键词标引工作不是文献作者的个人行为,而是建立畅通的文献检索系统的重要组成部分,应当引起所有专业技术工作者的重视。关键词标引不是随意的,而是有规则的,所有专业技术工作者都应当掌握这些规则 ,把关键词标引做得科学、规范和合理。
文献作者在对文献进行关键词标引的时候,如果站在文献信息用户的立场上来考虑如何能找到这篇文献,再进行关键词标引,将是有益的。对于从事某一特定专业技术领域的研究工作的人员来说,掌握本学科专业的主题词(及尚未列入主题词表的学术界公认的专业术语)并不困难。同时,掌握关键词标引技术也不困难。只要大家共同努力,我们的中文文献主题法检索系统的建设就会日臻完善,早日达到英文主题法计算机检索系统那样的水平。
十一、文 后 话
本文意在探讨文献作者自己标引关键词应注意的一些问题,并非讨论文献检索系统的主题词标引工作。主题词标引是一项专业化的工作,是很复杂的。关于主题标引问题,有许多专著和论文。非图书、情报和文献方面的专业技术工作者,只要做好自己撰写的文献的关键词标引工作,也就可以了。另外,在进行文献检索时,如何提出检索词和如何处理检索词之间的逻辑关系,也是有一定工作难度的,需要掌握“布尔算子”和“布尔逻辑组配”知识,才能顺利地进行文献检索。这并不是要求所有的人都得掌握这些知识和技术,因为有专门的文献检索服务人员对信息用户提供帮助。然而,专业技术工作者在主题法文献检索系统查找文献时,必须向服务人员说清楚你要查找文献的内部特征(如学科专业、主题概念和自己从事的研究课题所需文献的范围等)和外部特征(如期刊名、出版地、出版年限、文献作者等),以便于确定检索词;同时要认真填好文献检索服务机构的“提问表”。在进行文献检索前也可以向图书、情报、文献工作者和做过文献检索的专业技术人员进行咨询。
十二、致 谢
拟撰写此文时得到了杨华同志的大力支持,又承蒙杨华同志对本文进行了认真的审读和修订,笔者对杨华同志表示衷心的感谢。
[1]钱起霖.汉语主题词标引手册 [M].北京:科技文献出版社 ,1985:1~12,200~208.
[2]钱起霖.汉语主题词标引手册 [M].北京:科技文献出版社 ,1985:1~12,200~208.
[3]战丽生,战英民.主题词型手工检索系统检索款目编排工作初探 [J].情报科学,1987,8(4):28~31.