APP下载

学位论文主题标引中关键词的使用

2011-11-20全根先

图书馆界 2011年6期

全根先

(中国国家图书馆,北京 100081)

学位论文作为一种重要的文献资源,历来受到各国政府的高度重视。从1982年国务院学位委员会颁布《中华人民共和国学位条例暂行实施办法》以来,我国学位论文文献资源的开发与利用工作取得了显著成绩。截至2010年,中国国家图书馆已入藏博士学位论文26万多种,硕士学位论文50余万种,其中博士学位论文收缴率达到95%以上。[1]此外,中国社会科学院文献中心、中国科学技术信息研究所及全国各研究生培养单位,均对学位论文有不同程度的收藏与开发利用。学位论文的主题标引,是指在对学位论文内容进行分析的基础上,以一定的词表或标引规则为依据,将学位论文中具有检索识别意义的特征转换成相应的主题概念,并将其组织成表达信息资源内容特征的标识(主题词)的过程。对学位论文进行主题标引,则是对其数据加工、进而开发利用的必要环节;而在学位论文的数据加工中,关键词作为叙词标引的必要补充,是增强标引深度、提高数据质量的重要保证。

1 采用关键词标引的必要性

1.1 学位论文主题标引的客观要求

学位论文(尤其是博士论文)往往能追踪国内外科学研究的最新成果,站在学科的制高点上,对基础理论和重大前沿问题进行研究,选题新颖,内容专深,具有较强的创造性。同时,根据国务院学位委员会《关于下达2010年审核增列的博士和硕士学位授权一级学科名单的通知》,目前我国共有国家重点一级学科72个,二级学科303个[2]。如此广泛的学科,使学位论文的研究范围必然涉及社会科学、人文科学和自然科学各个领域,也决定了其研究课题的全面性和广泛性。随着经济与社会的发展,科学技术的不断创新,大量新学科不断涌现,并相互交叉渗透,使学位论文的研究领域日趋专深、宽广。

由于学位论文选题广泛、内容专深,新学科、新技术、新名词大量涌现,各类主题词表收录词汇概念滞后、专指度低等现象十分突出。虽然可以采取主题词组配标引、上位词标引、靠词标引及增词标引等方法,在一定程度上克服各类主题词表收词不足、专指性差等弊病,但总有一些学位论文文献即便采用上述方法也难以达到理想的效果。如在主题词的组配标引方面,“蓝牙技术”虽可采用“无线电通信”“移动通信”“通信协议”“技术”进行组配标引,但总不如直接采用关键词标引明确、简便;有关子宫肿瘤研究方面的学位论文,因子宫肿瘤包含了子宫肌瘤、子宫腺瘤、子宫肉瘤、子宫颈癌、葡萄胎、绒毛膜上皮癌等多种病情,单纯用“子宫肿瘤”进行主题标引,显然无法满足标引深度的要求。

1.2 弥补主题词表词汇之不足

目前学位论文主题标引中,主要依据《汉语主题词表》《中国分类主题词表》等工具书,后者是根据《中国图书馆图书分类法》(第三版)、《汉语主题词表》编制而成,可以实现分类检索语言和主题检索语言的兼容互换,因而被各类图书馆和情报机构广泛采用。该表于1994年由华艺出版社出版发行,2005年出版了修订版。修订后的《中国分类主题词表》对初版中的分类号、类名、注释、对应的主题词及其参照关系进行了全面而又系统的处理,增补了大量的新词,共收录分类法类目52 992个,正式主题词110 837条、主题词串59 738条、自然语言形式的入口词35 690条。[3]对于提高学位论文主题标引的专指度,无疑起到很大的促进作用。

但是,在学位论文主题标引工作中,经常会遇到既无相应的专指词又无法用组配标引、上位词标引或靠词标引来表达的概念,单纯依靠《汉语主题词表》《中国分类主题词表》等无法解决。这时,有必要采用各类专业词表,以关键词(自由词)的形式进行补充标引。以农业科学为例,《农业科学叙词表》涵盖了农、林、牧、农工、生物等40多个学科、240多个专题,共收录6.3万条词汇,《生物分类叙词表》收录6万余条。而《汉语主题词表》作为综合性的大型工具书,共收录自然科学与社会科学用词10余万条,其中关于农业科学词汇仅有6 000多个叙词(正式主题词),远不及上述两表有关农业和生物方面的词汇丰富。[4]如仅依据《汉语主题词表》《中国分类主题词表》进行主题标引,专指度明显不足。更何况各类专业词表本身也存在收词不足、概念滞后的问题。

1.3 适应多数读者的检索习惯

长期以来,受控的主题语言是图书情报人员熟悉的情报检索语言。但是,由于受控的主题词标引要求标引人员必须具有所标引的专业学科知识,掌握标引规则与方法,对于标引人员有一定的专业要求。对于大多数读者来说,由于没有经过这方面的专业训练,他们在检索某一主题文献时,只会用自己熟悉的词语进行检索,不太可能采用规范的主题词来检索。如有关“扬州八怪”的文献,根据主题词法标引为“画家”“江苏”“扬州”“清代”“传记”,大概不会有读者会采用以上主题词加以组配,进行文献检索。类似这样的例子,还可以举出不少。

另一方面,随着信息技术的发展和互联网的日益普及,以自由语言形式出现的关键词由于能更及时、更方便、更准确地表达文献的主题内容,已越来越为广大读者在文献检索实践所采用。早在Roport Starch的2001年调查报告中,就指出86%的互联网用户感到应当出现更有效、准确的信息搜索技术,[5]而采用自然语言检索使网络的交流更加人性化与快捷化。现在已有越来越多的搜索引擎支持自然语言搜索特性。采用关键词标引的文献,将更有利于读者的利用,充分体现图书馆所提倡的“读者第一,服务至上”的原则。对于学位论文主题标引来说,也是一样。

2 关键词标引的基本原则

在学位论文主题标引中,关键词(自由词)的标引一般有两种形式:一是作为叙词标引的补充,即在现有主题词表无法满足标引要求时,选用部分关键词作为叙词标引的补充和辅助手段,与叙词共同揭示学位论文的内容;一是直接采用关键词标引,全部主题标引内容记入610(非控主题词)字段,但在选用关键词时优先采用主题词表中的主题词,即便使用自由词,也尽可能规范统一,便于同类文献的集中。[6]关键词选取的数量取决于论文的主题内容。一般来说,单主题学位论文选用2—3个,多主题学位论文可多于5个,不宜超过8个。为了节省篇幅,本文在所举机读目录案例中略去了一些字段与子字段。

2.1 选择最通用、最专指的词加以标引

在学位论文主题标引中,如需采用关键词作为叙词标引的补充,宜选用对揭示学位论文主题内容最专指、最通用的词作为关键词。一些泛指性的词,应尽量避免或控制使用。

例1 机读目录格式:

2001#$a热休克蛋白47在大鼠脊髓损伤的表达及苦参素治疗大鼠脊髓损伤的研究$f何玉宝著$g杨有庚指导

6060#$a脊髓损伤$x药物疗法$x基因表达

6100#$a热休克蛋白(HSP)$a苦参素

热休克蛋白(HSP)是从细菌到哺乳动物中广泛存在一类热应急蛋白质。当有机体暴露于高温的时候,就会由热激发合成此种蛋白,来保护有机体自身。有的文献称之为“热应激蛋白”“热激蛋白”,因“热休克蛋白”最为常用,故用此词标引。

例2 机读目录格式:

2001#$a功能梯度材料相关的几个动静态问题分析及结构优化$f彭旭龙著$g李显方指导

6060#$a复合材料$x功能材料$x材料力学$x结构分析

6100#$a功能梯度材料

“功能梯度材料”(functionally graded materials,简称FGM),又称“梯度功能材料”,是指一类组成结构和性能在材料厚度或长度方向连续或准连续变化的非均质复合材料。现有文献多用“功能梯度材料”一词,故采用此词作关键词标引;此处“功能梯度材料”不宜省略为“功能材料”或“梯度材料”。

2.2 关键词的缩写、简称与分拆

在学位论文主题标引中,关键词不能随意使用缩写和简称。如果一个复合词分拆后能提供更多的检索入口时,就将其分拆成两个关键词,以增加检索途径。

例1 机读目录格式:

2001#$a严重急性呼吸道综合征(SARS)S蛋白重组腺病毒疫苗的构建及其免疫学研究$f郑尚永著$g毛积芳,潘卫庆指导

6060#$a肺炎$x基因工程疫苗$x抗体$x免疫学

6100#$a严重急性呼吸道综合征(SARS)$a非典型性肺炎

严重急性呼吸道综合征,又称非典型性肺炎,是由冠状病毒引起的一种呼吸系统传染性疾病,临床主要表现为肺炎。这里采用“严重急性呼吸道综合征(SARS)”“非典型性肺炎”进行关键词标引;又,“非典型性肺炎”不宜缩写为“非典”。

例2 机读目录格式:

2001#$a酪氨酸激酶抑制剂治疗晚期非小细胞肺癌的疗效预测及相关基础研究$f李钡$g陈子华指导

6060#$a肺癌$x药物疗法$x酶抑制剂$x蛋白激酶

6100#$a非小细胞肺癌 $a酪氨酸激酶

酪氨酸激酶抑制剂(tyrosine kinase lnhibitor)是目前抗癌药物研发的一个热点。“酪氨酸激酶抑制剂”一词中,“酶抑制剂”与“酪氨酸激酶”均具有独立的检索意义,故对此词进行分别标引。

2.3 关于词及符号的改写

在学位主题标引中,如遇到希腊字母、数学符号、化学符号等计算机不能处理或容易混淆的词及符号,则应尽量改写成计算机能处理和不易混淆的形式。

例1 机读目录格式:

2001#$a小麦抗盐突变体抗盐机理研究 $e Na+、K+离子累积;质膜K+通道;液泡膜H+转运;mRNA差示分析;PSⅡ光化学效率$f郭房庆著$g汤章城指导

6060#$a小麦$x抗性育种$x抗盐性$x钠离子$x钾离子$x核糖核酸$x光合系统

6100#$a突变体

此处将化学符号“Na+”“K+”分别以“钠离子”“钾离子”标出,而英文缩写PSⅡ则以“光合系统”中文名称标引。

例2 机读目录格式:

2001#$a用CMS实验的早期数据测量J/ψ产生截面的研究$f杨宗长著$g钱思进指导

6060#$a粒子物理学$x介子$x探测器

6101#$aJ/ψ 粒子

J/ψ粒子是由魅夸克(粲夸克)和反魅夸克组成的一类介子。故此处将“J/ψ”改写为“J/ψ粒子”进行标引。

2.4 外文关键词的标引

在学位论文主题标引中,如遇到用外文撰写的论文,或论文中对揭示文献主题有重要意义的关键词,一般应先将其翻译成中文,并将英文缩写著录在关键词的括号内。

例1 机读目录格式:

2001#$a用于磨削冗余机械臂振动分析与控制研究$f()海·莫迪(Herbert Okinyi Dimo)著$g金德闻,张济川指导

6060#$a冗余度机器人$x磨削$x振动控制

6101#$a机械臂

由于本文系用英文撰写,故关键词“机械臂”根据原文译出标引。

例2 机读目录格式:

2001#$a几种基于半导体涉及电荷转移的SERS及其增强机制研究$f杨立滨著$g赵冰指导

6060#$a半导体材料$x纳米材料$x氧化锌$x二氧化钛

6101#$a电荷转移$a表面增强拉曼散射(SERS)

本文题名中的英文缩写SERS,经译成中文,再作关键词标引。

2.5 一些专用名称、参数与数据作为关键词标引

在学位论文主题标引中,凡涉及地点、机构、人物、历史事件、文献资料名称,以及产品名称、型号及技术参数、重要数据等,如在主题词表中未查到,应根据其对揭示论文主题的重要性,据文中记述的关键词标引。

例1 机读目录格式:

2001#$a李德懋文学研究 $e兼与中国文学相比较$f徐东日著$g金柄珉指导

6060#$a文学研究$x中国文学$x比较文学

6100#$a李德懋(1741-1793年)$a朝鲜文学

李德懋是朝鲜英正朝时期“汉诗四家”之一,是朝鲜历史上著名的文学家,也是本文主要研究对象,故其名字虽非正式主题词,必须用关键词标引。

例2 机读目录格式:

2001#$a低温(约900℃)生成胶凝材料的机理及应用特性研究$f郑娟荣著$g孙恒虎指导

6060#$a胶凝材料$x充填材料$x低温$x尾矿处理

6101#$a900℃

此处900℃作为生成胶凝材料的重要参数,为增加标引深度,有必要将其作为关键词标引。

3 关键词标引中一些新词的处理

随着社会的发展、科技的进步,新的词汇在不断涌现。如何在文献标引中恰当地吸收新词以适应时代的发展,同时被吸收的新词又要经得起时间的考验,不至于昙花一现,背离主题标引中应遵循的文献保障原则,这是一个十分重要而又较难把握的问题。特别是对于学位论文这样研究新问题、新技术、新材料,处于科技与社会发展前沿的学术文献,新词在关键词标引中更是层出不穷。个人以为,在学位论文关键词标引中,对于论文中出现的新词,应采取以下三个原则。

3.1 无对应叙词,直接标引

对于那些新出现的、专指性强的新词,如果对于揭示学位论文主题内容有重要意义,在没有对应叙词的情况下,宜先用主题词进行组配标引,然后将其作为关键词标引。

例1 机读目录格式:

2001#$a基于双线性对的数字签名体制研究和设计$f崔巍著$g杨义先指导

6060#$a电子计算机$x密码术$x密码体制$x加密技术

6101#$a数字签名

数字签名是近年来随着计算机技术飞速发展而出现的一个新概念,就是通过某种密码运算生成一系列符号及代码,组成电子密码进行签名,来代替传统的书写签名或印章。在标引有关数字签名的学位论文时,宜先将主题内容组配标引为“电子计算机”“密码术”,再对“数字签名”作为关键词标引。

例2 机读目录格式:

2001#$a我国循环经济统计核算问题研究$f平卫英著$g向书坚指导

6060#$a自然资源$x资源经济学$x经济核算

6101#$a循环经济

循环经济(cyclic economy)即物质闭环流动型经济,是指在人、自然资源和科学技术的大系统内,在资源投入、企业生产、产品消费及其废弃的全过程中,把传统的依赖资源消耗的线形增长的经济,转变为依靠生态型资源循环来发展的经济。采用“自然资源”“资源经济学”对“循环经济”一词进行组配标引后,仍不能充分表达其含义,再用关键词加以标引。

3.2 有对应叙词,补充标引

对于那些已被社会上广泛接受、而正式主题词(叙词)很少被人采用(甚至很少有人知道)的新词,如果对于揭示学位论文主题有重要意义,建议在进行主题词标引后,再采用关键词作补充标用。

例1 机读目录格式:

2001#$a手机辐射对人体危害的研究$f李旸著$g逯贵祯指导

6060#$a移动电话机$x电磁辐射$x放射损伤$x电磁波

6101#$a手机

手机作为一种通信工具已得到广泛使用,人们也已习惯于用“手机”称呼这种通信工具,很少使用其正式名称“移动电话机”,故对其进行关键词标引。

例2 机读目录格式:

2001#$a参照群体影响下奢侈品牌消费行为研究$f姜凌著$g王成璋指导

6060#$a消费资料$x品牌$x消费者行为论

6100#$a奢侈品

奢侈品(luxury)在国际上被定义为“一种超出人们生存与发展需要范围的,具有独特、稀缺、珍奇等特点的消费品”,又称为非生活必需品。奢侈品牌首先来自于它所服务的奢侈品。因此,用主题词“消费资料”来标引“奢侈品”,既不能确切表达其含义,也违背人们的语用习惯,故对本文所论主题进行关键词标引。

3.3 新词的忽略

对于那些虽在当时较为流行,但正式文献中并不常用,或对揭示学位论文主题意义不大,或从发展角度看“生命力不强”的词汇,不妨先将其忽略,慎重使用。

例1 机读目录格式:

2001#$a“丁克家庭”的居住问题研究 $f梁旭著$g黄一如指导

6060#$a家庭问题$x居住$x不育

“丁克”的名称来自英文Double Income No Kids 4个单词首字母 D、I、N、K 的组合——DINK 的谐音;丁克家庭一般是指双收入、没有孩子的家庭。“丁克家庭”虽较为流行,但在正式文献中不常使用,因而不宜选用为关键词标引。

例2 机读目录格式:

2001#$a中国“黄金周”的政策效应研究$f杨劲松著$g张广瑞指导

6060#$a旅游经济 $x经济政策$x经济效果$x消费经济学

“黄金周”是从日本舶来的休假方式。1999年,国务院公布了新的《全国年节及纪念日放假办法》,决定将春节、五一节、国庆节的休息时间与前后的双休日拼接,从而形成7天的长假。推行这一休假制度的用意在于拉动内需、促进消费。但是,这一制度本身还处于政策试行、调整之中,因而不建议采取关键词标引。

至于一些网络流行语言,如“经适男”“孩奴”“蚁族”“刷刷族”“占坑班”“裸婚”“钓鱼执法”“躲猫猫”等,更不宜随意选用,作为关键词标引。

语言是一种复杂的社会现象,它变动不居,包罗万象。处于信息技术飞速发展的今天,借助于计算机、互联网络,可以快速地搜集和处理各种语言信息,并为文献主题标引中关键词的使用提供了便捷途径。事实上,情报检索语言发展的过程,就是一个不断自然语言化的过程。合理地使用关键词,作为学位论文主题标引的补充,对于加强标引深度、提高数据质量、适应读者检索需求,具有十分重要的意义。

[1]姚 蓉,方 怡.试论博硕士论文资源建设中的知识产权问题[J].现代情报,2010(7):6—9.

[2]国务院学位委员会.关于下达2010年审核增列的博士和硕士学位授权一级学科名单的通知[学位(2011)8号][EB/OL].[2011-03-03].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/moe_820/201104/xxgk_117375.html.

[3]侯汉清,李 华.《中国分类主题词表》(第二版)评介[J].中国索引,2006(2):25—29.

[4]曹力萌.关于农业学位论文的英文叙词标引[J].农业图书情报学刊,2005(3):158—160.

[5]竺晓岚.谈CNNIARC非控主题词的它使用[J].当代图书馆,2004(2):40—41.

[6]姚 蓉,方 怡.学位论文编目实用指南[M].北京:北京图书馆出版社,2007:308—317.