网络环境下学位论文主题标引工作实践探讨
2014-02-12田鹭璐
田鹭璐
(中国国家图书馆,北京 100081)
1 引言
改革开放以来,我国的学位与研究生教育事业飞速发展,学位论文数量逐年增长,学位论文已成为图书情报机构馆藏文献的重要组成部分。目前,我国研究生教育设置的学术型学位涵盖了13个学科门类,其中包括一级学科110个,二级学科386个[1],涉及社会科学、人文科学和自然科学各个领域,且该类文献大都是某一学科领域最前沿的研究成果,内容专深、宽广,学科交叉渗透,极具学术研究价值和使用价值。
学位论文绝大多数是非正式出版物,目前缺乏规范性,不利于编目人员对其进行整合,从而影响了该类文献的传播。通过对学位论文规范化、标准化的主题标引,可以把学位论文与编目员和读者三者联系起来,即通过检索主题词,便能在数据库中迅速、准确地检索到所需学位论文信息资源,达到为读者服务的目的。
2 学位论文主题标引的含义
学位论文的主题标引,是对学位论文主题内容进行分析、归纳并赋予其主题检索标识 (主题词)的过程,通常包括叙词法和关键词法(非控主题词)。叙词是指从自然语言中挑选出来,并经过规范处理后收入《中国分类主题词表》(简称《中分表》)、《汉语主题词表》或其他专业词表的词。所谓关键词,是指从学位论文中直接抽取,一般不加规范处理,直接作为检索的入口词加以标引。关键词标引可以准确地反映学科和主题内容,符合读者的检索习惯。
随着计算机网络技术的发展,关键词标引尤为重要。当用户检索关键词的频率统计达到一定数量时,《中分表》Web版系统便会增删改主题词,目前在《中分表》第二版基础上的《中分表》Web版已增补7 000多条学科主题、个人名称、地理名称、机构名称等概念款目,并更新所有数据的关系系统[2]。目前,国家图书馆学位论文收藏中心在进行学位论文数据加工时,采用关键词法标引,全部主题标引内容著录在610(非控主题词)字段。但在关键词的选用上,优先采用主题词表中的主题词,即便使用非控主题词,也应尽可能规范统一,以便同类文献集中,方便读者检索。
3 学位论文主题标引的质量要求
3.1 准确性
准确性是指对学位论文主题内容分析、提炼和转换为检索标识的准确程度,是衡量标引质量的首要标准。没有准确的主题分析,正确的主题标引就无从谈起。
例1:
机读目录格式:
2001#$a超冶金级硅的制备研究$f于站良著$g戴永年,谢克强指导
6100#$a硅太阳能电池$x硅$x真空冶金$x高压浸出$x动力学模型
解析:本研究是为快速健康地发展太阳能电池产业,而寻找一条不依赖现有电子级硅工艺的低成本湿法冶金新工艺。因此,“硅太阳能电池”一词可以准确地阐述该论文的主题,符合学位论文主题标引准确性的质量要求。
3.2 适度性
标引深度的适度性是指标引的网罗度要适中,标引的网罗度是指对文献内容进行标引的完备程度,具体表现为标引的主题数量的多少。在学位论文主题标引中,主题词的数量要求是3~8个。一般情况下,单主题学位论文主题词选用2~3个,多主题学位论文主题词可多于5个,但不宜超过8个[3]。如主题词过少,则会导致标引深度不够;如主题词过多,则容易出现标引过深的情况。
3.3 一致性
学位论文在一定程度上反映了某一时期内本学科专业最前沿的研究成果,所以在工作中会经常遇到一些《中分表》里没有包含的专业词汇,且这些专业词汇出现的频次还很高,故需要标引人员对这些作为关键词的专业词汇做统一处理。对于同义词,应选择最通用的词作为关键词,如不能判断,应在所选关键词后注明该词的缩写,便于相同主题的学位论文集中,日后有条件时做规范处理。
例2:
机读目录格式:
2001#$a柔性结构的特性研究及其在MEMS中的应用$f刘庆玲著$g翁海珊指导
6100#$a柔性连杆机构$x柔性结构$x机械设计$x微机电系统(MEMS)
解析:微机电系统(MEMS,Micro-Electro-Mechanic System)技术是一个新兴技术领域,其发展已经历了十多年时间,属于微米技术范畴。随着时间的推移和技术的逐步发展,对MEMS的研究正在不断增加,并变得更加丰富。在标引有关微机电系统的学位论文时,宜将“微机电系统(MEMS)”作为关键词,进行统一处理。
3.4 客观性
学位论文的主题标引要以论文研究的对象为主要依据,所选的主题词应能直接客观地反映学位论文的核心内容,切忌掺杂标引人员的个人观点。
例3:
机读目录格式:
2001#$a电磁超材料非线性特性理论研究$f武立华著$g王政平指导
6100#$a磁性材料$x非线性光学$x介电常数$x磁导率
解析:关键词包含“磁性材料”一词,但文中并未提到电磁超材料属于磁性材料范畴,属于标引人员的主观臆断。故正确主题标引应为:
6100#$a功能材料$x非线性光学$x介电常数$x磁导率
3.5 适用性
学位论文主题标引的适用性是指学位论文主题标引应从读者角度出发,在不违背主题标引规则的前提下,适当选用非控主题词进行标引,以满足读者的检索习惯,充分体现图书馆所提倡的“读者第一,服务至上”的原则,尽可能地为读者提供最佳检索点,从而提高检索效率。
例4:
机读目录格式:
2001#$a我国西南地区生物柴油原料麻疯树发展潜力研究$f吴伟光著$g黄季焜指导
6100#$a麻疯树$x大戟科$x野生植物$x油料作物$x生物柴油$x西南地区
解析:本论文以我国目前最主要、最具代表性的生物柴油原料——麻疯树为对象,围绕适宜种植的土地潜力、种植的经济可行性、未来发展潜力等重要问题展开研究。不难看出麻疯树一词对于揭示和描述文献主题内容来说是重要的、关键性的,可以作为检索入口词,如果单纯用“大戟科”进行主题标引,显然无法满足标引深度的要求,故“麻疯树”一词应该被选为关键词。
4 主题标引中的常见问题
主题标引是学位论文分类的主要手段,在主题标引的过程中,往往会出现很多的偏差,造成文献的漏检。笔者根据多年从事编目工作的实践经验,对学位论文主题标引工作中遇到的问题做以下探讨,以期提高学位论文编目质量。
4.1 主题分析有误,主题词误标
主题分析是文献标引的第一步,是根据文献标引和检索的需要,对文献的内容特征进行分析,提炼主题概念的过程。因主题分析受个人主观方面的影响最大,同时在对概念进行转换时,也易受个人影响产生不同的标引结果。
例5:
机读目录格式:
2001#$a涡旋波流动特性及过程强化$f刘凤霞著$g刘志军,周集体指导
6100#$a废水处理$x生物膜反应器$x涡旋流动$x斯托克斯流动$x计算流体力学
解析:通过主题分析,本文研究重点是利用涡旋波流动的特点,对废水处理用的涡旋波膜生物反应器进行了结构设计。因而主题标引将“废水处理”“生物膜反应器”标出,是正确的。如果对主题从流体力学的角度来进行主题标引,就会漏掉上述关键主题词,从而造成误标。
4.2 忽略隐性主题,主题词漏标
隐性主题是指隐藏在文献主题之中没有直接显露出来的概念。隐性主题在学位论文主题标引中较为常见,标引工作者往往稍不留神,就漏掉了学位论文中隐含的主题概念,从而影响文献的检全率、检准率。
例6:
机读目录格式:
2001#$a基于实测反射率光谱的太湖蓝藻识别与定量估算研究$f乐成峰著$g查勇,李云梅指导
6100#$a水污染$x湖泊污染$x藻类水华$x蓝藻纲$x遥感技术$x太湖
解析:通过主题分析,此文利用遥感技术对水体中的蓝藻进行识别,目的是为了对湖泊污染和富营养化进行预警预测。论文显性主题是蓝藻及藻类水华,而其隐性主题则是水污染、湖泊污染。此处将隐性主题“水污染”“湖泊污染”作为主题词标出是正确的。
例7:
机读目录格式:
2001#$a诺西肽发酵过程建模与优化研究$f牛大鹏著$g王福利,何大阔指导
6100#$a饲料添加剂$x抗生素$x诺西肽$x发酵$x工艺优化
解析:通过主题分析,此文的显性主题是抗生素诺西肽的发酵过程及其工艺优化,而其隐性主题则是诺西肽作为一种新型饲料添加剂来提高饲料转化率。此处,将隐形主题“饲料添加剂”作为主题词标出是正确的。
4.3 词的分拆和组合
如果一个复合词分拆后可以提供更多的检索入口,就将其分拆成两个关键词;相反,如果由两个词组成的一个专有名词,当没有必要用第二个词作为检索入口时,就将这两个词连接起来成为一个关键词。
例8:
机读目录格式:
2001#$a酪氨酸激酶小分子抑制剂的设计、合成及抗肿瘤活性研究$f孙敏著$g吉民指导
6100#$a抗癌药 $x药物筛选$x酶抑制剂$x酪氨酸激酶$x抗肿瘤作用
解析:随着生态环境的恶化,癌症患者猛增,抗癌药的研发刻不容缓。而酪氨酸激酶抑制剂则是目前抗癌药研发的一个热点。在“酪氨酸激酶抑制剂”一词中,“酪氨酸激酶”和“酶抑制剂”二者都具有独立的检索意义,故对该词分别标引,既完整地表达了论文的主题内容,又增加了学位论文的检索点。
例9:
机读目录格式:
2001#$a P型ZnO薄膜的制备及其结构、光学和电学性质的研究$f杨通著$g姚斌指导
6100#$a氧化锌$x半导体薄膜技术$x掺杂$x磁控溅射$x发光特性$x电性
解析:“半导体薄膜技术”是半导体材料制取方法之一,且该词是主题词表中的规范主题词,故不宜分拆成“半导体材料+薄膜技术”进行标引。
例10:
机读目录格式:
2001#$a宝石鲈营养需求的研究$f宋理平著$g安利国指导
6100#$a淡水养殖$x鲈鱼$x营养需要$x饲料添加剂
解析:“淡水养殖”一词是主题词表中的规范主题词,且该词完全可以表达“淡水鱼类+鱼类养殖”两个词汇的组合含义,所以没有必要用两个词汇进行标引,显得繁冗拖沓。
4.4 网络环境下《中分表》的修订对主题标引的影响
学位论文依据《中分表》进行主题标引。2010年3月17日,《中分表》Web版通过国家图书馆验收,在国际互联网上正式发布。新修订的《中分表》是我国规模最大的分类主题一体化的标引工具。为了适应新学科、新技术、新事物文献标引的需要,将OPAC数据库中出现频次较高的关键词规范为主题词,目前该表主题词增至120 815条,自然语言形式的入口词增至46 424条[4]。所以标引人员在今后的工作中要注意Web版的变更,以提高标引工作效率,保证学位论文主题标引质量。
例11:
机读目录格式:
2001#$a数字医学技术在器官移植中的应用研究$f黎程著$g方驰华指导
6100#$a器官移植$x影像诊断 $x图像处理$x图像重建
解析:器官移植是20世纪医学发展中最引人瞩目的成果之一。人们对器官移植的研究产生了极大的兴趣,使得近年来关于器官移植方面的学位论文激增。此次《中分表》的修订考虑到该词作为非控主题词出现的频次较高,所以新增主题词“器官移植”。
5 结语
[1]2012研究生招生重大改革[EB/OL].[2014-06-18].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s5147/2 01201/129366.html.
[2]《中国图书馆分类法》编委会.《中分表》Web版简介及链接 [EB/OL].[2014-06-18].http://clc.nlc.gov.cn/ztfzfbweb.jsp.
[3]姚蓉,方怡.学位论文编目实用指南[M].北京:北京图书馆出版社,2007.
[4] 《中国图书馆分类法》编委会.《中分表》、《中图法》Web版已于2014年元月更新发布 [EB/OL].[2014-06-18].http://clc.nlc.gov.cn/ztfxxdt.jsp#evt14.