APP下载

CSCD引文检索中提高查全率的方法探析

2012-04-29谢桂苹刘斌

现代情报 2012年9期
关键词:查全率

谢桂苹 刘斌

〔摘 要〕CSCD作为国内最具权威性的引文信息源,其引文检索的满意度直接影响了各种科学评价的结果。本文结合实例,就如何提高CSCD引文检索的查全率,从来源文献的完善、检索词的选取及检索词间的逻辑组配等多种角度,提出了探讨性意见。

〔关键词〕CSCD;中国科学引文索引;引文检索;查全率

1 CSCD概况

中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库。收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊千余种,目前已积累从1989年到现在的论文记录300万条,引文记录近1 700万条[1]。

CSCD凭借其建库历史最为悠久、专业性强、数据准确规范、检索方式多样、完整、方便等特点,已经在我国科研院所、高等学校的课题查新、基金资助、项目评估、成果申报、人才选拔以及文献计量与评价研究等多方面作为权威文献检索工具获得广泛应用[2],深受用户好评,被誉为“中国的SCI[2]”。

CSCD检索系统除具备一般的检索功能外,还提供新型的索引关系——引文索引,使用该功能,用户可迅速从数百万条引文中查询到某篇科技文献(专著、期刊论文、会议文献、专利、学位论文等)被引用的详细情况,还可以从一篇早期的重要文献或著者姓名入手,检索到一批近期发表的相关文献,对交叉学科和新学科的发展研究具有十分重要的参考价值[3]。

学术论文的收录从论文产出的“量”的角度反映被评价对象的学术价值,而由于学术论文引用行为的目的性,使得引文从“质”的角度反映了被评价对象的学术价值[4]。因此,引文的计量与分析成为科学评价体系中最为重要的组成部分。CSCD作为国内上最具权威性的引文信息源,其引文检索的满意度也必然地成为关乎科研成果评价是否公正、准确的重要环节。

2 CSCD引文检索的基本流程

2.1 明确检索目的,检索相关信息

CSCD引文检索界面提供了被引作者、被引第一作者、被引来源、被引机构、被引实验室、被引文献主编6个检索字段,因此,应明确检索目的,根据检索内容,搜集检索课题中与6个检索字段相关的信息。

2.1.1 个人学术论文被引检索

一般应整理出:①作者姓名,英文姓名全拼。②作者单位,包括检索时间范围内作者服务过的所有单位。③已经发表的论文目录,包括中文篇名、英文篇名、期刊名称及卷期页、书名或专利号、发表时间;会议论文应包括会议名称、会议时间、会议地点,按照论文类型、语种分类,同时以论文发表时间排序。

2.1.2 来源文献检索

一般应整理出:①出版物所有历史名称的全称,全称拼音或英文名称;②中英文出版物名称以及各种缩写形式。

2.1.3 科研机构论文被引检索

机构所有作者学术论文被引情况的汇总。按“个人学术论文被引检索”课题提供相应的信息。

2.2 分析检索内容,确定检索途径

2.2.1 检索课题中包括学术论文收录要求

如果检索课题中包括学术论文收录的内容,可通过“来源文献检索”检索论文收录情况,包括某种刊、某个机构、某作者等的论文产出量。

2.2.2 检索课题中只包括引文要求

①个人学术论文检索:一般选择引文检索的“被引作者”或者“被引第一作者”字段。英文文献作者姓名的键入一般为“姓、名的全拼”或“姓全拼”、“名首字母”的各种缩写方式。为了提高检索结果的查全率,CSCD作者引文检索一般通过第一作者检索获取引文信息。②科学出版物检索:一般选择引文检索的“被引来源”字段。在该字段输入文献刊名、书名、会议录、专利号或其它一些名称的缩略式。③机构引文检索:选择引文检索的“被引机构”字段,在该字段输入要检索的机构名称的各种变化,可以使用逻辑算符“OR”和其他字段组合检索。

2.3 分析检索结果,及时调整策略

CSCD引文检索界面提供的6个检索字段之间均可进行逻辑算符进行组合检索,因而可根据检索结果返回情况,随时调整检索策略,通过几个字段相结合的途径,从多个入口进行引文的检索。并可限定论文被引年份和论文发表年份。

2.4 输出检索结果,出据检索报告

将选中的引文添加到结果列表中,选择“打印”或“下载”导出结果。整理检索结果,并根据读者要求将数据进行整理出据完整的检索报告。

3 提高CSCD引文检索查全率的基本方法

CSCD引文检索通过两种途径获得:

(1)从来源文献中获得,仅限于CSCD收录的中文期刊和中国出版的英文版期刊,由于引证文献中作者的多种著录格式,收录文献中所揭示的引用次数不是该文章的最终次数,仅限于参考。

(2)从引文检索界面实现。CSCD引文检索一般使用第一作者检索被引文献。引文检索时,如果不限定第一作者,虽然可以检索到部分非第一作者文献被引用的情况,但是检索结果不全。例如,某作者以第三作者发表的论文,如果引证文献中的参考文献只标注了第一作者姓名,那么在做引文检索时,用非第一作者姓名检索时就查不到,所以非第一作者被引文献检索时建议使用第一作者进行检索。

被引文献的表达:CSCD在做标引的时候没有将被引文献进行规范化著录,导致检索结果中同一篇被引文献可能出现多个命中,有时候还不排列在相近的位置,检索时需要格外仔细,因此,提高CSCD引文检索的查全率,不但要了解CSCD的编排和处理规则,还要不断地从实践中总结各种可能遗漏的情况和判断结果的方法。

3.1 完善来源文献信息

由于来源文献信息是核实引文检索结果的重要依据,而被评价对象在提供论文信息时往往存在论文目录不全、个别论文信息不全甚至错误、以中国出版的英文版期刊或发表的国际学术期刊论文缺少关键性英文信息等。因此,在实施检索前发现问题及时与论文作者沟通,将目录信息补充完整,或通过检索《中国期刊全文数据库》、馆藏OPAC系统以及网络搜索引擎等方式把目录清单补充完整。

3.2 查全检索词的多种缩写

3.2.1 被引作者

CSCD中英文引文的著录格式没有统一标准,中国作者名称及缩写形式多种方式甚至错误的拼写都可以检索到结果。

如:张树霖

Zhang shulin=(shulin zhang)

Zhang shu-lin=(zhang shu lin)

Zhang sl

Zhang s l=(Zhang s-l)

Zhang s

Zhang shl

(1)不同的拼写

例一:郑绵平论文的引文检索结果中同一篇文献的不同拼写(见表1)。

例二:郑绵平著作的引文检索结果中同一篇文献的错误拼写(见表4)。

为避免由于作者名拼写的不同造成的漏检,一般利用截词符或多种拼写的同字段组配方式检索,但如果检索结

果数量过大,就要采取分次输入检索词,并结合与其他检索字段的组配,以提高检索效率。

3.2.2 被引来源

对于中文语种的出版物,既要了解其更名历史,又要将其名称准确英译,并给出各种可能的缩写形式。

例:《物理化学学报》在CSCD索引中提供的全称及多种缩形式均有检索结果(见表5)。

为避免漏检, 英文刊名的检索可选取来源文献名称中的任意一个词作为检索词, 并与其他检索字段进行组配,检索结果与来源文献信息核对确认。

3.2.3 被引文献出版年

引文检索时,如果被引作者和被引来源检索结果量大时,可限定被引出版年和论文发表时间。但由于引文信息中的年段著录经常出现错误,如同一篇文章年不一致:

侯增谦 地球科学.1990,16(2):153 4

侯增谦 地球科学.1991,16(2):153 7

因此,利用该检索字段时,应将论文发表时间进行适当的扩展,以提高查全率。

3.3 宽泛检索字段的逻辑组配

被引作者、被引第一作者、被引来源、被引机构、被引实验室、被引文献主编、被引文献出版年和论文发表年之间均可进行逻辑组配,可以有效地提高查准率、查全率和检索效率。但因被引作者、被引著作均有多种拼写且各检索字段均有可能出现错误,因此,只有在单一字段的检索结果过于庞大的情况下,才使用不同字段组配的方式,但组配的字段不宜过多,更不能把检索词定的过于严格,应根据检出结果,灵活调整检索策略。

3.4 利用相关信息确认检索结果

在实际检索中,同一篇学术论文的引用信息经常出现差异。如:

4 问题及建议

通过以上案例分析,为了有效的提高CSCD引文检索的查全率查准率,CSCD数据库还需要不断的完善。以下是检索过程中常见问题及建议:

4.1 增加逻辑组合检索字段

能否给用户提供多途径的查询,是评价数据库的一个重要指标,方便用户检索的字段也同样重要,CSCD数据库中的逻辑组合检索项只有3项,逻辑组合字段不能任意添加,引文检索时,面对作者多种拼写方式时,不能一次完成检索,建议增加逻辑组合检索字段,以提高效率。

4.2 适量增加核心期刊和优秀期刊的收录

CSCD只收录国内出版的核心期刊和少量的优秀期刊,是影响查全率的因素之一,可以适量增加核心期刊和优秀期刊的收录。

4.3 增加精确检索

引文检索时,输入被检作者的各种拼写方式进行检索时,数据库检出的结果默认的是模糊检索,例如检索作者xiao d时,在作者项输入xiao d,检出结果包含Xiao D;Xiao D N;XIAO S D;XIAO D W;Xiao D M;D R Xiao;等等,必须使用英文状态下的引号括起来,建议增加精确检索。

4.4 著录标引规范化

CSCD中英文引文的著录格式没有统一标准,来源文献及作者名称的缩写形式多种方式甚至错误的拼写都可以检索到结果。检索过程繁琐,导致检索结果中同一篇被引文献可能出现多个命中,并且不排列在相近的位置,需要检索人员整合数据。建议加强对发表论文中参考文献著录的规范控制;也建议中国科学文献服务系统建立相应的机制,除更好地规范引文标引外,应及时地更改现有的不够准确甚至错误的标引,赋予CSCD更高品质的引文索引。

4.5 增加来源文献检索字段

检索字段少,建议适当增加来源文献所在页码、ISSN、ISBN号等相关信息的检索点,以提高检索效率。

5 结 语

CSCD引文检索是一种比较复杂的信息检索,如何制定优良的检索策略是关系到能否获得满意检索结果的核心问题。检索人员除了必须清楚CSCD的编排结构,编排时对特殊符号、非英文语种、著者名称等的处理规则外,应善于积累个案,善于将实际检索中所触及到的一些常见的典型问题进行汇总分析,不断提高引文检索的技巧,有效地保障引文检索的查全率与查准率。

参考文献

[1]http:∥sdb.csdl.ac.cn/indexzmore5.jsp[EB].

[2]乐平.用CSCD数据库作各学科定量评价工具有缺陷[J].科技情报开发与经济,2006,(10):238-239.

[3]周静怡,廖凤,刘小兵,等.CSCD个性化服务研究与设计[J].图书情报工作,2011,(7):106-110.

[4]赵蓉英,雷将,马瑞敏,等.我国五大数据库引文功能的比较研究[J].情报理论与实践,2008,(4):589-593,605.

猜你喜欢

查全率
基于LightGBM的气象数据质量控制方法研究*
基于迁移VGG和线性支持高阶张量机的驾驶行为异常检测
基于颜色网络图像检索方法设计及应用探讨
高错误率长序列的高敏感度比对
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
一种新的基于矢量量化的图像检索算法
基于颜色特征的生猪口蹄疫监测方法研究
基于临床领域本体的语义信息检索模型研究
浅议电子信息检索