Scopus与SCI来源期刊影响力差异化分析*
2014-04-14刘筱敏
■刘筱敏 孙 媛 和 婧
1)中国科学院文献情报中心,北京中关村北四环西路33号 100190,E-mail:liuxm@mail.las.ac.cn2)日本国立情报学研究所,东京
Scopus的出现,打破了SCI①利用引文数据提供信息发现、信息导航和数据分析的绝对地位,虽然Scopus在数据集大小、数据检索、数据呈现等方面与SCI有不同之处,但在引文数据的揭示方面与SCI有相似之处,为用户利用引文数据了解科学的研究脉络提供了新的选择。
自2007年开始,Scopus数据库推出了系列特色服务,在信息分析方面取得了比较大的发展,英国皇家学会利用Scopus数据做出的一系列关于国际科研动态的分析报告更是引人注目。不少文献计量学、科学计量学者纷纷撰文对两个数据库的数据进行比较分析,例如Lokman I.Meho从人-机界面研究者的引用及H指数方面对Scopus与Web of Science(WoS)进行了比较分析[1],他认为仅从期刊比较研究者的引用数据,Scopus与SCI没有区别,如果考虑到会议文献(Conference Materials)的因素则Scopus改变了某些研究者的统计数据。éric Archambault从国家发表论文的角度对两者进行了比较,数据分析的结论是,对国家论文数量及论文引用统计,TOP25国家排名及50%的国家排名均没有发生变化,两个数据库的相关系数为0.99[2]。Loet Leydesdorff从不同学科的期刊实例出发,对比了两个数据库的特点,他认为两个数据库的不同在于数据处理的规范化、标准化、准确性方面,SCI由于历史的积淀,在这个方面更为成熟,而Scopus作为新的数据库有待于进一步发展,在来源文献的构成方面Scopus也正在向更为合理的结构发展[3]。Gorraiz J发现在药学领域,JCR中影响因子高的期刊在Scopus中也具有高影响因子,通过用户对期刊使用数据的调查,他认为有些用户常用的期刊没有被SCI覆盖,但Scopus收录了这些期刊,同时他认为两个数据库应对期刊分类有所改进[4]。
国外的学者的研究多从一个学科或选择期刊样本对两个数据库进行对比分析,解读不同样本量下,期刊、研究者的影响力差异。本文通过对期刊两年被引频次、影响因子、刊均施引频次的比较,尝试全面分析两个数据库来源期刊影响力差异化特征,以及两个数据库不同学科期刊指标的特征,进而说明数据库期刊的学科特点,为数据库的选择利用提供一些可借鉴的信息。
1 Scopus与SCI数据库概要描述
1.1 数据库收录对象特征描述
根据Scopus网站上给出的说明文档[5],Scopus数据库来源出版物的构成有以下的特点:Scopus只收录连续出版的出版物,包括期刊(Journal)、商业期刊(Trade journal)、丛书(Book series)、会议文献。这些出版物应该具备有ISSN号。其中期刊,是Scopus的主要构成,通常是各领域的学术性期刊。商业期刊,的最低要求是(1)至少有一页;(2)最少有一个作者。丛书,是指有丛书名、ISSN、卷或期号的图书,目前Scopus中有来自丛书的830000条数据。从2013年开始,Scopus图书覆盖将进一步扩大,包括专著、专业参考书和大学水平的课本等内容,图书这种覆盖深度和广度的提升主要是来自社会科学和人文科学的需求。会议文献进入Scopus有两个途径:一个是作为常规刊物的专辑,另一个是专业会议出版物。Scopus的会议文献只收录有全文的会议文献。在Scopus数据库中超过10%的数据是来自会议论文。由此可见,Scopus收录对象的多元化。在目前公布的根据Scopus计算的期刊引证指标,其数据统计范围来自于Scopus所有的收录对象。
从WoS的角度看,来源出版物覆盖了期刊、会议文献、专利、图书等等,从学科领域分为自然科学、社会科学、人文艺术等学科领域。因此,从文献类型到学科领域,基本与Scopus一致。但在数据集合的组成形式上两者存在根本的区别。Scopus将不同的文献类型,各个学科领域融合于一个数据库中,而WoS保持学科区分,文献类型区分的不同数据库的特点,形成了SCI、SSCI、A&HCI、BCI、CPCI等独立的数据库。SCI则是以期刊为对象,覆盖了自然科学、工程技术、医学等领域的数据库。在JCR自然科学版中展示的期刊数据仅来自于SCI,而不包括SSCI、CPCI等数据库对SCI期刊的引用。
Scopus收录的文献类型呈多元化状态,而SCI仅收录期刊,为分析对象具有可比性,本文选择的比较对象仅限于期刊。
1.2 Scopus与SCI来源期刊特点描述
Scopus期刊列表来自于Elsevier网站提供的截止到2013年9月的来源文献列表[6],该表中包括期刊、丛书、会议录名称,其中Scopus收录的正在出版的期刊有20697种。SCI的来源期刊以2014年1月15日在其网站(ThomsonReuters.com)下载的Science Citation Index-Expanded期刊列表为依据,品种数量为8613种。Scopus收录期刊数量为SCI的2.4倍。
通过期刊名称、ISSN、E-ISSN等数据特征进行SCI、Scopus来源期刊表之间进行比对,SCI来源期刊中仅有159种不包括在Scopus来源期刊集合中。Scopus、SCI来源期刊比对过程中,发现两者对期刊的处理方法有些许不同,例如当一种期刊有多个分辑时,可以处理为一种期刊,也可以处理为多种期刊,例如,Journal of Geophysical Research,分为 A-G 7个分辑,在Scopus中将其处理为一种期刊,而SCI中则处理为7种期刊。对于期刊的出版状态两者也有不一致的情况,Scopus认为期刊已经停刊或者改名,而SCI中尚认为正在出版,反之,SCI认为期刊停刊或者改名,Scopus认为期刊正在出版的情况也会出现。由于Scopus期刊品种量大于SCI期刊品种量,因此本文期刊品种及出版状态的认定以Scopus为准。
Scopus将期刊分为4个学科集合,27个二级类目,300多个三级类目,如果不计算社会科学、艺术与人文科学、经济与财经、商业管理、心理学5个二级类目,自然科学领域为22个二级类目。本文选择22个二级类目做为学科分析的基础,并采用Scopus的分类体系对未列入Scopus的SCI159种期刊进行分类。在Scopus中一种期刊可以属于一个及一个以上的类目。
根据表1的数据可以计算出,医学是Scopus、SCI两个数据库中期刊数量占有最高比例的学科,在Scopus中医学期刊数量超过了1/4,达到26.91%,SCI医学领域期刊占其总数的21.46%,两者基本相当。其他学科领域则表现出比较明显的差别。数学、物理、化学、地球科学、农业与生物科学、材料科学、免疫学、神经科学、兽医学等领域SCI期刊分布比例明显高于Scopus同领域期刊的比例。凡是SCI期刊分布比例高于Scopus的学科领域,两者之间的期刊数量差别较小,反之则期刊数量差别较大,说明SCI的期刊构成更为侧重自然科学基础研究领域。同时也说明相对应用科学研究领域而言,基础科学研究领域中两者期刊的数量分布较为接近。(见表1)。
2 基础数据描述
2.1 数据来源
对Scopus与SCI的比较不能脱离具体数据的分析,本文数据分析的基础是来自于SCImago和JCR。SCImago是西班牙研究团队利用Scopus数据从2000年至今出版的年度期刊统计指标(数据下载网址为:http://www.scimagojr.com),其中包括了影响因子、论文量、三年论文被引频次、SJR等各种文献计量指标。JCR是SCI出品的关于期刊的年度统计指标数据库,经典的指标包括影响因子、被引频次、论文量、H指数等。
表1 Scopus、SCI期刊分类表
本文选择了SCImago和JCR2010-2012年三年的数据作为分析的基础。需要特别说明的是,由于Scopus和SCI在三年之中期刊品种的调整,以及期刊名称、ISSN等重要信息的变化,JCR每年因指标过于失常不公布期刊引证指标等各种因素的存在,因此,本文期刊分析的对象以2012年SCImago与JCR公布的数据为准。由于这些原因,本文来自两个期刊指标数据库的期刊数量与第一部分提到的Scopus与SCI的数据概况有所差异。
2.2 数据指标
SCImago与JCR发布指标不尽相同,在所有发表的指标数据中,影响因子(IF)是两个数据库公布的唯一相同的统计指标。仔细对比影响因子的数据则发现两者数据处理过程中差异的存在。IF的定义是论文篇均引用次数,两个数据源相同指标的可比性不仅在于指标定义的相同、计算公式的相同,而在于计算基数的一致性,IF的计算基础是两年论文的数量。通过两个数据源的比较,我们发现,SCImago和JCR对论文数量的认定标准不同,两者存在一定的差异。例如著名的New England Journal of Medicine,在 SCImago中,2010-2011 年的论文量分别为1817和1816篇,而在JCR中仅有345和349篇,存在巨大的差异,这种差异直接导致影响因子的不可比较。为使得数据具有可比性,我们通过每个数据库的IF,分别计算一种期刊两年论文的被引频次,然后再计算学科刊均施引频次,根据学科刊均被引频次进行比较。具体做法如下:
首先,明确统计期刊数量。由于SCI与Scopus收录期刊的年度有所不同,期刊论文数出现年度缺失的情况,为规避因为论文量缺失带来的计算被引频次的失误,因此,将两个数据库分别仅有一年论文数据的期刊剔除,即2010或2011年两年论文量均不能为0,在这种情况下,SCImago期刊有17512种,JCR有7252种,两者重复期刊7128种。
在以上条件下,两个数据库的期刊学科分布情况如下:
表2 2012年SCImago与JCR期刊学科分布
其次,计算期刊两年论文被引频次(C)。根据SCImago及JCR的IF值,及两个数据库分别提供的2010年,2011年两年的论文量,计算出每种期刊前两年论文的被引频次,计算方法如下:
其中CJCR,CSCImago分别为 JCR和SCImago期刊两年论文被引频次IF和A2010,A2011均为各自数据库的数值。
第三,计算期刊学科刊均施引频次(T)。该指标用于观察学科内期刊对该学科领域中某种期刊被引频次的平均贡献度。根据Scopus对期刊的学科属性标注,计算每种期刊所在学科刊均施引频次。当一个期刊有多个学科类目时,每个学科类目的期刊数量不一致,因此每种期刊的学科刊均施引频次在不同类目中的数值不相同。
其中,N是每种期刊所在学科领域的期刊数量当期刊属于“General”类时,因为期刊为多学科的属性,因此,General类期刊刊均施引频次的计算公式为每种期刊的被引频次除以该数据库所有期刊数量。
3 数据分析
3.1 刊均施引频次比较
一般情况下,期刊数量越多,期刊被引用频次会随着期刊数量的增加而增加,通过对CJCR和CSCImago的计算已经得到验证。但被引频次的增加与期刊数量的增加有怎样的关系?我们采用影响因子的算法,计算两个数据库期刊学科刊均施引频次(T),用这个指标分析在某个学科中所有期刊对某种期刊影响因子的平均贡献程度。
计算T值后,将其分为四种类型第一种类型为Tj-jcr=Tj-SCImago。当两个数值之间差值在0~0.001时,我们认为两个数据库之间的学科刊均施引频次没有差别,视为两者相等,在表3中,可以看出这种情况的期刊数量极少,医学、农业和生物科学是较为集中的两个学科。
第二种类型为Tj-jcr>Tj-SCImago,在表3中,可以看出这种类型的期刊数量占有极大的数量,说明这些期刊被引频次主要来自于核心期刊的引用。期刊数量的增加没有同比增加期刊被引频次。换言之,期刊被引频次的增加没有在核心期刊范围内增长得那么快,平均而言在SCImago中每种期刊的施引贡献度都比较小。
第三种类型为Tj-jcr<Tj-SCImago,这种情况具有一定的期刊数量,主要集中于计算机科学、数学两个领域。这种类型明显受到期刊数量的影响,期刊数量的增加使得期刊被引频次得到了提高的几率。
第四种类型为两个数据库没有T值的期刊。两个数据库都出现了有论文量的数值但没有影响因子的期刊,这种情况比较复杂,有多种因素,有的期刊两年的论文确实没有被引用,也有的期刊属于期刊名称变化或者期刊被调整出数据库,或者因为期刊的一些行为没有计算影响因子等等,复杂的因素导致无法一一辨认,这种类型的期刊数量在每个学科中分布极少,因此忽略不计。
在本文采用的2012年的期刊数据中,SCImago的期刊数量为JCR期刊数量的2.41倍,综上所述,发现期刊学科刊均施引频次并没有因为期刊数量的增加而成倍增加,这一点与核心期刊存在的特征相同,即大量的施引期刊来自于少数期刊[8]。
表3 各学科刊均施引频次期刊数量分布表
3.2 期刊被引频次差异性比较
进一步分析两个数据库的数据特点,利用CJCR和CSCImago数据为基础,计算两组数据的差异性,希望能够发现不同来源期刊数量样本下期刊被引频次的差异性。
利用Excel中的F检验与T检验两个检验函数,求各学科的CJCR和CSCImago差异。首先利用F检验计算每个学科方差无明显差异的双尾概率,计算结果各学科F检验(array1,array2)>=0.05,表示两组数据的变异系数相同,则在T检验计算时选择单尾分布。用T检验计算后,得到各学科的p值。根据统计中通用的解释,当p>0.05时,表示两组数据之间无显著差异,反正则存在显著,当p值<0.01时,则存在显著差异。
在统计的22个学科中,除“Computer Science”、“Medicine”两个学科以外,20个学科的p值均大于0.05(见表4),表示两年被引频次没有显著的差异,可以理解为在20个学科中,虽然两个数据库的学科期刊数量存在差异,但没有对期刊两年的被引频次产生显著影响。JCR期刊在一定的期刊范围中已经获得了其影响力的地位。
表4 各学科Ttest检验p值列表
“Computer Science”、“Medicine”两个学科的p值小于0.01,说明这两个学科期刊的被引频次在不同的数据库中存在显著差异。我们以这两个学科为对象,试图分析差异性存在的原因。
从两个类目的期刊数量上看,在表2中可以观察到SCImago与JCR两者的差别不是所有类目中最大的,Computer Science类目中SCImago是JCR期刊数量的1.85倍,Medicine类目为2.22倍,而Health Professions类目中两个数据库期刊数量的差为2.61倍,General类目为2.59倍,显然期刊数量的差距不是期刊被引频次显著差异的根本原因。
在对“Computer Science”期刊被引频次差异性的分析过程中,我们再次审视了Scopus的数据构成,在本文的第一部分数据库概况中提到Scopus的构成包括了期刊、会议录和图书多种文献类型。根据Scopus的统计会议论文主要集中在工程技术、计算机科学和一些物理领域。Scopus计算机领域论文中的62.3%来自会议论文,工程技术领域的45.1%来自会议论文[4]。SCImago的数据计算是来自于Scopus所有的数据,因此,不能否认在计算机领域中大量会议论文对期刊引用的贡献程度。Lokman I.Meho(2008)利用Scopus和SCI两个数据库对22位计算机学科领域的学者进行引用频次及h指数研究,他认为如果仅用期刊数据来评估,SCI与Scopus没有重要的区别,但如果考虑到会议文献的话,则应该使用Scopus[1],这也说明了会议文献的存在在一定程度上改变了研究者统计指标的变化。另一方面,Scopus会议录中占有较大比例是工程技术领域,其p值为0.063,在22个学科中仅次于计算机科学与医学,可以看出会议论文对该类期刊的影响也是存在的。
医学领域没有大量会议论文对期刊引用的贡献,期刊引用差异性的因素是什么呢?分析医学领域以及相关领域,我们发现在医学期刊与生物化学、免疫学、神经科学、卫生保健、护理学、心理学、药学、社会科学之间存在较强的学科交叉关系,特别是医学与社会科学、心理学之间的交叉关系表现的尤为突出(见表5),在SCImago22个学科中,医学是与社会科学领域交叉期刊分布最多的学科。在SCImago中,医学与社会科学、心理学交叉的期刊分别为228、258种,比JCR同类期刊数量高了近5倍,而在SCImago中社会科学期刊和心理学期刊数量分别为3615、891种,JCR同类期刊仅为202和113种,两者数量相差悬殊,这些来自于社会科学与心理学期刊对医学期刊、医学交叉科学期刊的引用,使得SCImago医学期刊的被引频次与JCR产生了差异。由于JCR的数据分为自然科学与社会科学两个版本,无法合并计算医学期刊被自然科学和社会科学的引用,因此不能进一步对社会科学与医学之间的论文交叉引用关系做进一步的分析,是本文的不足。
表5 医学与其他学科交叉分布最多的期刊列表
通过计算机科学、医学两个领域期刊被引频次的差异性分析,发现一个共同的特征,不论来源文献是期刊论文、会议论文还是图书,只要论文量到达一定差异量时,不同样本量下的期刊被引频次会产生差异,大量的数据可能会引起期刊被引频次或者核心期刊的被引频次有明显的变化。Scopus中有530万余条数据为会议论文,其中160万余条论文刊登在期刊上,实际会议论文记录为370万余条数据,其中的62.3%为计算机领域的论文,那么依据Scopus与SCI的数据计算的期刊被引频次或者影响因子的基数有较大的差异。在医学领域的期刊指标计算中,JCR自然科学版不包含人文社会科学的数据,从而也产生了计算基础的较大差异。
3.3 期刊影响因子抽样分析
再对计算机科学、医学两个学科领域的期刊影响因子进行抽样分析。试图进一步说明期刊的差异性是来自于单纯影响因子数值的大小,还是根本性地颠覆了期刊的排序地位。
为避免两个数据库因论文数量差异而产生的影响因子不可比较,在两类期刊中选择了两个数据库2010-2011年论文量之差在-1与1之间的期刊,其中计算科学类有73种,医学领域有103种期刊。
将Computer Science的73种期刊,依据影响因子排序,SCImago与JCR的排名产生极大的跳跃。73种期刊中,影响因子排序名次变化在大于10位的就有23种期刊,其中ACM Transactions on Information and System Security在SCImago中排名第12,在JCR中排名第46,Quantum Information and Computation在SCImago中排名第13,在JCR中排名第31,两个期刊排序位次变化最大。将73种期刊因子制图(图1),可以明显地看出两个影子因子排序的跳跃性。进一步可以说明在SCImago中会议论文对计算机学科期刊IF的影响。用同样的方法,将Medicine的103种期刊进行影响因子的分别排序,SCImago与JCR的排名变化幅度较小,排序变化大于10位的期刊仅有5种,另有20种期刊排名没有变化,排名变化幅度最大的是PPAR Research在SCImago中排名46,在JCR中排名19,Sports Biomechanics在SCImago中排名63,在JCR中排名74。将103种期刊的影响因子进行制图,发现医学领域SCImago与JCR期刊影响因子的排序位次变化不大,并且从影响因子的数值上看,两者也非常接近,两条曲线基本重合。虽然在本文的第二部分中说明Medicine期刊在两个数据库中的被引频次存在差异,但从103种期刊的影响因子角度看,在两个数据库中期刊的表现具有一致性。
图1 计算机科学类73种期刊影响因子比较
图2 医学类103种期刊影响因子比较
对Computer Science和Medicine两个学科的73种、103种期刊的影响因子做TTest差异性计算,Computer Science的p值为0.001,小于0.05,两组数据存在显著差异。Medicine的p值为0.349,大于0.05,两组数据之间不存在显著差异。
两个学科期刊影响因子抽样比较,说明在Computer Science学科中,SCImago和JCR数据之间确实存在明显的差异,使用两个数据库数据时,应充分分析两者的数据差异,从而选择合适的数据源。在Medicine领域,在被引频次的计算中存在显著差异,但在影响因子抽样中不存在显著差异,这种情况有待于深入探讨。但也说明该领域两个数据库期刊的数值差异没有像Computer Science那么明显。
4 结论与讨论
通过SCImago和JCR 2012年度的统计数据比较,我们发现在22个自然科学领域中,20个学科的期刊引用特征在Scimago、JCR中没有明显差异,这些学科期刊的期刊影响力没有因为数据库期刊数量的多少发生本质性的改变。
统计数据表明,两个数据中的Computer Science与Medicine学科期刊特征存在显著差异。本文尝试分析这种差异产生的原因,通过分析Scopus数据构成以及SCImago、JCR指标计算的数据基础,发现在Scopus中收录大量的会议论文,计算机领域的研究者非常注重会议论文,其中的IEEE、ACM的系列会议是该学科领域的重要会议之一,这些会议论文被Scopus收录后,对期刊被引频次的构成产生了极大的影响。在Computer Science中抽样期刊影响因子分析,Computer Science期刊的影响因子排序位次产生极大的跳跃,影响因子的数值存在显著的差异,进一步证明了会议论文的施引行为对期刊引用指标产生的影响。在Scopus在Medicine中,影响因子排序位次排序变化较小,两个数据库之间的影响因子的数值没有差异,从数据构成分析及期刊学科特征分析,我们只看到Medicine期刊可能受到人文社会科学等其他学科交叉引用的影响,但这种影响还没有像Computer Science学科那么显著。
从数据统计的角度,仅能做宏观的比较,而期刊的施引行为具有复杂性,如果能逐一分析期刊之间的引用行为,则更能解读影响数据差异性的原因。但由于大量期刊互引数据的不可获得,为进一步的分析带来了障碍。
目前ThomsonReuters升级WoS的最新版本,推出了核心产品集的概念,在检索发现服务平台上核心产品集中包括 SCI、SSCI、CPCI、A&HCI、BCI等数据库,形成了既独立又可以融合检索的功能。在JCR的计算中,尚没有看到新的产品。如果JCR依旧保持ThomsonReuters传统的计算方法,即JCR自然科学版仅来自SCI-E的数据,那么JCR与SCImago期刊的数据差异依旧存在。如果JCR中每个期刊统计指标的计算来自于WoS的核心集,在自然科学与社会科学交叉,期刊、会议录、图书多类型整合的情况下,统计期刊引证指标,也许会与SCImago的指标更为相近,当然,这仅是一种推测。
不可否认,不论是ThomsonReuters整合的WoS核心数据集,还是Scopus以多元化文献、多学科数据打造的一个数据库,都是提供信息服务、信息发现的工具,如何找到更为重要的信息,对科研工作者来讲首要因素,这也是科学家关注核心期刊、核心团队、核心作者的重要原因。
1 Meho L I,Rogers Y.Citation Counting,Citation Ranking,and h-Index of Human-Computer Interaction Researchers:A Comparison of Scopus and Web of Science.Journal of the Association for Information Scienceand Technology,2008,59(11):1711-1726
2 Archambaulté,Campbell D,Gingras Y,et al.Comparing Bibliometric Statistics Obtained from the Web of Science and Scopus.Journal of the Association for Information Science and Technology,2009,60(7):1320-1326
3 Leydesdorff L,de Moya-Anegón F,Guerrero-Bote V P.Journal Maps on the Basis of Scopus Data:A Comparison with the Journal Citation Reports of the ISI.Journal of the Association for Information Science and Technology,2010,61(2):352-369
4 Gorraiz J,Schloegl C.A bibliometric analysis of pharmacology and pharmacy journals:Scopus versus Web of Science.Journal of Information Science,2008,34(5):715-725
5 http://www.elsevier.com/--data/assets/pdf-file/0019/148402/contentcoverageguide-jan-2013.pdf.[EB/OL]
6 http://www.journalmetrics.com.[EB/OL]
7 尤金·加费尔德著,侯汉清译,刘煜审校.引文索引的理论与应用.北京:北京图书馆出版社,2004