APP下载

W oS数据库收录论文文献级别用量指标与被引频次的相关性

2017-05-07付中静

中国科技期刊研究 2017年1期
关键词:重合次数论文

■付中静

1)新乡医学院期刊社《眼科新进展》编辑部,河南省新乡市金穗大道601号 453003

2)河南省科技期刊研究中心,河南省新乡市金穗大道601号 453003

期刊被引频次是期刊学术质量和学术影响力的重要评价指标,论文被引用说明论文具有价值,但是由于引用行为和引用动机不同,有些作者阅读的论文并没有被引用,这部分论文的价值如何去体现呢?下载量就应运而生,下载量可以测度上网期刊论文的扩散速率,可以研究期刊在网络环境下的传播效率。用下载量和被引频次衡量期刊的质量已得到期刊界同行的充分认可[1-2]。国外学者早就提出,高影响力论文一般是指那些被引频次较高和被引周期较长的论文,方红玲[3]认为高影响力论文包括高被引和高下载量以及核心论文(研究前沿论文)。有关国内数据库的研究较多,丁佐奇[4]对CJNM和JCPU被引频次TOP20论文进行分析,发现两种期刊高被引论文多数在发表后2~4年被引达到高峰,被引频次和下载量之间的相关性不强。王丽[5]对中国知网收录医药卫生科技类高被引论文与高下载量论文进行分析,发现下载量与被引频次无明显相关性。国外已有学者[6-7]对Science Direct数据库论文下载量和被引频次的相关性进行研究。由于Web of Science数据库一直没有提供下载量指标,因此这方面的研究曾经一度呈现空白。

直到2015年9月,汤森路透发布了5.19版WoS数据库平台,新增了“文献级别用量指标”,提供论文的使用次数(Usage count),包括2013年2月至检索日期的使用次数和最近180天的使用次数。孙学军提出“文献级别用量指标”其实就是论文的下载量[8],这一指标的增加有望弥补WoS数据库中论文下载量研究的空白。但是该使用次数是对论文全文链接进行访问或者对记录进行保存的次数,捕捉了用户尝试获取full-text的各种操作,同时包括将论文保存到 endnote(包括 endnote online和endnote desktop)的动作,这些记录先于下载而发生,并受到不同机构获取全文能力的限制[9],因此就WoS数据库平台来讲,点击和保存的行为反映了作者的使用动机,他们意味着用户的兴趣和行动,其使用次数不等于下载量。Wang等[10]较早对WoS数据库中图情领域5种期刊论文的使用次数展开分析,研究论文的使用模式,发现学者们更倾向于使用较新的文献,但是老的文献更会得到较多引用和较少的使用,较老的高被引论文使用次数也较大,希望从一个新的视角观察文献计量指标。

目前普遍认为文章被阅读次数越多,就越可能被引用,但是由于受学科领域、分析角度和统计方法不同的影响,关于二者之间的关系观点不一[11-12]。WoS数据库的使用次数和下载量有相似之处,但是两者并不完全相同,论文被使用说明论文具有一定价值,但是由于各种原因的限制,并没有将论文下载下来,这部分被使用的论文价值如何去体现呢?WoS数据库中论文使用次数和被引频次关系如何呢?哪些类型论文更容易被引用呢?不同年度表现规律如何?目前未发现国内学者对此进行分析。基于此我们进行了下面的研究。

1 资料与方法

1.1 数据来源

登陆WoS数据库,选择高级检索功能,以“WC=INFORMATION SCIENCE& LIBRARY SCIENCE”为检索词,限制出版时间为2013~2015年,更多设置选项中选择SSCI数据库,进行检索,数据收集时间2016年1月20日。(1)按照被引频次进行降序排列,将被引频次TOP5%论文(被引频次排行位于前5%的论文)添加到标记结果列表,并将数据信息导入EXCEL表。(2)按照使用次数进行降序排列(如无特殊说明,本文中使用次数均为2013年2月至检索日期的使用次数),将使用次数TOP5%论文(使用次数排行位于前5%的论文)——添加到标记结果列表,并将数据信息导入EXCEL表。

1.2 方法

收集被引频次TOP5%、使用次数TOP5%、两者重合文献使用次数(U1)、使用次数(180天)(U2)、被引频次等数据信息。按照以下方法进行分析:(1)分析不同文献类型的数量、U1、U2、被引频次分布情况;(2)采用SPSS22.0软件分析数据:单因素方差分析比较不同年度U1、U2和被引频次差异性。Spearman相关性检验方法分析论文U1、U2和被引频次之间的相关性。P<0.05为差异有统计学意义。

2 结果与分析

2.1 文献类型

2013~2015年SSCI收录信息科学与图书情报学论文 28990篇,被引频次 TOP5%、使用次数TOP5%论文1450篇,两者重合603篇(表1)。主要文献类型是Article,均达90%以上;其次是Review,远低于 Article。篇均被引频次:Review最高,Editorial Material和Article稍低,Letter最低。篇均使用次数:被引频次TOP5%论文篇均使用次数Review和Article差异不大,Editorial Material较低,Letter最低;使用次数 TOP5%论文、重合文献Editorial Material最高,Review和Article差异不大,前者Letter和Book Review较低,News Item仅1篇,且最低。

表1 三种排序下不同类型文献的使用次数、被引频次

2.2 重合文献指标

603篇重合文献语种全部为英语,Article为主要的文献类型,58.41%的高被引论文(或高U1论文)未被高使用或高引用。被引频次最高(72)的是2013年发表于MISQUARTISO的 Article,U1为78,可能和引文时间窗口较长有一定关系。U1最高(427)的是2013年发表于INFORM SYSTRESISO的Article,被引频次29,说明该论文被大量使用,但是引用却较少,可能被引高峰尚未出现,这种反常表现是否会引起U1和被引频次相关性较弱呢?2015年发表的论文被引频次最高者为The influence of social networking sites on health behavior change:a systematic review and meta-analysis,排行 132 位(被引频次12),之后排行较靠前的4篇分别为262位、263位、267位、484位,未发现2015年发表论文被引频次明显超过2013年者。仅1篇论文的U1(58)低于被引频次(62),2013年发表于 J AM MED INFORM ASSNISO的Review,可能与数据库数据不准确或者作者的不良引用行为(间接引用)有关;也可能会因作者所在机构购买权限限制,通过其他途径(Google scholar、百度学术等)获取该论文并作为参考文献附于文后,该文发表与WoS收录的期刊等也会导致被引频次大于U1。

整体比较显示,U1三年间差异不显著(表2,P>0.05),U2三年间差异显著(P=0.000),被引频次三年间差异显著(P=0.001)。两两比较结果显示,U2:2015年>2014年>2013年,2013年与2014年(P=0.000)、2013年与 2015年(P=0.000)、2014年与2015年(P=0.005)差异均有统计学意义;被引频次:2013年 >2014年 >2015年,2013年与2014年(P=0.002)、2013年与2015年(P=0.000)、2014年与2015年(P=0.001)差异均有统计学意义。

Spearman相关性分析结果表明,U1、U2和被引频次3~72(9.02±6.79)均存在弱相关性(表3),U1和被引频次相关性稍强,差异不大。对各年度进行分析发现,2013年,U1和被引频次、U2和被引频次均具有相关性(r1=0.284,P1=0.000;r2=0.357,P2=0.000);2014年,U1和被引频次、U2和被引频次均具有相关性(r1=0.239,P1=0.005;r2=0.214,P2=0.012);2015年U1和被引频次、U2和被引频次均无相关性(均为P>0.05)。

表2 不同年度重合文献U1、U2、被引频次比较

表3 重合文献U1、U2和被引频次相关性

2.3 被引频次TOP5%论文指标

被引频次TOP5%论文1450篇,英语语种1449篇,西班牙语1篇,Article为主要的文献类型。U1、被引频次最高的是二者重合文献中最高者。被引频次显著大于U1者为2013年发表于INFORM SYST RESISO的Article,两者相差398,在被引频次TOP5%论文中,29篇论文的U1低于被引频次,大量使用过的论文未获得引用。

整体比较显示,U1、U2、被引频次三年间差异均显著(均为P<0.05,表4)。两两比较结果显示,U1:2013年>2014年、2013年>2015年,差异有统计学意义(P=0.006、P=0.000);U2:2015年 >2014年>2013年,差异均有统计学意义(均为P=0.000);被引频次:2013年>2014年 >2015年,差异均有统计学意义(均为P=0.000)。

Spearman相关性分析结果表明,U1、U2和被引频次3~72(7.76±5.77)之间均存在弱相关性(表5),U1和被引频次相关性稍强。对各年度进行分析发现,2013年,U1和被引频次、U2和被引频次均具有相关性(r1=0.268,P1=0.000;r2=0.260,P1=0.000);2014年,U1和被引频次、U2和被引频次均具有相关性(r1=0.177,P1=0.001;r2=0.187,P1=0.000);2015年U1和被引频次、U2和被引频次均无相关性(均为P>0.05)。

表4 不同年度被引频次TOP5%论文U1、U2、被引频次比较

表5 被引频次TOP5%论文U1、U2和被引频次相关性

2.4 使用次数TOP5%论文指标

使用次数TOP5%论文1450篇,英语1440篇,葡萄牙语2篇,西班牙语8篇,Article为主要的文献类型。U1最高(749)者是发表于 TELEMAT INFORMISO 的 Article——Brain-computer interface:The next frontier of telemedicine in human-computer interaction,被引频次为1,2015年2月发表,这种反常的情况是否反映了该领域的热点,读者比较感兴趣,但是由于发表时间较短,被引频次还未表现出来?被引频次最高的是重合文献中最高者。仅1篇论文的U1低于被引频次,为重合文献中同一篇论文。

整体比较显示,U1三年间差异不显著(P>0.05,表6),U2、被引频次三年间差异均显著(均为P<0.05)。两两比较结果显示,U2:2015年>2014年>2013年,差异均有统计学意义(均为 P=0.000);被引频次:2013年 >2014年>2015年,差异均有统计学意义(均为P=0.000)。

Spearman相关性分析结果表明,U1和被引频次0~72(4.56±5.88)之间存在弱相关性(表7),U2和被引频次之间无相关性。对各年度进行分析发现,2013年,U1和被引频次、U2和被引频次均具有相关性(r1=0.318,P1=0.000;r2=0.352,P2=0.000);2014年,U1和被引频次、U2和被引频次均具有相关性(r1=0.132,P1=0.003;r2=0.169,P2=0.000);2015年177篇论文被引频次很低,100篇论文被引频次为0,读者较多使用新发表的论文,使用次数每天都更新,但是这些论文被引频次还未表现出来,U1和被引频次无相关性(P>0.05),U2和被引频次负相关(r= -0.106,P=0.016)。

表6 不同年度使用次数TOP5%论文U1、U2、被引频次比较

表7 使用次数TOP5%论文U1、U2和被引频次相关性

3 讨论与分析

3.1 文献类型

2013~2015年SSCI数据库收录信息科学与图书情报学被引频次 TOP5%(1450篇)、使用次数TOP5%论文(1450篇)以及两者重合文献(603篇),不同类型文献的被引用或使用情况也不同,Article显示度都比较高,说明Article是高影响力论文的主要文献类型,Review次之,也是不可忽视的文献类型,与WoS数据库的文献类型分布特征相似,再次验证Article具有较高的权威性和参考价值,是编辑组稿的主要方向[13]。

3.2 不同年度论文被使用和被引用情况

论文的引用可能更加标准化、规范化,只有被引用才能有真正的使用感;而阅读和下载可能是比较非正式的、潜在的使用。本研究发现,三种类别的论文排序中,U2三年间差异显著,2015年>2014年>2013年(均为P<0.05);被引频次三年间差异显著,2013年>2014年>2015年(均为P<0.05)。反映了该领域论文引文时间窗口越长,被引频次越高,最近180天学者们更倾向于使用新近发表的文献。和Wang等[10]对WoS数据库中信息科学与图书情报学领域的5种期刊论文的使用次数的研究相似,可能由于新文献更能引起读者的兴趣,获得引用的时间窗口较短,而老文献有较长时间被引机会,但是受读者关注较少。

3.2 论文被使用和被引用之间的关系

由于引用行为和引用动机的不同,有些引用并没有下载的过程,可能是由于阅读了纸质期刊,或者引用其他论文的参考文献;有些高下载量的论文可能由于文章的题名或者摘要吸引了作者,作者并没有下载就直接进行了引用;比如本研究重合文献中仅1篇论文的 U1低于被引频次,被引频次TOP5%论文中29篇论文的U1低于被引频次,这些论文有可能未被阅读或下载却直接被引用;当然其余大部分论文U1高于被引频次,和有些学者所提出的有些论文虽被阅读或下载但是并没有引用行为发生的观点相似[14],因此对使用次数的研究可以更能反映到作者或读者的兴趣,使用可能比引用更具快速获取、方便收集、范围广的优势。

被引频次TOP5%、使用次数TOP5%、两者重合文献中,U1、U2和被引频次之间相关性不够强,提示了论文使用与被引用之间存在的共性较弱,和不同年度表现有关。陆伟等[15]对CNKI收录19种图情领域期刊的研究表明,论文发表初期下载量与被引频次的相关性并不强,但是随着出版时间的延长,相关性逐渐增强,后又趋于平缓。本研究对各年度分析也发现,2013年、2014年引文时间窗口1~3年,U1、U2和被引频次具有相关性,且2013年相关性强于2014年,说明引文时间窗口越长这种相关性越大。数据收集时间为2016年1月,而2015年发表的论文引文时间窗口最长才1年,许多论文被引频次尚未收集到,由于读者最近180天较多使用2015年发表的论文,尤其是按照使用次数排行,56%论文被引频次为0,U2和被引频次负相关,引用和使用存在时间差,这可能是造成U2和被引频次无相关性的主要原因。

Jahandideh等[16]对Science Direct的下载量能否反映论文学术质量进行了探讨,发现文章在一定时期内下载量较高很可能是预兆着一段时期后高被引。使用次数直接反映期刊论文被读者使用的情况,刚发表不久的论文没有足够长的时间累积引用,而“文献级别用量指标”可以为此类论文的价值评估提供一些参考,特别是对建筑史学、修辞学等引文活动少的学科,或者是对护理学、经济学等产生引用效应较慢的传统学科来说更能反映读者的兴趣[9]。

被引和下载(或使用)是引文分析中最具代表性的绩效评价指标,可能受到学科领域、文献类型、出版日期的影响[6,17]。(1)不同学科领域论文被引和下载(或使用)不同,Moed等[7]发现 Science Direct数据库不同学科领域下载量、下载量与Scopus数据库被引频次的相关性有很大差异,顶级论文存在下载量和被引频次都较高的现象,可能和不同学科领域的读者和作者数量不同,文献类型和内容不同有关。(2)不同类型文献的被引用或被使用也不同,本研究中被引频次TOP5%、使用次数TOP5%、两者重合文献中Article数量较多,Review次之。但是Review篇均被引频次较高,Article稍低,部分 Editorial Material不可忽视。Review和Article篇均使用次数差异不大,部分 Editorial Material篇均使用次数不可忽视。有学者对不同类型文献对 IF的贡献进行研究[13],发现 Article和Review的贡献较高。根据学科特色,有针对性地加强不同类型文献的选题策划,可能更有利于期刊的影响力的提升。(3)论文发表时间越早被引用的可能性就越大,本研究中2013年出版的论文最多,被引频次也最高,和Wang等[10]研究发现较老的文献获得较多的引用的观点相似。引文分析具有相对滞后性,有文献认为论文发表后2~4年达引用高峰[3-4],而使用次数可以较早反映论文价值,将科学评价活动提前。但是由于WoS数据库中使用次数的记录从2013年2月开始,因此本文统计分析时的时间跨度虽约为3年,但是部分论文发表后被引时间较短,被引高峰可能未表现出来,这也是本研究的局限之处,接下来将规避这一局限性,增加被引观察时间,从长期表现规律来进一步研究。

4 小结

本文初步观察WoS数据库收录信息科学与图书情报学领域的论文使用次数和被引频次,发现论文引文时间窗口越长,被引频次越高,最近180天内学者们更倾向于使用较新的文献,还揭示了被引频次和使用次数之间的共性,共性大小与引文时间窗口有关,由于不同学科领域论文被引频次和使用次数不同,是否仍然存在这种规律呢?还需要多学科领域的长时间研究来论证。

[1]刘武英,段秀成.编辑出版领域最高被引论文特征分析——以2010—2014年编辑出版类核心期刊为例[J].科技与出版,2016(2):96-100.

[2]Martinez M,Herrera M,Contreras E,et al.Characterizing highly cited papers in Social Work through H-Classics[J].Scientometrics,2015,102(2):1713 -1729.

[3]方红玲.我国科技期刊论文被引量和下载量峰值年代——多学科比较研究[J].中国科技期刊研究,2011,22(5):708-710.

[4]丁佐奇.科技论文被引频次与下载频次的相关性分析[J].中国科技期刊研究,2010,21(4):467 -470.

[5]王丽.中国知网数据库中高被引文献与高下载文献类型分析——以医药卫生科技类文献为例[J].编辑学报,2015,27(5):503-506.

[6]Guerrero-Bote VP,Moya-Anegón F.Relationship between downloads and citations at journal and paper levels,and the influence of language[J].Scientometrics, 2014,101(2):1043 -1065.

[7]Moed HF,Halevi G.On full text download and citation distributions in scientific-scholarly journals[J].Journal of the Association for Information Science and Technology,2016,67(2):412-431.

[8]孙学军.SCI新增功能“文献级别用量指标”是个什么东东?[EB/OL].[2015-10-10].http://blog.sciencenet.cn/blog-41174-926981.html.

[9]段鑫龙.Web of Science-5.19更新介绍[EB/OL].[2015-10-10].http://v.qq.com/x/page/n0168gbqol0.html?ptag=blog_sciencenet_cn.

[10]Wang XW,Fang ZC, Sun XL.Usage patterns of scholarly articles on Web of Science:a study on Web of Science usage count[J].Scientometrics, 2016,10 9(2):917 -926.

[11]李文静.图书情报学核心期刊Web全文下载与被引对比分析[J].情报杂志,2010,31(2):30 -33,43.

[12]刘雪立,方红玲,苗媛,等.五种综合性眼科学期刊论文下载量与被引量的关系及部分论文的量引背离现象[J].中国科技期刊研究,2010,21(5):629 -632.

[13]付中静.国际权威期刊非可被引文献的引证特征以及对影响因子的贡献[J].中国科技期刊研究,2016,27(3):324-329.

[14]秦卫平,赵美玲,秦凯.高被引论文与研究热点探析——以马克思主义学科为例[J].科技管理研究,2013,(22):96-99.

[15]陆伟,钱坤,唐祥彬.文献下载频次与被引频次的相关性研究——以图书情报领域为例[J].情报科学,2016,34(1):3-8.

[16]Jahandideh S,Abdolmaleki P,Asadabadi EB.Prediction of future citations of a research paper from number of its internetdownloads[J].Medical Hypotheses,2007, 69(2):458 -459.

[17]张立伟,姜春林,刘学,等.图书情报学高被引论文引用现象的实证研究[J].图书情报工作,2014,58(16):116-121.

猜你喜欢

重合次数论文
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
依据“次数”求概率
电力系统单回线自适应重合闸的研究
考虑暂态稳定优化的自适应重合闸方法
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
2013年5—12月最佳论文