APP下载

科学论文的下载与引用关系研究:以ACM数字图书馆为例*

2014-03-26赵一权王振民熊文炳毛文莉王贤文

中国科技期刊研究 2014年6期
关键词:影响力次数论文

■赵一权 王振民 熊文炳 毛文莉 王贤文**

1)大连理工大学机械工程与材料能源学部大连116085

2)大连理工大学 公共管理与法学学院 WISE实验室,大连 116085,E-mail:xianwenwang@dlut.edu.cn

1 引言

对于科研工作者和科研管理部门来说,如何判断一篇新发表论文的潜在影响力高低都是一个重要问题。传统的方法往往多以论文的被引次数来衡量论文的科学价值和影响力。但是,这种评价方法存在较长的时间滞后缺陷。比如说,一篇论文从构思到试验、再到写作、投稿、审稿、发表,一般需要经历一年甚至更长的时间。同理,对于一篇新发表论文,如果要知道它未来可能达到的被引次数,一般需要经历很长的一段时间。那么,能否找到一种更加快捷的方法来对一篇新发表论文的潜在影响力进行快速、准确的判断,这是科学计量学者和科研管理者需要解决的问题。

以往的大量研究表明,一篇论文的被引用高峰出现在发表后2年左右。也就是说,研究人员无法对一篇刚刚发表的论文的学术价值和影响力做出一个准确的评估,究其原因就是它的被引时间与发表时间存在较长的滞后。如果能够发现下载次数与被引次数之间的关系,那么便可以利用下载次数指标,对一篇新发表的论文价值做出快速、比较准确的评估。

英国南安普顿大学的Tim Brody等人利用arXiv数据库在英国的服务器,对论文的下载数据和未来的引用次数进行研究[1]。其研究证明二者有明显的相关性。但是arxiv数据库只是一个作者自存储数据库,arXiv的文献与正式发表论文还是有所差别,因此其结论不具有代表性和普适性。美国印第安纳大学布鲁明顿分校的Xin Shuai等人选取了4606篇论文,对论文的被下载次数、Twitter评论和引用次数这三者进行研究[2]。调查的论文样本较为有限,时间跨度从2010年10月4日至2011年5月2日,总共只有7个月,对于一篇论文从刚发表到下载与被引用次数的统计来说,这个时间跨度是比较短的,而且这只能体现出它早期的影响力,不能非常明确地获得论文未来潜在影响力。

在科学文献的用户数据方面,大连理工大学的王贤文等人利用Springer的Realtime实时下载平台,24小时监测来自全世界各个国家和地区的科学文献下载情况,完成了一系列的研究,包括基于科研人员下载文献的时间数据对科学家的工作时间规律进行分析[3-4]、利用文献的实时下载数据追踪科研新趋势[5]。此外,他们利用Nature的articlemetrics指标,研究论文在发表之后被下载的动态规律等等[6]。

国内研究方面,相关研究也并不多见。其中郭强等人从单本期刊的层次研究期刊下载次数与被引次数的关系[7],杨弘选取了5种植物学领域的学术期刊研究期刊被引频次与下载次数的关系[8]。这些研究的共同点是没有深入到单篇论文层次来研究,而且由于在最终统计的过程中选取的计量单位不同,只能得到大致的经验认识,无法得出确切的结论,这种比较有其粗糙性。

在前人研究的基础上,笔者从期刊层次和单篇论文层次进行研究,力求得到一篇论文从发表之日起至近期总的被引次数与下载次数之间的关系。并且,相比较于以往有限的样本研究,笔者选取ACM的30多种期刊,近万篇文献,研究成果也将更具代表性。

2 数据与方法

ACM(Association for Computing Machinery)美国计算机协会数字图书馆创立于1947年,是全球历史最悠久和最大的计算机教育、科研机构。ACM于1999年开始提供在线数据库服务ACM Digital Library。ACM数据库内容包括:期刊、杂志和会报53种、近300个会议及4000多卷会议录、超过27万多篇全文,及“在线计算机文献指南”数据库中140多万条文摘题录信息。从2003年5月开始,ACM数字图书馆开始提供论文的下载次数统计信息,即Bibliometrics指标。该指标对每一本期刊、每一个会议,以及每本期刊的每一期、每一篇文献都会提供最近6周、最近12个月、发表以来的累积下载次数和被引次数。

如图1所示,以期刊Journal of the ACM为例,该期刊发表的全部论文的最近6周被下载15772次,最近12个月被下载108855次,累积被下载1840956次,共计被引用57188次。该期刊2012年12月出版的第59卷第6期累积被下载1733次,被引用3次。同理,还可以看到具体每一篇论文的下载次数和被引次数。

图1 ACM数字图书馆的Bibliometrics指标

在本研究中,选取了ACM出版的31种SCI期刊,考虑到ACM的Bibliometrics指标是从2003年5月才开始提供,选择这31种SCI期刊2004年至2012年间发表的9251篇SCI论文作为研究对象。

对于这9251篇论文,利用笔者自编的网页爬虫程序,爬取了每一篇论文的Bibliometrics指标网页。利用PERL语言程序,从9251个网页中提取每一篇论文的4个Bibliometrics指标,即最近6周的下载次数、最近12个月的下载次数、发表以来的累积下载次数、被引次数。将每一篇论文的4个Bibliometrics指标数据导入SQL Server进行分析。详细步骤如图2所示。

图2 研究技术路线

本研究将从期刊和单篇论文两个层次开展分析,从ACM数据库中查询到31种ACM的SCI期刊从2004年初到2012年末每一期的Bibliometrics(文献计量学)指标数据,包括每一期在过去6周的下载次数、过去12个月内的下载次数、累积下载次数和被引次数。一共查询得到31种期刊1225期的数据,数据格式如表1所示。表1列举了Journal of the ACM期刊2004年各期和ACM Computing Surveys期刊2012年各期的数据情况。

同样,从单篇文献层次,对于31种ACM期刊的9251篇论文,也可以查询到每一篇论文的文献计量学指标数据。表2列出了部分论文的数据,其中每一个DOI号都对应于唯一的一篇论文,DOI号相当于文献的唯一识别标识。

表1 期刊层次的文献计量学指标提取结果示例

表2 单篇文献层次的文献计量学指标提取结果示例

3 分析结果

3.1 期刊发文统计

表3是所选取的31本SCI期刊名称以及每本期刊在2004-2012年发表的论文数量。作为全球最大、知名度最高的计算机学会,ACM几乎涉及了计算机科学技术的所有领域。发表论文最多的期刊是Communications of the ACM,该刊创刊于1958年,2013年的影响因子为2.511,该刊从2004至2012年共发表论文1280篇。论文数位居第2的是ACM Transactions on Graphics,影响因子 3.361,发表论文580篇。第3的是ACM SIGPLAN Notices,影响因子0.705,发文489篇。

表3 期刊名称以及每本期刊2004-2012年发表论文数量

3.2 下载与被引的相关关系:期刊层次分析

从ACM官方网页找出每一本期刊2004-2012年每一年发表的期刊数量,对期刊每一期论文的最近六周、最近一年和总的下载次数以及它的被引次数等数据进行收集,然后进行相关性分析。

表4是从2004-2012每一年所有期刊的最近六周、最近一年以及总的下载次数与被引次数的相关性分析系数。可以看到,在2010年以前,除了2006年最近六周下载次数与被引次数的系数为0.84以外,其余均保持在0.95以上,相关性非常高。但是相关系数为0.84依然非常高,不会影响对最终结果的判断。

表4 期刊被引次数与下载次数的相关系数

图3 期刊被引次数与下载次数的相关系数

在2011-2012年,相关性系数大幅度下降。究其原因,可能和新发表论文还没有达到其被引用高峰有关。一篇论文从发表后被人关注到被引用的时间跨度大部分为两年甚至更多,所以对于新发表论文来说,其被下载次数会比较高,但是其被引次数在发表1年之内通常都很低,这样的话难免会造成相关性大大降低。但是从前面的数据来分析,完全有理由推断,随着时间的增长,等到2014或2015年来对2011与2012年论文的相关性进行分析话,相关系数会逼近0.95甚至更高。这个预测也能从另一个侧面反映出本研究的正确性与价值所在。

所以,期刊的被下载次数与被引次数之间是呈高度正相关的,在ACM计算机技术领域,可以利用这一规律对期刊的潜在影响力做出相对准确的快速评价。如果期刊的新的一期论文发表之后,引起大家的关注,下载次数高于平均水平,那么有理由相信,该期论文在未来的3-4年会有较高的被引次数。

3.3 下载与被引的相关关系:单篇论文层次分析

在这一部分中,选择了以上31本期刊当中发表论文数量最多的两本期刊:Communications of the ACM,ACM Transactions on Graphics,并对这两本期刊2004-2012年每一年发表的所有论文的总下载次数与被引次数做了相关性分析。之所以还要进行单篇论文层次的分析,是因为不同期刊的学科领域有所差异,影响力有高低之分,受到的关注程度自然也有所区别,所以为了更准确地研究论文下载次数与被引次数之间的关系,笔者选择不同的期刊,针对单篇论文层次进行分析。

表5 两本期刊的被引次数与下载次数相关系数

图4 两本期刊的被引次数与下载次数相关系数

以上是对单篇论文层次的数据处理,从表3中的结果同样可以发现2010年以后的论文下载次数与被引次数相关性数据较低,呈弱相关,如上文所述,这应该是合理的。

如图4所示,不难发现,单篇论文层次的相关系数相对于期刊层次的相关系数要更低一些,出现这种情况的原因是:对期刊层次的分析是把每一年的所有期刊数据汇总,再计算其相关性,这样的话,不同期刊的影响力往往差别很大,因此不同期刊之间在期刊这样一个相对宏观的层面容易产生类似于“中和”的效应,使相关的整体水平偏向一个真值;但是,论文层次的分析是把期刊分年限进行分析,那么对于固定的一本期刊来说,它的论文水平与受关注程度往往是一定的,少数论文的被引次数很高,但是下载次数却不高,而另外一些论文的下载次数很高,但是被引次数却较低,这样一些离群值数据容易造成整体的相关系数下降。不过我们可以看到,2010年以前的相关系数大部分在0.4以上,仍然具有较强的相关性。

4 结论与讨论

期刊与论文的被引次数是进行学术价值测度的重要指标,但是被引次数的获取却是一个时间跨度很长的工作。一篇论文发表之后的影响力不仅体现在被引次数一个指标上,论文被学者关注并被下载阅读同样是学术价值的体现。通过研究下载次数与被引次数的关系,来预测被引次数的多少,这在理论和具体操作层面上都是一种行之有效的方式。

通过对ACM旗下的31本SCI期刊和9251篇SCI论文的下载次数和被引次数进行分析,研究结果发现,对于期刊层次而言,下载次数与被引次数是呈高度正相关的,很多年份的相关系数都逼近于完全正相关。这说明对于一本期刊而言,如果知道一本期刊在过去6周或更长时间内的下载次数,就可以较好地判断出该期刊的被引次数。从单篇论文层次来说,由于相关系数并没有达到0.8以上,所以在根据下载次数判断被引次数的准确性方面值得进一步商榷。

对于本研究来说,最理想的数据格式是能够获得严格对应的下载次数与被引次数,也就是说,一篇论文在一个月或者一年中的下载次数所导致的被引次数究竟是多少,但是这个数据是无法得到的,所以本文的结论依然不能非常准确的解释这个问题。随着越来越多的学术出版商向学术界公开提供论文的用户数据,并且所提供的用户数据越来越完善,笔者期待在不久的将来,能够对这项研究继续进行完善和深入研究。

1 Brody T, Harnad S, Carr L.Earlier web usage statistics as predictors of later citation impact.Journal of the American Society for Information Science and Technology,2006, 57(8): 1060-1072

2 Shuai X,Pepe A,Bollen J.How the scientific community reacts to newly submitted preprints: article downloads, twittermentions, and citations.PloS one, 2012, 7(11): e47523

3 Wang X, Xu S, Peng L, et al.Exploring scientists’ working timetable: Do scientists often work overtime?.Journal of Informetrics, 2012, 6(4): 655-660

4 Wang X, Peng L, Zhang C, et al.Exploring scientists’ working timetable: A global survey.Journal of Informetrics, 2013, 7(3):665-675

5 Wang X, Wang Z, Xu S.Tracing scientist’ s research trends realtimely.Scientometrics, 2013, 95(2): 717-729

6 Wang X, MaoW,Xu S,etal.Usage history of scientific literature:Naturemetrics and metrics of Nature publications.Scientometrics,2014, 98(3), 1923-1933

7 郭强,赵瑾,刘思源等.下载次数与被引次数的统计关系研究.图书馆理论与实践,2010,(9):30-35

8 杨弘.学术期刊被引频次与下载次数的关系.安徽农业科学,2013,(4):1820-1821

猜你喜欢

影响力次数论文
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
俄罗斯是全球阅兵次数最多的国家吗?
基于切削次数的FANUC刀具寿命管理
天才影响力
黄艳:最深远的影响力
探索性作战仿真实验重复次数控制研究
3.15消协三十年十大影响力事件
传媒不可估量的影响力
下期论文摘要预登
下期论文摘要预登