学术论文接受时间与被引用次数的统计分析
2015-06-23姜兴隆
姜兴隆
(温州大学物理与电子信息工程学院,浙江温州 325035)
学术论文接受时间与被引用次数的统计分析
姜兴隆
(温州大学物理与电子信息工程学院,浙江温州 325035)
论文发表是一种很重要的人类行为,一直被广泛关注.对Nature期刊Report栏目所发表论文的收录时间和发表后三年内文章的被引情况进行了统计分析,结果显示它们都服从指数衰减分布.该结果揭示了论文发表行为的一个内在规律,为引文机制的进一步挖掘提供了实证依据.
论文接受时间;被引次数;指数分布
早些时候,由于缺乏统计工具和方法,大量的数据被简化,人们近似地认为人类行为的发生时间是统一的.近几年,由于网络和计算机技术的飞速发展,人们能够探测引文网络,能够获得和处理大量的统计数据[1-5],因此,定量理解人类行为已成为现代科学的中心议题之一.
重尾统计分布普遍存在于自然和社会现象中,科学论文被引所服从的统计分布最著名的就是重尾分布,在这种情况下,有一个相当大的争论是,引文分布遵循的是对数正态分布还是幂律分布.文献[6]通过测量一个非常大且均匀的引文分布数据,认为偏离很大的数据遵循对数正态分布,且尾布呈偏离向上的分布规律.关于论文发表模式的定量研究可以追溯到1926年洛特卡关于科学生产力规律的开创性研究,他指出科学家发表论文服从幂律分布,即发表过k篇论文的科学家人数按照k-γ的规律减少[7].在洛特卡之后,又有许多科学家对论文的引用模式进行了探讨.因为有的引文数据库是可用的,所以普莱斯[8]讨论了引文网,首次证实了引文网的入度和出度都服从幂律分布.此后,出现了很多有关引文网的研究,例如,瑞德纳[9]研究了由科学信息研究所按期刊编目分类的783 339篇论文和在20年间发表在PRD上的24 296篇论文的引文分布,发现了一篇论文被引用k次的概率,即相应的引文网的入度服从幂律分布.最近,彼得森等[10]开发了一个科学引文的分布模型,发现幂律指数分布并不普遍.王大舜等[11]给出了一个单篇论文的引文动力学机理模型,用一个机理模型的个人论文被引用情况,得到了不同期刊的论文被引用的历史,发现其分布规律为单一的曲线,指出所有论文倾向于遵循相同的时间模式.观察这些模式能够帮助我们揭开科学影响的基本机制,发现可能有的潜在的政策含义.
论文发表是近代人类知识增长的一个不可或缺的重要组成部分.随着科技的发展,人类知识的迅速增加,论文的发表时间与被引用已经成为大多科研工作者所关注的对象.本文将从论文的发表时间与被引用这两方面入手,来探讨其中存在的某种机制.
1 数据分析
本文的数据来源于Nature期刊Report栏目上发表的文章.从1997年到2008年12年间收录的文章中,其中有8 762篇标记了收到时间和同意发表时间,本文将两者的时间间隔定义为接受时间τ,并且以天为单位.考虑到科学论文的编辑发表也属人类活动,在这种服务系统输入流中包括递交论文的排队过程,在这其中又包括裁判评审、信息修正等一系列过程,最后由编辑委员会验收.本文对接受时间使用了累积分布:
其中M(τ)为接受时间为τ的论文数量.
2 实证结果
由于论文发表时的等待时间取决于编辑委员会,所以,本文将注意力集中放在接受时间的统计上.
2.1论文接受时间分布
首先对Nature期刊Report栏目上的论文的接受时间分布进行分析,接受时间见图1.从图1中可以看出,接受时间分布在单对数坐标下呈指数衰减分布:
图1中,τ表示接受时间,以天为单位,M(τ)表示接受时间为τ的论文数量.图中下垂头部和尾部,即在很短或很长的时间间隔内发表的论文数很少,只占总数的32%,所以只取了中间部分.对67≤τ≤400范围内的数据进行线性拟合得直线,负相关系数R=-0.950 5,直线的斜率为-0.015.
在图1的插图中给出了相应的累积分布情况.累积分布进行线性拟合与原始数据进行线性拟合的结构相似,都呈指数衰减分布.可以这样解释,接受时间很短和很长的论文数量很少,大多数论文都是按照相对稳定的模式被接受的.该结果与当前论文接受时间发表模式中表现出来的规律并不相同,例如引文分布的科学出版物是基于两个相对较大的数据集,瑞德纳在PRD与ISI数据集中,发现出版物的引用呈幂律分布[9].可见,现代文章的发表模式在不断改变文章的接受时间.
图1 论文接受时间的分布
2.2论文被引次数分布
引文网的最大优势在于通过它可以获得丰富且准确的数据.本文对Nature期刊Report栏目上发表的具有确切接受时间的论文在发表后3年内被引的次数进行分析,结果见图2.
图2中,横坐标k表示论文的被引次数,纵坐标N( k)表示k所对应的论文数,对15k219≤≤范围的数据进行线性拟合得图中直线.由图2可以看出,被引次数在37的论文数最大,在这个最大点以后的论文量逐渐减少,由于论文N( k)=1,2,3的被引次数和被引次数在219以后的论文数都很少(被引大于219的论文数只有421篇,大约只占总量的5%),所以可以除去数据中下垂的头部和尾部,只对中间部分的数据进行线性拟合,结果发现,在单对数坐标下呈指数衰减分布:
3 总结与讨论
本文对Nature期刊Report栏目所发表论文的接受时间和发表后三年内文章的被引情况进行了统计分析,结果显示,论文接受时间服从λ=-0.015的指数分布,论文在发表后三年内被引次数服从α=-0.017的指数分布.从这两个结果可以看出,它们呈现出基本相同的分布特征,即都服从指数衰减分布.因此,有理由推测出这些特性可能是论文发表模式中的共同特性,从这些特性中可以进一步反映出人类在论文发表的行为中可能暗含某种机制.信息网络技术还在快速发展,在信息量足够多的情况下,可能还会有更丰富的标度特性,这有待于更多的有兴趣的学者去进一步挖掘.
图2 论文3年被引次数分布
致谢:本文得到导师林振权教授的悉心指导,同时也得到了林振权教授的科研补助金的赞助,在此表示致谢.
[1] Johansen A. Probing human response times [J]. Physica A: Statistical Mechanics and its Applications, 2004, 338(1): 286-291.
[2] Barabasi A L. The origin of bursts and heavy tails in human dynamics [J]. Nature, 2005, 435: 207-211.
[3] Oliveira J G, Barabási A L. Human dynamics: Darwin and Einstein correspondence patterns [J]. Nature, 2005, 437: 1251-1251.
[4] Stouffer D B, Malmgren R D, Amaral L A N. Log-normal statistics in e-mail communication patterns [J]. [EB/OL]. [2014-01-08]. http://www.researchgate.net/publication/2175792_Log-normal_statistics_in_e-mail_communication_patterns.
[5] Vázquez A, Oliveira J G, Dezsö Z, et al. Modeling bursts and heavy tails in human dynamics [J]. Physical Review E: statistical, nonlinear, and soft matter physics, 2006, 73(3): 036127.
[6] Golosovsky M, Solomon S. Runaway events dominate the heavy tail of citation distributions [J]. The European Physical Journal Special Topics, 2012, 205(1): 303-311.
[7] Newman M E J. The structure and function of complex networks [J]. Society for Industrial and Applied review, 2003, 45(2): 167-256.
[8] Yu P, Van de Sompel H. Networks of scientific papers [J]. Science, 1965, 169: 510-515.
[9] Redner S. How popular is your paper? An empirical study of the citation distribution [J]. The European Physical Journal B-Condensed Matter and Complex Systems, 1998, 4(2): 131-134.
[10] Peterson G J, Pressé S, Dill K A. Nonuniversal power law scaling in the probability distribution of scientific Citations [J]. Proceedings of the National Academy of Sciences, 2010, 107(37): 16023-16027.
[11] Wang D, Song C, Barabási A L. Quantifying long-term scientific impact [J]. Science, 2013, 342(6154): 127-132.
Statistical Analysis on Accepted Time for Papers and Citation Frequency
JIANG Xinglong
(College of Physics and Electronic Information Engineering, Wenzhou University, Wenzhou, China 325035)
Paper publication has always been widely concerned, which is one of important human behaviors. This paper indicates that the distribution tends to obey the law of exponential decay after statistical analysis on the time of receipt for the papers published in Report Colum from the Journal Nature and the situation of their citations after they were published within three years. This result demonstrates an inherent law for paper publications and thus provides an empirical evidence for the future excavation of the citation mechanism.
Accepted Time For Papers; Citation Frequency; Exponential Distribution
N94
A
1674-3563(2015)01-0059-04
10.3875/j.issn.1674-3563.2015.01.010 本文的PDF文件可以从xuebao.wzu.edu.cn获得
(编辑:王一芳)
2014-02-28
国家自然科学基金(10875086);国家自然科学基金(11175131)
姜兴隆(1987- ),男,吉林扶余人,硕士研究生,研究方向:人类动力学