期刊论文被引频次的幂律分布研究
2014-03-27毛国敏蒋知瑞生冬梅袁志祥宋胜合葛之江
■毛国敏 蒋知瑞 任 蕾 生冬梅 袁志祥 张 放 宋胜合 葛之江
1)中国地震局地球物理研究所,100081 北京市海淀区民族大学南路5号,E-mail:maogm@cea-igp.ac.cn2)《CT理论与应用研究》编辑部,100081 北京3)首都医科大学附属北京口腔医院《北京口腔医学》编辑部,100050 北京4)中国地震局工程力学研究所,150080 哈尔滨5)《灾害学》编辑部,710068 西安6)《中国医学影像技术》期刊社,100190 北京7)《地震》编辑部,100036 北京8)《航天器工程》编辑部,100094 北京
在研究期刊计量指标之间的实际问题时,很多统计方法模型对数据的分布有要求,如方差分析和回归分析就需要数据服从正态分布。当指标数据分布中心对称时,我们可以用平均值和方差等来刻画数据的特征,利用数据做多种统计分析;而当数据不对称时,平均值和方差没有代表性,失去反映数据特征的意义。以《CT理论与应用研究》期刊1992~2011年论文被引频次为例,被引频次小的占绝大多数,其中0被引占44.46%,高被引论文仅占极少部分;被引频次的平均值为2.69,方差为26.15,标准差为5.11。在这种情况下,用平均值来反映论文被引情况没有实际意义,一般也不能直接利用原始数据做分析,需要对原始数据做必要的变换,才能做有关的统计分析。
论文被引频次是一个非常客观的指标,可以显示论文被使用和受重视的程度,以及在科学交流中的作用和地位[1],是论文学术影响力的一个重要的标志性指标之一,常用于对科研人员的绩效评价,引起有关学者的关注[2-7]。文献[8]运用基尼系数方法,讨论了我国学术期刊总被引等分布存在不均匀性问题,定义无因次的量Gv指标来反映期刊不均性,并用该定量指标简明扼要地反映学术期刊信息量、影响力分布不均匀性的总体情况。陈仁吉等[9]认为被引频次受学科、文献类型等因素影响,需要做标准化处理才能做比较,并阐述了几种典型的被引频次标准化方法。
论文被引频次的分布具体遵循什么规律,这是我们非常关心的问题。图1是《CT理论与应用研究》期刊1992~2011年论文被引情况,很明显,论文被引频次分布表现为严重的非中心对称单边拖尾现象。针对这一现象,我们选择3种有一定代表性的期刊,综合运用线性回归拟合和非线性迭代计算方法模拟,对被引分布进行分析研究,试图寻找一种简单的确实能反映论文被引分布的内在规律,同时为今后合理、有效地利用论文被引频次指标提供参考依据。
图1 A刊被引频次直方图
1 资料来源及标准化
我们收集了不同学科类别、载文规模和学术影响力的3种期刊论文被引次数v和被引频次w资料,其中A刊是《CT理论与应用研究》,在中国学术期刊影响因子年报[10]中的科学类别为自动化技术计算机技术(TP)类或军事医学与特种医学(R8)类,学术影响力一般,载文规模较小;B刊为地球物理(P)类某精品期刊,学术影响力较大,载文规模中等;C刊为某985高校学报,科学类别属综合性科学技术(N/Q,T/X)类EI期刊,学术影响力较大,载文规模较大。这3种期刊的基本情况见表1,数据来源于文献[11-12]。
表1 3种期刊的基本情况
注:a-起始年为创刊年,因为2012年的数据不全,因此终止年取2011年;b-剔除信息报告类文献后的有效论文数;c-来源于文献[10];
d-删除两篇被引频次为347、621的异常高被引论文。
显然,被引次数为离散型数据,在数据量很大且没有明显跳跃时,可以当作连续型数据来处理。为了使被引次数v与被引频次w的概率y的分度一致,我们对被引频次做1~100的标准化处理,令:
(1)
这里x即为v的一个线性变换,没有改变v数据特征和分布规律。这样,经标准化处理后的x在各期刊之间可比。表2为A刊论文被引频次相关数据。
表2 A刊论文被引频次相关数据
2 原理和方法
2.1 原理
设随机变量X,对任意实数x,称函数F(x)=P(X≤x)为X的概率分布函数,简称分布函数。对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:
则称f(x)=F′(x)为X的概率密度函数,简称概率密度或密度函数[13-14]。
2.2 假设
根据分布函数和密度函数的定义,显然,论文被引概率y即为被引次数x的密度函数f(x),累积概率z即为x的分布函数F(x)。根据y随x的增加迅速下降的特点(见图1),我们不妨假设y与x的常数幂存在简单的比例关系:
y=f(x)=F′(x)=kxq, 1≤x≤100
(2)
y呈幂指数单调递减函数,随x的增加快速衰减,即假设论文被引频次的分布服从幂律分布。这种分布的特点是绝大多数事件的规模很小,只有少数事件的规模相当大。对上式两边取对数,lny与lnx满足线性关系:
lny=lnk+qlnx
(3)
在双对数坐标下,幂律分布表现为以幂指数q为斜率的一条直线。
相应地,我们设论文被引次数x的分布函数F(x)为单调不减函数:
(4)
公式(2)~(4)中的参数之间关系有:
(5)
2.3 分析方法
表3 A刊论文被引4种模型分析结果及其检验
*:为取对数后的线性回归的平方和,非原始数据所得到的平方和,原始残差平方和SSE=3 908.480。+:R2=1-SSE/SST。
模型Ⅰ:利用概率分布数据y,先对y和x取对数变换,然后对线性方程lny=lnk+qlnx做回归拟合。分析结果表明,模型Ⅰ在0.01显著性水平上(P=0.000),拟合优度良好,R2=0.917;经t检验,模型参数q和k显著(表4),说明模型拟合是可行的。线性回归采用的最小二乘法,能保证变换后的残差平方和(7.397)最小,但不保证原始数据拟合是最优的。模型的原始数据的残差平方和SSE=3 908.480。
表4 模型Ⅰ回归方程及参数检验
模型Ⅱ:利用概率分布数据y,用迭代计算的方法,对方程y=kxq直接进行非线性回归。取不同的初始值进行迭代计算,经17次迭代,模型收敛,模型是稳定的。拟合优度R2=0.977,高于模型Ⅰ,残差平方和SSE=50.178。
模型Ⅲ:为了减小数据统计涨落的影响,我们利用累计概率分布数据z,用迭代法对方程z=axb+c进行非线性回归。经33次迭代,模型收敛。根据公式(5)由系数a和b间接得到参数k和q。R2=0.990,拟合效果比模型Ⅱ好,SSE=606.475。
模型Ⅳ:考虑到0被引的规模最大,占44.45%,约为次大规模(论文被引1次)的2倍。可以认为(1,44.455)是一个特征点。利用模型Ⅲ得到的q=-1.344,给方程过特征点(1,44.455)为一个约束条件,得出曲线方程。残差平方和SSE=128.521,小于模型Ⅲ。实际上,模型Ⅳ是在模型Ⅲ的基础上作一个平移的线性变换,并没有改变模型Ⅲ的特征,只是考虑到小规模事件大的实际情况,照顾了0被引的数据,从图2和图3也可看出作这种平移变换是可行的,拟合效果更佳。
图2 A刊原始数据与3个模型数据对比注:因模型Ⅰ第1个数据点(1,106.881),远高于其他模型及原始数据,为使图型清晰可读,未给出模型Ⅰ的数据
图3 在双对数座标下A刊原始数据与4个模型数据对比
3 结果
表3给出了A刊论文被引4种模型分析结果及其检验,4种模型与实际情况都相符,拟合结果都经得起统计检验。我们从中选择一个最佳模型作为最终模型,选择的原则是:①残差小,使模型能最大限度地解释样本数据的变异;②拟合效果好,即要求拟合优度高。比较表3中的数据并对照图2和图3,相较而言模型Ⅳ的结果最为满意,因此选作为A刊论文被引频次分布模型,密度函数为:
(6)
为了进一步验证论文被引频次服从幂律分布的可靠性,我们再利用B刊和C刊的论文被引数据(表5),类似A刊的分析(表6)过程,得到B刊和C刊的论文被引频次的密度函数分别为:
(7)
(8)
图4为B刊原始数据与模型数据对比,图5为在双对数座标下B刊原始数据与模型数据对比,C刊原始数据与模型数据对比见图6,在双对数座标下C刊原始数据与模型数据对比见图7。
图4 B刊原始数据与模型数据对比
图5 在双对数座标下B刊原始数据与模型数据对比
图6 C刊原始数据与模型数据对比
图7 在双对数座标下C刊原始数据与模型数据对比
由此我们得出,不同学科类别、载文规模和学术影响力的期刊论文被引频次均服从幂律分布。对于学术影响力很大、载文规模较小、处于发展期的期刊,密度函数的经验公式可参见公式(6);对于学术影响力较大、载文规模中等、处于成熟期的期刊,经验公式参见公式(7);对于学术影响力较大、载文规模较大、期刊历史悠久的期刊可参见公式(8)。
表5 B刊和C刊论文被引频次相关数据
表6 B刊和C刊论文被引分布模型分析结果及其检验
期刊论文被引频次服从幂律分布的物理意义:
(1)论文低被引次数的规模大、概率高,随着被引次数的增加,被引概率快速减小,高被引的概率仅占很小部分。
(3)由f(λx)=k(λx)q=kλqxq=λqf(x)可知,当x增加λ倍时,概率下降λq倍。
(4)由于x-qf(x)=k,可知,被引次数的常数幂与其概率的乘积为一常数,该常数k即为期刊论文0被引的概率。
上述性质可利用公式(1)对应到原始数据。
4 讨论与结论
许多自然和社会事件的分布存在幂律现象[15-22],比如地震的震级与频度关系服从幂律分布[23]。统计物理学家把服从幂律分布的现象称为无标度现象,即系统中个体的尺度相差悬殊,缺乏一个优选的规模[18]。
方爱丽等[24]对小世界网络论文的被引用次数作了统计,表明网络论文被引用次数也服从幂律分布,但该文未作合理的标准化处理,当数据为0时模型不收能收敛,因此舍去了原始资料中为0的数据,这与实际情况有差距,忽略了存在大量的0被引现象。Redner[25]利用大量论文的被引数据,研究了论文被引分布规律,得出论文被引的密度函数:N(x)~x-α,α≈3。因为α≈3,那么对应的分布函数F(x)=P(X≤x)~x-α+1也为单调递减函数,不符合分布函数即累积概率应当是单调递增的实际情况。
实际上,在撰写本文过程中我们本着大胆假设、小心求证的态度,做了大量的探索性工作。分别对3种期刊论文被引数据进行排序后,取不同步长(区间)将原始数据做等间距分组,其中,A刊的步长分别取2,3,…,7,B刊和C刊分别取9,11,13,15分组数据做试验。利用各组间的概率数据,都能做出论文被引服从幂律分布的结果,且拟合效果都不错,R2介于0.932~0.983之间。其中:A刊取步长6分组时,拟合效果最佳,R2=0.967,q=-2.293;B刊步长为13时,拟合效果最佳,R2=0.952,q=-2.482;C刊步长也取13时拟合效果最佳,R2=0.975,q=-2.951。
为了充分验证,考虑到C刊的数据量最大,我们从C刊随机抽取50%的数据进行模拟,也证明论文被引服从幂律分布,且拟合优度极桂,R2=0.983,q=-2.843,抽样样本数据拟合结果与原数据模拟的结果一致。对于载文量大的C期刊,用分组数据拟合的结果与Redner[25]的结果接近。
我们还对原数据做排秩处理,用秩数据进行幂函数模拟,也得出相同的结果,且拟合结果良好,以C刊为例,q=-2.254,R2=0.944。说明幂律模型适用于论文被引概率的分布情况,具有稳定性。
分组数据可消除原数据部分涨落现象,如果步长取得足够大(如原数据的最大差分数),就可以完全消除涨落。但由于自变量数据域即取值数变少了,使概率随之下降得更快,这是随着步长增大,q变逐渐变小而R2随之增大的原因。
细心的读者或许已经发现,目前有关幂律分布或无标度量的研究文献,多数是用分组数据或秩数据来拟合。用分组数据或秩数据拟合得到的结果,尽管与数据拟合得相当好,能说明论文被引概率随被引频次呈现急剧下降现象这一事实。但是,存在两个问题:①如何将分组数据或秩数据对应到实际数据,即如何用分组数据或秩数据得到模型结果去解释或理解原始数据的分布情况;②服从幂律分布事件的密度函数中的幂指数参数q不能小于等于-2,当q≤-2时,那么,对应的分布函数,即密度函数的积分函数是单调递减的,这与实际数据的分布情况不相符。我们的方法解决了这两个问题。
数理统计知识告诉我们,任何一组数据都能找到一个合适的模型进行模拟,但在实际工作中需要注意:①模型与实际需要解决的问题一致,不能有矛盾;②模型本身及模型参数经得起统计检验;③如果有条件,尽可能选择多个模型做模拟,以检验模型的可靠性和稳定性,然后进行比较,从中选择拟合效果最佳的作为最终结果。
理论上,随机变量的密度函数或分布函数,包涵了该变量的全部信息。获得变量的密度函数,就等于掌握了变量的内在规律,只有对变量的分布有所了解,才能合理、有效地利用数据进行各种分析。因此,期刊指标的分布规律研究是一项基础性工作。
本文通过对不同学科类别、载文规模和学术影响力、有一定代表性的3种期刊进行分析,得出期刊论文被引频次存在幂律现象,论文被引的概率与被引次数的常数幂存在简单的比例关系。同时我们发现目前有关幂律研究文献中存在的两个问题,指出这两个问题可能的原因以及解决办法。由此我们可否大胆推测,幂律分布是期刊论文被引特有的内在规律,这种简单的幂律现象有可能具有普适性。实际情况是否如此,有待进一步验证。
1 中国科学技术信息研究所. 2011年版中国期刊引证报告(核心版). 北京: 科学技术文献出版社, 2011
2 叶鹰. 高品质论文被引数据及其对学术评价的启示. 中国图书馆学报, 2010, 36(1): 100-103
3 任胜利, 柴育成, 姚玉鹏等. 地球科学国际主流期刊的引文分析. 科学通报, 2002, 47(1): 74-79
4 Sharma HP. Download plus citation counts: A useful indictor to measure research impact.CurrentScience, 2007, 92(7):773
5 赵大良. 不可思议的现象: 网络传播与被引频次的关联分析[EB/OL]. (2009-01-11)[2013-07-30]. http://zhaodal. blog.163.com/blog/static/55838420090114111184/
6 方红玲. 我国科技期刊论文被引量和下载量峰值年代——多学科比较研究. 中国科技期刊研究, 2011, 22(5): 708-710
7 黄鹂. 从论文被引频次分析看高校学报在学校科研发展中的作用——以长江大学及其主办的学报为例. 长江大学学报(社会科学版), 2012, 35(9): 184-186
8 毛国敏, 蒋知瑞, 任蕾等. 期刊信息量和影响力分布的不均匀性分析研究. 中国科技期刊研究, 2012, 23(3): 377-382
9 陈仕吉, 史丽文, 李冬梅等. 论文被引频次标准化方法述评. 现代图书情报技术, 2012, (4): 55-60
10 中国科学文献计量评价研究中心, 清华大学图书馆. 中国学术期刊影响因子年报(自然科学与工程技术)2011年(第9卷). 2011, 北京: 《中国学术期刊(光盘版)》电子杂志社
11 中国知网. 中国学术文献评价参考系统:单篇引文分析[EB/OL]. [2013-07-22]. http://www.xkpg.cnki.net/eval/ brief /result.aspx?dbPrefix=EVAL
12 中国知网. 中国学术文献评价参考系统:单篇引文分析[EB/OL]. [2013-07-26]. http://www.xkpg.cnki.net/eval/ brief/result.aspx?dbPrefix=EVAL
13 盛骤, 谢式千, 潘承毅. 概率论与数理统计. 4版. 2010, 北京: 高等教育出版社
14 向东进, 李宏伟, 刘小雅. 实用多元统计分析. 2005, 武汉: 中国地质大学出版社
15 Lu ET, Hamilton RJ. Avalanches of the distribution of solar flares[EB/OL]. [2013-07-26]. http://articles. adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1991ApJ...380L..89L&data_type=PDF_HIGH&whole_paper=YES&type=PRINTER&filetype=.pdf
16 吴忠良. SARS疫情的标度性质及其物理意义. 防灾减灾工程学报, 2003, 23(2): 10-13
17 宋卫国, 刘广义, 于彦飞等. 小尺度森林火灾的渐近幂律分布. 火灾科学, 2003, 12(2): 66-73
18 胡海波, 王林. 幂律分布研究简史. 物理, 2005, 34(12): 889-896
19 韦洛霞, 李勇, 康世勇等. 汉语词组网的组织结构与无标度特性. 科学通报, 2005, 50(15): 1575-1579
20 李洪波, 姚令侃, 李仕雄等. 砂堆雪崩幂律分布现象的解释. 四川大学学报: 工程科学版, 2007, 39(4): 36-39
21 方正, 王杰. 自然与社会环境中的幂律现象和双帕累托对数正态分布. 山东科学, 2011, 24(3): 1-12
22 聂锐, 黄传峰. 基于语言分类的WWW网络中社会经济指标幂律分布. 科技导报, 2005, 23(7): 40-43
23 Gutenberg B, Richter CF, Frequency of earthquakes in California[OL]. [2013-07-26].http://bssa.geoscienceworld.org/content/34/4/185.full.pdf+html
24 方爱丽, 高齐圣, 张嗣瀛. 引文网络的幂律分布检验研究. 统计与决策, 2007, (14): 22-24
25 Redner S. How popular is your paper? An empirical study of the citation distribution[EB/OL]. [2013-07-26]. http://arxiv.org/pdf/cond-mat/9804163.pdf