APP下载

漂移幂律函数在期刊论文被引数次分布研究中的应用

2015-06-01毛国敏蒋知瑞生冬梅孙振凯袁志祥宋胜合葛之江

统计与信息论坛 2015年8期
关键词:幂律概率密度期刊论文

毛国敏,蒋知瑞,任 蕾,生冬梅,孙振凯,袁志祥,张 放,宋胜合,葛之江

(1.《CT理论与应用研究》编辑部,北京 100081;2.《北京口腔医学》编辑部,北京 100050;3.中国地震局 工程力学研究所,黑龙江 哈尔滨150080; 4.《国际地震动态》编辑部,北京 100081;5.《灾害学》编辑部,陕西 西安 710068 ;6.《图学学报》编辑部,北京 100191;7.《地震》编辑部,北京 100036; 8.《航天器工程》编辑部,北京 100094)

漂移幂律函数在期刊论文被引数次分布研究中的应用

毛国敏1,蒋知瑞1,任 蕾2,生冬梅3,孙振凯4,
袁志祥5,张 放6,宋胜合7,葛之江8

(1.《CT理论与应用研究》编辑部,北京 100081;2.《北京口腔医学》编辑部,北京 100050;3.中国地震局 工程力学研究所,黑龙江 哈尔滨150080; 4.《国际地震动态》编辑部,北京 100081;5.《灾害学》编辑部,陕西 西安 710068 ;6.《图学学报》编辑部,北京 100191;7.《地震》编辑部,北京 100036; 8.《航天器工程》编辑部,北京 100094)

运用非线性迭代计算方法模拟,获得更接近实际情况的期刊论文被引次数密度分布情况,即期刊论文被引次数的概率密度服从漂移幂律分布,并对期刊论文被引次数的幂律分布做了改进,解决了期刊论文被引次数幂律分布中存在的两个问题。从实际情况来看,这种改进是合理的,可为今后有效合理地利用期刊计量指标提供科学的依据。

论文被引次数;幂律分布;漂移幂律函数;概率密度分布;模拟

在运用数理原理对观察对象做统计分析时,一般对数据的分布有一定要求,很多数理模型如方差分析和回归分析要求数据服从正态分布[1-2]。在我们以往观察和研究期刊计量指标的关系时,发现多数指标的偏度系数和峰度系数的绝对值远大于0,即指标变量的分布远离正态函数,这就为有效合理利用这些指标做进一步深入分析带来了困难[3-4]。当指标数据分布为非中心对称时,一般不能直接利用原始数据做分析,需要对原始数据的分布有所了解,并在此基础上做必要的变换,才能做有关的统计分析。本文分析期刊论文被引次数的分布问题,因为期刊论文被引次数是期刊评价中非常重要的一个指标。

事实上,许多自然和社会事件的分布并不服从正态分布,而存在幂律现象[5-13],比如地震的震级与频度关系服从幂律分布。统计物理学家把服从幂律分布的现象称为无标度现象,即系统中个体的尺度相差悬殊,缺乏一个优选的规模[8]。笔者通过对3种期刊进行分析和检证,得出期刊论文被引次数的分布也存在幂律现象的结论,同时发现目前有关幂律研究文献中存在的两个问题,并指出这两个问题可能的原因以及解决办法[4]。曹盼盼等人通过对中国名人的书信时间进行统计分析,建立写信间隔时间所服从的漂移幂律分布模型[14];闫小勇等人解析了合作网络参与者节点度分布与节点增长速度指数之间的关系,得到网络参与者节点度分布可以用漂移幂律分布近似[15];江健等人发现社会通信网络节点度、介数和拓扑势的累积分布均服从漂移幂律分布[16];王志如等人选取漂移幂律函数等3种函数对地铁网络度分布进行拟合,分析了地铁网络无标度特性[17]。

一、提出问题

笔者依据分布函数和密度函数的定义,根据论文被引次数的概率随被引次数的增加迅速下降的特点,认为期刊论文被引的概率y与被引次数x的常数幂存在简单的比例关系[4]:y=f(x)=kxq,即期刊论文被引次数的概率密度服从幂律分布,在双对数坐标下,lny与lnx满足线性关系:lny=lnk+qlnx。

期刊论文被引次数的概率密度服从幂律分布,能够很好地解释论文低被引次数的规模大、概率高,随着被引次数的增加,被引概率快速减小,高被引的概率仅占很小部分这一客观现象[4]。但是,还存在两个问题:

其一,为了避免0和负数没有对数的问题,不能直接使用原数据,必须对原数据做适当的处理。笔者对论文被引次数的概率做了1~100的标准化处理,尽管这样不会改变原数据的分布特征,但与通常概率在0~1之间的表达有所不同[4]。

其二,观察图1(d)、图2(a)和图3(a),在双对数坐标下,原始数据并不严格散布在一条直线附近,而是略有弯曲,其他文献也存在类似的问题[8,19]。

为解决这两个问题,有必要对期刊论文被引次数密度的幂律分布加以改进。因此,可利用漂移幂律函数来进一步分析期刊论文被引次数的分布问题。

二、资料来源及数据样本的基本情况

为了验证本方法的适用性,选用不同学科类别、载文规模和学术影响力的3种期刊论文被引次数资料,其中A刊是《CT理论与应用研究》,在中国学术期刊影响因子年报中的学科类别为自动化技术计算机技术(TP)类或军事医学与特种医学(R8)类,2013年起科学类别更改为综合性科学技术(N/Q,T/X)类或综合性医药卫生(R)类,学术影响力一般,载文规模较小[20];B刊为某地球物理(P)类精品期刊,学术影响力较大,载文规模中等;C刊为某高校学报,学术影响力较大,载文规模较大(见表1)。

表1 3种期刊论文被引次数数据基本统计情况表

为了便于比较,所用数据与参考文献[4]相同,A刊仅删除了一条歧义记录。表1为3种期刊论文被引次数数据的一些基本统计量,从表1中的偏度和峰度系数的绝对值远大于0可知,3种期刊的论文被引次数的分布远偏离正态分布,呈左偏、尖峰态。原始数据来源于参考文献[21]~[22](对数据感兴趣的读者可向作者索取)。

三、原理与方法

(一)原理

实际上,很多现实事件的分布规律都难以用单一的分布函数来拟合,很可能是多种函数的混合模型。因此,利用漂移幂率函数来拟合期刊论文被引次数的分布,以便对期刊论文被引次数服从幂律分布做进一步的改进。

漂移幂率是对幂律分布作简单修正的一种分布形式,数学表达式为[14-18]:

y=f(x)=k(x+a)q

(1)

当参数a=0时为幂律分布。对式(1)两边取对数:

lny=b+qln(x+a)

(2)

式(1)、(2)中参数的关系有:b=lnk,k=expb。

(二)分析方法

表3为3种期刊标准化数据的模型参数估计,其中A刊的各参数b、a、q的估计值分别为6.164、2.177、-1.983,通过计算k=475.368。这样,得到A刊标准化数据的论文被引次数概率密度分布的经验公式:

(3)

在双对数坐标中概率密度函数的经验公式为:

(4)

表2 数据标准化为1~100的漂移幂律模型检验表

注:均方和=平方和/自由度;F值=回归均方和/残差均方和;R2为模型的拟合优度,R2=1-残差平方和/已更正的总平方和。

表3 数据标准化为1~100的模型参数估计及误差表

注:k=expb

图1为A刊幂律拟合、漂移幂律拟合概率分布图,其中图1(a)和图1(d)为漂移幂律模型与幂律模型的比较,图1(a)为标准化(被引次数标准化为1~100,概率标准化为1~100)被引次数概率密度分布图(y1-x1图);图1(d)为双对数坐标中的密度分布图(lny1-lnx1图)。从图1(a)可见,漂移幂律分布除第1个点比幂律分布拟合略差之外,其他部分与原数据拟合良好,比幂律分布有较大的改进。很明显,在双对数坐标中漂移幂律拟合点并不是一条直线,而是略有弯曲的曲线(图1(d)),与数据拟合得非常好,与幂律分布模型相比有明显改进,拟合效果更佳。

(a)y1-x1图 (b)y-x图 (c)y-xa图

(d)lny1-lnx1图 (e)lny-lnx图 (f)lny-lnxa图图1 A刊幂律拟合、漂移幂律拟合概率密度分布图

表4 实际数据的模型检验表

注:均方和=平方和/自由度;F值=回归均方和/残差均方和;R2为模型的拟合优度,R2=1-残差平方和/已更正的总平方和。

表5 实际数据的模型参数估计及其检验表

注:k=expb

表5为3种期刊实际数据的模型参数估计及其检验,其中A刊各参数b、a、q的估计值分别为0.124、1.540和-1.983,k=1.131,从而得到A刊实际数据的论文被引次数概率密度分布的经验公式:

yA=1.131(x+1.540)-1.983

(5)

在双对数坐标中概率密度函数的经验公式为:

lnyA=0.124-1.983(x+1.540)

(6)

图1(b)和图1(e)分别为实际数据漂移幂律模型的概率密度分布和双对数坐标的分布图。从图1(b)可见,漂移幂律模型与原数据拟合良好;在对数坐标中,数据散布在一条略有弯曲的曲线附近(图1(e));令xai=x+a,在lny-lnxa图中,即在被引次数做平移后的双对数坐标中,拟合数据分布在一条直线上(图1(f))。

(a)lny1-lnx1图 (b)lny-lnx图 (c)lny-lnxa图图2 双对数坐标中B刊幂律拟合、漂移幂律拟合概率密度分布图

(a)lny1-lnx1图 (b)lny-lnx图 (c)lny-lnxa图图3 双对数坐标中C刊幂律拟合、漂移幂律拟合概率密度分布图

上述分析表明,A刊论文被引次数的密度分布服从漂移幂律分布。尽管漂移幂律模型只做了一个简单修正,但是解决了幂律分布不能直接使用原数据、在双对数坐标下原始数据并不严格散布在一条直线附近而是略有弯曲的两个问题。

3.模型验证。为了进一步验证期刊论文被引次数服从漂移幂律的适用性,再利用B刊和C刊的数据进行模拟,类似于上述分析过程,经检验(表2、表4中B刊和C刊栏)说明选用模型也是可行的。各模型参数也通过统计检验(表3、表5中B刊和C刊栏),B刊和C刊实际数据的论文被引次数概率密度的经验公式分别为:

yB=3.861(x+4.311)-1.966

(7)

yC=12.007(x+3.827)-2.580

(8)

在双对数坐标中有:

lnyB=1.351-1.966ln(x+4.311)

(9)

lnyC=2.486-2.580ln(x+3.827)

(10)

图2、图3分别为双对数坐标中B刊和C刊幂律拟合、漂移幂律拟合概率密度分布图。从图2(a)和图3(a)可以看出,漂移幂律模型比幂律分布模型有较大的改进[4];漂移幂律模型无需对数据做标准化处理,即可得到实际数据的密度分布,见图2(b)和图3(b);在被引次数做平移后的双对数坐标中,拟合数据分布在一条直线上(图2(c)和图3(c))。

四、结论与讨论

通过上述分析,得出改进的期刊论文被引次数密度分布的函数形式,不同学科类别、载文规模和学术影响力的3种期刊论文被引次数概率密度均服从漂移幂律分布,这种简单的分布形式有可能具有普适性,实际情况是否如此,还有待于进一步验证。

期刊论文被引次数服从漂移幂律分布的物理意义:

第二,从密度函数y=f(x)=k(x+a)q可知,当被引次数为0时,概率f(0)=kaq,即kaq为期刊论文0被引的概率。

理论上,随机变量的密度函数或分布函数,包涵了该变量的全部信息。获得变量的密度函数,就等于掌握了变量的内在规律,只有对变量的分布有所了解,才能合理、有效地利用数据进行各种分析。因此,期刊指标的分布规律研究是一项基础性工作。

一个好的理论模型必须具备几个条件:其一,能够解释客观现象,即理论模型能否正确且广泛地解释某种特定的观测现象;其二,理论必须是可验证的,可验证性是理论能否具有科学特性的条件之一,能够被检验的理论才具有科学的特性,也才能对其所可能犯的错误做修正,使此理论能更正确地预测客观现象;其三,理论必须具备简单性,在既有解释程度之下,能够以较少的概念和关系来呈现客观现象。简约原则是模型理论建构的一个重要原则,简约原则要求研究者能够以一个比较简单的模型来解释复杂的关系。

本文通过对3种期刊的模拟,对幂律分布做了改进,认为期刊论文被引次数的概率密度服从漂移幂律分布,能够解释论文低被引次数的规模大、概率高,随着被引次数的增加,被引概率快速减小,高被引的概率仅占很小部分这一客观现象,同时解决了幂律分布不能直接使用原数据、在双对数坐标下原始数据并不严格散布在一条直线附近而是略有弯曲的两个问题。

漂移幂律模型虽然也很简单,但是比幂律模型多了一个参数,它是以牺牲简约性为代价,而获得更接近实际的论文被引次数密度分布函数,从实际情况来看这种改进是合理的,可为今后有效合理地利用期刊计量指标,提供科学的依据。

[1] 张润楚. 多元统计分析[M]. 北京:科学出版社, 2006.

[2] 汪冬华. 多元统计分析与SPSS应用[M]. 上海:华东理工大学出版社, 2010.

[3] 毛国敏, 蒋知瑞, 任蕾, 等. 运用结构方程模型研究期刊指标的结构[J]. 中国科技期刊研究, 2013, 24(1).

[4] 毛国敏, 蒋知瑞, 任蕾, 等. 期刊论文被引频次的幂律分布研究[J]. 中国科技期刊研究, 2014, 25(2).

[5]LuET,HamiltonRJ.AvalanchesoftheDistributionofSolarFlares[EB/OL]. [2013-07-26].http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1991ApJ...380L..89L&data_type=PDF_HIGH&whole_paper=YES&type=PRINTER&filetype=.pdf.

[6] 吴忠良.SARS疫情的标度性质及其物理意义[J]. 防灾减灾工程学报, 2003, 23(2).

[7] 宋卫国, 刘广义, 于彦飞, 等. 小尺度森林火灾的渐近幂律分布[J]. 火灾科学, 2003, 12(2).

[8] 胡海波, 王林. 幂律分布研究简史[J]. 物理, 2005, 34(12).

[9] 韦洛霞, 李勇, 康世勇, 等. 汉语词组网的组织结构与无标度特性[J]. 科学通报, 2005, 50(15).

[10]李洪波, 姚令侃, 李仕雄, 等. 砂堆雪崩幂律分布现象的解释[J]. 四川大学学报: 工程科学版, 2007, 39(4).

[11]方正, 王杰. 自然与社会环境中的幂律现象和双帕累托对数正态分布[J]. 山东科学, 2011, 24(3).

[12]聂锐, 黄传峰. 基于语言分类的WWW网络中社会经济指标幂律分布[J]. 科技导报, 2005, 23(7).

[13]GutenbergB,RichterCF,FrequencyofearthquakesinCalifornia[OL]. [2013-07-26].http://bssa.geoscienceworld.org/content/34/4/185.full.pdf+html.

[14]曹盼盼, 阎春宁. 人类通信模式的幂律分布和Zipf定律[J]. 复杂系统与复杂性科学,2009,6(4).

[15]闫小勇, 王明生. 增长速度对合作网络参与者节点度分布的影响[J]. 物理学报, 2010, 59(2).

[16]江健, 淦文燕, 赵东杰, 等. 基于拓扑势的社会通信网局域中心性分析[J]. 系统工程学报, 2010, 25(6).

[17]王志如, 梁作论, 袁竞峰, 等. 地铁网络无标度特性分析[J]. 东南大学学报:自然科学版, 2013, 43(4).

[18]ChangH,SubBB,ZhouaYP,etal.AssortativityandActDegreeDistributionofSomeCollaborationNetworks[J].PhysicaA:StatisticalMechanicsandItsApplications, 2007, 383(2).

[19]RednerS.HowPopularisYourPaper?AnEmpiricalStudyoftheCitationDistribution[EB/OL]. [2013-07-26].http://arxiv.org/pdf/cond-mat/9804163.pdf.

[20]中国科学文献计量评价研究中心, 清华大学图书馆. 中国学术期刊影响因子年报(自然科学与工程技术)2011年(第9卷)[M]. 北京: 《中国学术期刊(光盘版)》电子杂志社,2011.

[21]中国知网. 中国学术文献评价参考系统: 单篇引文分析[EB/OL]. [2013-07-22].http://www.xkpg.cnki.net/eval/brief/result.aspx?dbPrefix=EVAL.

[22]中国知网. 中国学术文献评价参考系统: 单篇引文分析[EB/OL]. [2013-07-26].http://www.xkpg.cnki.net/eval/brief/result.aspx?dbPrefix=EVAL.

(责任编辑:郭诗梦)

Application of Shifted Power Law Function to the Study of Distribution on Cited Times for Periodical Articles

MAO Guo-min1, JIANG Zhi-rui1, REN Lei2, SHENG Dong-mei3, SUN Zhen-kai4,
YUAN Zhi-xiang5, ZHANG Fang6, SONG Sheng-he7, GE Zhi-jiang8

(1.Editorial Department of CT Theory and Applications, Beijing 100081, China;2.Editorial Department Beijing Journal of Stomatology, Beijing 100050, China;3.Institute of Engineering Mechanics, China Earthquake Administration, Harbin 150280, China;4.Editorial Department of Recent Developments in World Seismology, Beijing 100081, China;5.Editorial Department of Journal of Catastrophology, Xi'an 710068, China;6.Editorial Department of Journal of Graphics, Beijing 100191, China;7.Editorial Department of Earthquake, Beijing 100036;8.Editorial Department of Spacecraft Engineering,Beijing 100094, China)

Density distribution of credible article citation number was calculated (obtained) with the nonlinear iterative calculation method. The probability density for periodical articles cited numbers follows Shifted Power Law distribution. Two problems were worked out after the Power Law distribution of cited times for articles had been improved. The reasonable improvement provides basis for correctly using the periodical measurement index in future.

citation frequency of articles; power-law distribution; shifted power-law function; probability density distribution; simulation

2015-03-12;修复日期:2015-04-05

毛国敏,男,江苏无锡人,理学学士,副编审,研究方向:科技期刊编辑,数理统计。

F224.0

A

1007-3116(2015)08-0063-06

猜你喜欢

幂律概率密度期刊论文
我国体育学领域高被引学术期刊论文特征分析
连续型随机变量函数的概率密度公式
大数据时代下幂律分布在医学领域中的应用价值
计算连续型随机变量线性组合分布的Laplace变换法
2018年金融服务法核心期刊论文盘点与分析
基于GUI类氢离子中电子概率密度的可视化设计
基于幂律分布的房地产泡沫破裂风险预警研究
构建国际英文期刊论文的中文发布体系研究
幂律流底泥的质量输移和流场
国内文物保护胶凝材料研究状况及发展趋势——基于中国知网近15年来期刊论文的定量分析