论文被引频次离散系数对影响因子影响机制研究*
2021-02-01俞立平庞如超周娟美姚丽霞
俞立平 庞如超 周娟美 姚丽霞
(1. 浙江工商大学统计与数学学院 杭州 310018;2.沧州师范学院 经济管理学院 沧州 061001;3. 中北大学经济与管理学院 太原 030051;4. 浙江工商大学 工商管理学院 杭州 310018)
0 引 言
学术期刊被引频次离散系数是一定时期内期刊发表论文的被引次数的标准差除以均值的结果。离散系数也称为变异系数,一般用来分析评价指标的统计特征,是评价指标稳定性水平的一种度量,一般认为,稳定性好的评价指标更好。从离散系数产生的原因角度,它受学术热点、论文质量、论文创新程度等多种因素的影响,因此有必要研究学术期刊论文被引频次离散系数对影响因子的影响机制,而这方面的研究比较缺乏。开展相关研究不仅有利于丰富文献计量学理论,对于学术期刊评价也具有重要意义。
在学术评价中,离散系数主要应用在对统计指标特征的分析上。刘雪立等[1]采用变异系数分析不同分区期刊JIPR8指标的差异性,发现Q3和Q4分区内期刊的JIPR8变异系数最小。俞立平等[2]采用包活离散系数的方法分析了加法合成、乘法合成、对数合成、代换合成方法评价结果特征,进而提出各种方法的适用范围。张洋等[3]分析了纯电子期刊网络信息计量指标与Altmetrics指标的变异系数特征。杨思洛等[4]采用变异系数研究期刊零被引论文,认为变异系数消除了各期刊零被引率平均值差异的影响,可以用来比较期刊间零被引论文率稳定性大小。周娟美等[5]等对采用TOPSIS学术期刊评价结果的离散系数进行分析。俞欣辰等[6]采用包含离散系数的统计指标比较了熵权法、因子分析、TOPSIS三种评价方法评价结果数据特征。许林玉等[7]采用变异系数结合其他分析方法分析2008-2017年期间大陆31个省市期刊论文产出空间格局的分布及演化特征。
还有一些研究更多从离散系数的内涵角度展开。姜联合[8]认为学术期刊质量稳定性,可以用期刊多年影响因子的变异系数表示,变异系数越小,学术期刊质量越稳定。俞立平[9]用指标信息熵和离散系数表示信息量,对学术期刊评价中的关键指标进行测度。李云霞[10]对12种农业资源环境类核心期刊进行统计分析,发现中文文献引用量变异系数小于外文文献,近期文献引用量变异程度高于远期文献。
从现有的研究看,关于离散系数或变异系数在学术评价中的应用,主要集中在将其作为统计指标分析的一种方法,对其内涵进行分析的研究较少,只有少量文献涉及离散系数与期刊学术质量稳定性之间的关系。总体上在以下方面有待深入:
第一,关于期刊论文被引频次离散系数对期刊影响因子的影响机制研究,现有的研究均未涉及,有待进一步深入。
第二,关于期刊论文被引频次与期刊影响因子关系的实证研究,现有研究比较缺乏,也有待进一步实证。
第三,在以上研究的基础上,有必要探讨期刊论文被引频次离散系数对于学术期刊评价的意义。
本文以CSSCI经济学期刊为例,基于中国知网的引文数据库,在理论分析的基础上,对以上问题进行实证研究。
1 期刊论文被引频次离散系数对影响因子的影响机制
1.1研究界定需要注意的是,期刊论文被引频次离散系数与期刊被引频次的离散系数是两个不同的概念。前者的对象是一定时期内期刊内的每篇论文,通过每篇论文的被引次数可以计算得到离散系数。后者是根据一定时期内期刊每年所有论文的总被引频次,进而计算得到期刊被引频次的离散系数。前者是微观概念,后者是宏观概念,本文重点研究前者。
1.2论文被引频次离散系数对影响因子的影响机制对单个期刊而言,论文被引离散系数主要受论文质量差异、办刊栏目差异、论文热点差异、作者影响差异等因素的影响,这些因素不同导致同一期刊不同论文的被引次数产生差异,表现为高被引论文和低被引论文,进而使得期刊论文被引频次离散系数产生差异,并最终影响到期刊的影响因子(见图1)。
图1 期刊论文被引离散系数与影响因子
1.2.1 论文质量差异是造成期刊被引频次差异的主要原因 任何一种学术期刊而言,尽管都经过了一系列严格的同行评议和出版程序,但都很难保证发表论文质量相同,同行评议并不是万能的,期刊在论文录用及管理中也总会存在各种不确定因素。一般而言,高质量论文会得到更高的引用,低质量论文的被引频次相对会差一些。当然,任何事情都有特殊情况,高质量论文如果研究领域比较生僻,或者创新还没有得到认可,其被引也有可能较低。但毕竟期刊论文总量较多,这些均可视为异常点和特殊情况,并不影响大局。
学术质量较高的期刊往往论文质量相差不大,这是因为高水平期刊审稿专家水平较高,办刊比较规范,能够挑选出优秀的论文进行发表。而一般学术期刊这方面的水平相对会差一些,导致论文质量差异较大,进而影响到论文被引频次,导致不同论文被引频次相差较大,进而使得论文被引频次离散系数较大。所以高质量的学术期刊被引频次离散系数一般较小,而一般学术期刊被引频次离散系数相对较大。
1.2.2 办刊栏目差异影响期刊论文被引频次离散系数 一般而言,设置不同的研究领域对期刊论文被引影响不大。但有一些特殊的栏目设置会对期刊论文被引频次产生较大的影响,比如设置综述类栏目、研究方法类栏目等,一般这些栏目的论文容易被引用,从而拉高了被引频次,进而增加了被引频次离散系数。不过一般情况下,设置这样栏目的期刊并不多,但是在刊载论文时倒可以具有这样的倾向性,进而影响到论文被引频次离散系数。
1.2.3 录用研究热点类论文对论文被引频次离散系数产生影响 研究热点论文往往容易获得高被引,所以会增加期刊论文被引频次离散系数。但一般情况下,研究热点论文也不会过多,此外对于研究热点一般很多期刊也会感兴趣,所以这种影响总体上被稀释了。
1.2.4 作者影响力差异会影响论文被引频次离散系数 正常情况下,名家、大家论文容易被引用,期刊如果能够吸引到更多的名家和大家发表论文,无疑会增加论文被引频次离散系数。
以上几种情况中,通过办刊栏目、研究热点、作者影响等吸引到的高被引频次论文虽然能够增加被引频次离散系数,但归根结底论文的引用取决于论文的质量,所以期刊论文质量差异才是影响论文被引频次差异的主要原因。期刊质量越高,论文被引频次差异越小,论文被引离散系数越小,影响因子越高。
1.3期刊论文发表时序影响论文被引频次离散系数根据影响因子的计算公式,影响因子是某期刊过去两年发表的论文在统计当年的平均被引次数。在这些论文中,发表越早的论文越容易被检索到,发表越迟的论文越难以被检索到,加上期刊论文都有一定的编辑出版周期,所以过去24个月(2年)的论文即使质量相同,在统计当年的被引频次也会存在差异,这就注定了期刊论文被引频次离散系数的出现是一种必然现象。但是由于不同期刊在计算影响因子时均有这个问题,因此也可以说论文发表时序对期刊论文被引频次离散系数具有影响,但对影响因子没有影响。
1.4影响因子影响因素的其他说明综合迄今为止的相关研究,影响因子的影响因素主要包括办刊时间、期刊级别、载文量、出版周期、基金论文比、是否开放获取、作者数量、收录数据库等。需要说明的是,影响因子的影响因素不一定就是期刊论文被引频次离散系数的影响因素。作者在进行论文引用时,并不关注与期刊相关的那些因素,如办刊时间、载文量、出版周期、是否开放获取、收录数据库等。顶级期刊、权威期刊论文虽然容易获得更多引用,但计算论文被引离散系数时,同为顶级或权威期刊,也不存在差异。对于论文层面的一些要素,如是否基金论文、作者数量等对作者引用也没有影响,毕竟论文内容才是主要原因。
综上所述,影响因子的其他影响因素对影响因子会产生影响,但不会影响期刊论文被引频次离散系数。
2 研究方法与数据
2.1研究方法为了分析期刊论文被引频次离散系数与影响因子的关系,本文采用回归分析法,基本模型如下:
log(IF)=c0+c1log(DC)+c2D
(1)
公式(1)中,IF为期刊影响因子,DC(Dispersion coefficient)为期刊论文被引频次离散系数,D为虚拟变量,表示期刊的级别,c0、c1、c2为回归系数。
为了分析期刊论文被引频次离散系数对影响因子的影响规律,进一步引入其2次项:
log(IF)=c0+c1log(DC)+c2log2(DC)+c3D
(2)
2.2研究数据本文以CSSCI经济学期刊为例进行研究,2019-2020版CSSCI经济学期刊共有70种。相关引文数据采用中国知网CNKI的引文数据库,为了保证计算影响因子的数据和计算期刊论文被引频次离散系数的数据同步,本文中论文数据为2016-2017年,被引数据为2018年。
对所有经济学期刊论文必须进行清理,删除了非学术论文数据,主要是新闻、征稿启示、书评、会议通知、名家介绍、会议综述等,最终有效论文为17 090篇。
影响因子的计算采取标准影响因子计算方法,期刊论文被引频次离散系数是对每种期刊分别进行计算,用标准差除以均值。变量的描述统计如表1所示。
表1 变量描述统计
3 实证研究结果
3.1两种典型的论文被引频次离散系数与影响因子关系图两种典型的论文被引频次升序后分别如图2和图3所示。图2是经济学顶级期刊《经济研究》的被引频次排序,图3是被引频次离散系数最大的《南方经济》被引频次排序。《经济研究》由于论文质量普遍较高,零被引论文几乎没有,并且整个论文被引曲线更加平滑。而《南方经济》低被引论文较多,低被引与高被引论文之间缺少过渡,所以曲线更加陡峭。从而导致论文被引频次离散系数较大。
图2 经济研究被引频次排序
图3 南方经济被引频次排序
3.2期刊论文被引频次离散系数与影响因子关系下面分析期刊论文被引频次离散系数与影响因子的关系,考虑到不同经济学期刊质量存在一定的差异,根据浙江大学的学术期刊分类标准,将经济学期刊分为一级期刊和普通CSSCI期刊两大类,回归结果如下:
(3)
从回归结果看,模型的拟合优度为0.321,属于低水平相关,考虑到期刊影响因子的影响因素较多,而期刊论文被引频次离散系数一个变量就解释了其32.1%,说明其拟合水平可以接受。期刊论文被引频次离散系数和期刊级别虚拟变量均通过了统计检验,前者的弹性系数为-0.891,说明期刊论文被引频次离散系数每提高1%,期刊影响因子下降0.891%,两者负相关。期刊级别虚拟变量的回归系数为0.568,说明一级期刊的影响因子平均比普通期刊高0.568。
进一步引入期刊论文被引频次离散系数的2次项进行回归,结果如下:
(4)
图4 两者关系
期刊论文被引频次离散系数的1次项在10%的水平下通过了统计检验,其2次项在1%的水平下通过了统计检验。1次项的回归系数为-0.298,2次项的回归系数为0.497,说明期刊论文被引频次离散系数与影响因子之间呈U型曲线(见图4),当期刊论文被引频次离散系数较低或较高时,影响因子较高。进一步计算出U型曲线的对称轴,发现绝大多数数据集中在U型曲线的左侧。
4 结论与讨论
4.1论文质量差异是期刊论文被引频次离散系数差异的主要原因本文研究认为,论文被引离散系数主要受论文质量差异、办刊栏目差异、论文热点差异、作者影响差异等因素的影响,但归根结底受期刊论文质量影响,当期刊办刊水平较高,期刊论文总体上质量相差不大时,期刊论文被引频次离散系数较小;而当期刊论文质量相差较大时,期刊论文被引频次离散系数较大。
本文还发现,论文发表时序对论文被引频次离散系数具有系统性影响,但对影响因子没有影响。另外有一些因素对影响因子具有影响,但不会影响论文被引频次离散系数。
4.2期刊论文被引频次离散系数与影响因子负相关基于经济学CSSCI期刊的研究发现,期刊论文被引频次离散系数与影响因子负相关,弹性系数为-0.891。其内在机制是,期刊办刊质量与期刊论文被引频次离散系数负相关,而期刊影响因子与期刊论文质量正相关。
4.3期刊论文被引频次离散系数与影响因子之间呈U型曲线基于经济学CSSCI期刊的研究结果表明,期刊论文被引频次离散系数与影响因子之间呈U型曲线。对于U型曲线左侧与右侧的数据,其作用机制并不相同,当期刊被引频次离散系数较低,即数据位于U型曲线左侧时,说明期刊论文质量差距不大,办刊水平较高,因此拥有较高的影响因子。而当期刊被引频次离散系数较高,即数据位于U型曲线右侧时,由于期刊论文质量相差大,导致少数论文高被引,从而提高了期刊论文被引频次离散系数和影响因子。但总体上,U型曲线右侧数据较少,因此平均呈现负相关。
4.4条件成熟时可以将期刊论文被引频次离散系数作为期刊评价指标如果经过大量的数据和实证检验,发现期刊论文被引频次离散系数与影响因子负相关,这个结论是可靠的。那么在条件成熟时,可以引入论文被引频次离散系数作为学术期刊的评价指标之一。注意这个指标是反向指标,论文被引频次离散系数越高,说明期刊办刊质量越低。
4.5对于其他学科期刊论文被引频次离散系数与影响因子的关系有待进一步研究本文的研究结论是基于CSSCI经济学期刊和中国知网CNKI引文数据库研究的结果,由于文献计量指标受学科领域、学科发展速度、收录数据库等多种因素的影响,因此对于其他学科期刊论文被引频次离散系数与影响因子的关系有待进一步研究。