学术期刊论文总被引频次的动态演进与影响因素研究*
2023-08-03王惠
王 惠
(淮阴工学院图书馆,江苏 淮安 223003)
1927年,Gross等人首次提出被引频次的引文分析概念,最早作为评价科研成果的重要指标,后广泛应用于期刊、单位和学者排名以及绩效、薪资、晋升、任期和招聘等各个领域[1],它的价值和功效也被国内的科研机构和评估工作者所重视[2]。由于国内学术界对被引频次的研究机制仍不完善,有些科研管理者会将被引频次等同于论文质量,导致盲目推崇被引频次,这无疑是扭曲了科学研究的根本目的[3]。因此,研究论文被引频次的影响因素作用机制极具现实意义。
1 研究综述
已有文献在研究论文被引频次的影响因素时,从论文的外部和内部信息来阐释,我们将其称为“外在因素”和“内在因素”,前者指机构权威性、作者学术地位、期刊影响因子等间接信息,后者指论文自身所表达的信息(如论文篇幅、是否获得基金资助、参考文献等)[4]。相比较而言,内在因素的影响更隐晦,对外在因素影响的研究更常见。
Borsuk和Budden等[5]采取广义线性模型研究作者数量、论文语言和第一作者性别对被引频次的影响,结果表明论文语言和第一作者性别没有通过显著性统计检验,作者数量具有较大的影响。Barbara和Aurelie[6]在研究论文被引频次的影响因素时考虑了脚本情况、学科、地理位置、总方程数量、微分方程数量、摘要长度、参考文献数量、作者数量、页码数等指标,发现参考文献数量和页码数即论文长度是最重要的影响因素,方程数量、作者国籍、学科领域也对论文被引频次产生显著影响。Finardi[7]认为绝大部分情况下被引次数与期刊影响因子及其年度变化的关系不大。Didegah[8]等指出刊登在高等级、高影响力期刊上的学术论文更容易得到关注,成为高被引论文可能性更大。Didegah[9]等研究显示参考文献平均被引数量、期刊影响因子对论文被引频次的影响最大。此外,论文作者尤其是第一作者的声望,一定程度上会在学术圈内形成“光环效应”“追随现象”,从而影响被引频次[10]。
从上述研究来看,国外学者对论文被引频次影响因素的讨论已有一定积累,相比较而言,国内研究的深度和广度亟待扩展。大多数学者考察单一因素对论文被引频次的作用机制,如黄雪梅[11]、侯京淮[12]、俞立平[13]等学者分别讨论科研合作、论文下载量以及作者数与论文被引频次的关系,认为这些因素都对论文被引频次产生显著影响。也有部分学者对论文被引频次的影响因素进行系统分析,陈仕吉[14]等选取Web of Science数据库2000年以来发表的所有论文,采用Tobit多元回归模型分析被引频次的影响因素,指出参考文献数量和作者机构数都显著影响论文被引频次。孟凡蓉[15]等分析5本高被引科技管理核心期刊,研究发现期刊影响因子、论文下载次数以及作者是否合作等与论文被引频次存在显著正相关。
总体看来,国内关于论文被引频次影响因素系统性的实证研究较少,缺乏系统梳理和总结,研究方法多以简单绘图分析和统计描述居多。因此,本研究在自变量的选取上力求更加多元和全面,进一步增强模型的解释力。同时鉴于论文总被引频次的影响因素与其关系可能不是简单的线性关系,对论文被引频次影响因素内在作用机制的研究,需要从方法论角度建立一种范式。
据此,笔者以中文社会科学引文索引CSSCI(2021—2022)收录的图书馆、情报学期刊论文为研究对象,将论文总被引频次作为切入点,引入核密度函数估计刻画论文总被引频次绝对差异及动态演进态势。考虑到学术期刊论文被引频次与影响因素的关系较为复杂,作者在已有成果的基础上,结合数据的可获取性,选取了平均作者数、海外论文比、基金论文比、学科扩散、载文量和影响因子指标作为自变量,论文总被引频次作为因变量,综合运用相关系数分析、面板分位数回归明确论文总被引频次与影响因素的关系,找出可能潜在的问题,以期引发科学管理人员和学术界更多的关注,为学术期刊高质量发展给予方向性的指导启示。
2 研究方法与数据
2.1 研究方法
2.1.1 核密度估计
核密度估计即Kernel密度估计,是一种非参数概率估计方法,此方法不太依赖模型,稳健性强,是采用平滑的峰值函数对所取样本观测数据进行拟合,其连续的密度曲线更加直观描绘随机变量分布形态[16]。采用核密度估计展示期刊论文总被引频次的分布延展性、分布位置、极化趋势、分布态势,便于观测期刊论文总被引频次的分布动态及演进规律。假设f(x)为样本学术期刊的总被引频次y密度函数:
式1中,xi为独立同分布观测值,h为带宽,k(·)为核函数,n为观测值个数。在非参数核密度估计中,核函数和带宽的选择关系到核密度估计的质量。依据核密度核函数的不同,可分为高斯核、伽马核、三角核和均匀核[17],笔者采用比较常用的高斯核函数,最佳带宽的选取遵循了均方误差最小的原则。
2.1.2 面板分位数回归
1978年,Bassett和Koenker最早提出分位数回归,一种基于因变量Y的条件分布来拟合自变量X的线性函数均值拓展回归方法,根据不同分位点数据进行分析,使得研究更加翔实,弥补了最小二乘法的诸多不足:a.当数据出现异方差时,最小二乘法的估计结果会有所偏差;b.最小二乘法反映的是因变量Y的均值受自变量X的影响,不能反映一个分布的全部情况;c.当数据存在异常点,最小二乘法估计会受到干扰,使得估计不稳定[18]。2004年,Koenker将截面分位数回归拓展至面板数据的参数估计中,构建面板数据分位数回归模型[19]:
估计参数可以通过求解下述最小化问题:
笔者以基金论文比(fund)、海外论文比(overseas)、平均作者数(author)、影响因子(factor)、载文量(document)以及学科扩散因子(subject)作为自变量,论文总被引频次(cited)作为因变量,综合采用面板分位数回归和普通最小二乘法进行实证检验,对所涉及的变量都进行对数化处理,有效消除异方差的影响。需要说明的是,影响因子、载文量等文献计量指标通常不服从正态分布,分位数回归对此并不敏感。
2.2 数据来源
中文社会科学引文索引(CSSCI)是由南京大学中国社会科学研究评价中心开发研制,收录的期刊编辑规范、学术型强,刊登的学术论文在一定程度上代表该领域研究热点与趋势[20]。考虑到数据的延续性和可获得性,选取图书馆、情报学共17种CSSCI期刊作为研究对象,相关数据来源于2018—2020年的《中国科技期刊引证报告(核心版)社会科学卷》。
3 实证结果
3.1 论文总被引频次动态演进
笔者分别选取2017年、2018年和2019年3个时间截面(见图1),各条核密度曲线将随着时间推进逐渐由虚线变为实线,方便读者观察变量时序上的分布演进过程。分布位置展现图书馆、情报学CSSCI期刊论文总被引频次的高低;分布延展性显示论文总被引频次最高期刊与其他期刊的数值差异,拖尾愈长,差异愈大;分布态势体现期刊论文总被引频次的个体差异及极化趋势,其中波峰数量刻画极化趋势,波峰的高度和宽度反映差异大小。
图1 图书馆、情报学CSSCI期刊论文总被引频次的核密度
图1的纵轴为核密度,横轴为论文总被引频次。在样本期内,随着时间推移,图书馆、情报学CSSCI期刊论文总被引频次整体水平的核密度曲线并未呈现明显地向右或向左变化趋势,表明论文总被引频次并未出现大幅增加或减少。核密度曲线的主峰下降,宽度日益延展,说明期刊个体之间的论文总被引频次绝对差异扩大。此外,核密度曲线波峰数量减少,右尾逐渐平缓,一方面,意味着尽管不同期刊的论文总被引频次数量存在较大差异,但极化效应并不凸显;另一方面,表明论文总被引频次数量可观的学术期刊越来越多。
3.2 影响因素的相关性
先分析多种影响因素的相关关系,再挑选出哪些影响因素进入面板分位数回归模型。由表1可知,除了海外论文比与总被引频次的相关性系数没有通过显著性统计检验,其他变量都在10%的水平下通过统计检验,即所选取的论文总被引频次影响因素具有一定可信度,可以进行回归分析。海外论文比(overseas)这一指标是来源期刊中海外作者发表论文占全部论文的比例,用来衡量期刊国际化交流程度。经检查原始数据发现,2019年海外论文比数值为0的期刊有《现代情报》《中国图书馆学报》《图书与情报》《图书馆学研究》《图书馆建设》和《大学图书馆学报》,且绝大部分期刊论文的海外论文比数据都为零,反映出图书馆、情报学CSSCI学术期刊刊登的海外论文偏少。关键原因就是样本期刊均为中文期刊,即使刊登了少量海外论文,绝大部分也为海外华人撰写。
表1 被引频次影响因素的相关系数矩阵
平均作者数与影响因子、学科扩散因子、基金论文比表现为正相关性,相关系数分别为0.35、0.72和0.70。载文量与影响因子、海外论文比与学科扩散因子表现为负相关性,这说明载文量高低不一定会对学术期刊的影响因子产生作用机制。据《中国学术期刊国际引证年报》近几年的数据显示,科技期刊国际化引他总被引频次持续增长,但我国各学科被引频次所占份额差别较大,学科发展不平衡,“图书馆、情报与文献学”学科国际影响力亟待增强,加强国际文化交流,扩大学术期刊知名度,为我国图书馆、情报与文献学学术期刊尽快走向世界的关键所在。此外,载文量与平均作者数和基金论文比的相关系数并不显著,说明载文量与两者关联程度很弱。
3.3 面板分位数回归
由于传统最小二乘法回归本质上是一种均值回归,只能宏观分析论文被引频次影响因素,当面对数据分布异常、数据样本较小等问题处理比较麻烦,面板分位数回归模型能够刻画论文被引频次在不同水平上的影响因素状况,给出更为全面的解读。
将论文总被引频次作为自变量,影响因素作为因变量,采用双对数模型进行回归分析,获得具有弹性性质的回归系数。结果发现,海外论文比系数没有通过10%的水平下进行统计检验,其余变量都通过且模型的拟合优度较高,也佐证了表1的结果,说明平均作者数、学科扩散因子、基金论文比、影响因子和载文量5个变量能很好地解释论文总被引频次的信息,若从学术期刊评价的角度而言,这5个指标更为重要。
为了进一步解读期刊论文总被引频次在不同水平下受其他因素影响的大小,鉴于数据量不大,将总被引频次分为3个分位(τ=0.25、0.50、0.75),采用分位数回归进行估计。相比较传统的面板数据模型,面板数据分位数模型可以不假设数据分布服从正态分布,有效避免受到离群值的影响,该方法能清楚地刻画影响因素对学术期刊论文的总被引频次在不同分位点的边际影响,结果见表2。随着τ值由0.25增大至0.75,R2从0.763提高到0.792,属于中等水平相关,5个影响因素对论文总被引频次较低的期刊解释程度要弱于论文总被引频次较高的期刊。
表2 各个影响因素对论文总被引频次的作用效果
在τ=0.25、τ=0.50和τ=0.75时,影响因子的弹性系数通过1%的显著性水平统计检验,与传统回归所得弹性系数差距不大,也就是影响因子对论文总被引频次具有正向作用。论文总被引频次在条件分布不同位置发生变动,影响因子对论文总被引频次的弹性系数也出现规律性变化,弹性系数由0.25分位点时最高0.711,下降至0.50分位数最低0.588,在0.75分位点升至0.710。该变化说明,当论文总被引频次处于条件分布低分位点时,影响因子的正向作用最为明显,但随着分位点上升逐渐变弱,达到一定的阈值,杠杆效应又会增强,究其原因可能是高影响因子期刊的编辑部在征稿时,并没有刻意强调论文的引文数量或质量,低影响因子的期刊在这方面有所诉求。
平均作者数的估计系数随着分位数增加而先降低再升高,说明随着论文总被引频次的提高,平均作者数的增加对其贡献先减少后增加,当分位数较低(τ=0.25、τ=0.50)论文总被引频次较少时,平均作者数的弹性系数并没有通过10%的显著性水平统计检验;当分位数较高(τ=0.75)论文总被引频次较大时,平均作者数的正向作用才显著,且弹性系数超过了传统的回归系数。因此,从理论角度来讲,对于论文总被引频次较少的学术期刊,其平均作者数对论文总被引频次并没有产生太大的影响;对于论文总被引频次较高的期刊,其论文总被引频次更易受到平均作者数的影响。
从传统回归看,学科扩散因子对论文总被引频次的弹性系数为正数,弹性系数为0.385,在5%的水平下通过统计检验,从分位数回归结果来看,当论文总被引频次较高(τ=0.75)时,论文总被引频次与学科扩散因子关系不大。当论文总被引频次数值处于较低或中等时,学科扩散因子的弹性系数分别为0.262和0.438,表明学科扩散因子对论文总被引频次的影响存在门槛效应,也就是说,当论文总被引频次达到一定数值后,即便学科扩散因子再增加,也无法提高论文总被引频次。分位数面板回归结果验证了学科扩散因子对论文总被引频次影响效果分布特征存在差异,这也是前期研究采用传统回归模型无法展现的信息。
载文量对论文总被引频次的影响在各个分位数均存在显著的正向影响,说明载文量越高,论文总被引频次也越高。具体而言,载文量的弹性系数随着分位数增加而下降,说明随着期刊论文总被引频次的增加,载文量的增加对其贡献越来越小。当分位数较高(τ=0.75)论文总被引频次较大时,载文量的弹性系数较小;当分位数较低(τ=0.25)论文总被引频次较小时,载文量的弹性系数较大。从理论角度来讲,对于低论文总被引频次的期刊,提高载文量对增加论文总被引频次的贡献较大;对于高论文总被引频次的期刊,提高载文量对增加论文总被引频次的贡献较小。图书馆、情报学CSSCI期刊总体上属于学术质量很高的期刊,近年来学科所有期刊的载文量并没有明显增加,说明此类期刊更加注重论文质量,这与金碧辉[21]等人的研究结论并不完全一致,可能与所选样本有关。
基金论文比与论文总被引频次显著负相关,当论文总被引频次在0.25分位时,基金论文比的弹性系数为-0.364,随着论文总被引频次的增加,或分位的提高,基金论文比对论文总被引频次的挤出效应变大。这点需要引起编辑部的关注,通过官方渠道告知投稿作者撰写的论文主题应与标注的资助基金项目标题相符合,不能因为希望论文被录用就挂一些风马牛不相及的项目。
4 研究结论
从图书馆、情报学CSSCI来源期刊的论文总被引频次核密度估计曲线可以看出,样本期间内此类期刊的论文总被引频次并没有出现太大的变化。近些年,期刊的评价机构和科研单位已把论文总被引频次作为衡量期刊学术水平的重要指标,但图书馆、情报学CSSCI来源期刊编辑部并没有为了提高论文总被引频次而采用一些非正常手段,“爆引”和“聚引”现象并不存在。在对权威核心期刊进行学术评价时,不仅需要关注论文总被引频次,还需要参考影响因子和扩散因子等指标,防止恶意引用现象。
笔者基于图书馆、情报学CSSCI学术期刊2017—2019年的面板数据,综合运用传统回归方法和面板分位数回归方法重点反映平均作者数量、基金论文比、载文量、海外论文比、学科扩散因子和影响因子对论文总被引频次在各个分位点处的作用机制,并揭示弹性系数在不同分位点处的分布特征和变化规律,指出平均作者数量、学科扩散因子、载文量和影响因子与论文总被引频次呈正相关关系。另外,研究结论也证实了论文层面的一些要素,海外论文比与论文总被引频次总体无关,基金论文对论文总被引频次没有起到正向作用,论文质量才是主要原因。
平均作者数仅对论文总被引频次高的期刊产生影响,与论文总被引频低的期刊无关,增加平均作者数并没有提高此类期刊的论文总被引频次数,导致这一结果的原因是多方面的,“伪合作”行为也弱化了论文被引频次与作者数的密切程度。对于论文总被引频次高的75%的期刊,增加平均作者数可以提高论文总被引频次,即平均作者数每增加1%,论文总被引频次可以提高0.67%。然而此统计分析结果,并不具有实际的操作意义。某种程度上论文研究内容决定了作者数的多少,期刊编辑部并不会对论文独著或合著有特殊的要求,论文一旦刊登,作者也无法预料文章将来的被引频次。
基金论文比并未对论文总被引频次具有积极贡献。提高载文量对论文总被引频次具有正向作用,分位数回归结果表明,载文量对论文总被引频次高的期刊正向影响要弱于论文总被引频次低的期刊。一般而言,载文量在一定程度上体现学术期刊的知识存储和信息量水平,载文量的增加对知识与信息的传播具有积极作用。但载文量是把双刃剑,实践表明前几年许多期刊为了扩大影响力盲目追求增加载文量,并没有增加论文总被引频次,也没有提高期刊的影响因子。提高期刊办刊质量,规范审稿流程,论文被引频次自然增加。
对于论文总被引频次数值处于中等偏下的期刊,其学科扩散因子对论文总被引频次产生正向影响;论文总被引频次与影响因子具有显著的“U”型关系,论文被引情况容易受到所刊登的期刊影响。仅仅采用传统的最小二乘法回归分析有时会掩盖两者真实关系,有必要从多视角进行考查。由此可见,论文总被引频次的影响因素比较复杂,就单个期刊而言,受研究选题、论文类型、创新程度、期刊偏好、下载方式等多种因素的影响。需要说明的是,虽然由于期刊差异、学科不同,研究结论可能存在差异,但作为一种研究范式,本项研究依然具有一定的参考价值。