基金资助对中文艾滋病相关论文被引次数的影响

2017-03-21，，，

中华医学图书情报杂志 2017年3期

，，，

当前，越来越多的专家、学者意识到同一期刊中不同论文的影响力存在较大差距，只以期刊影响因子评价学术论文的质量显得过于片面。甚至有学者认为论文的被引频次主要与其内容质量有关, 而与发表期刊的影响因子关系不大[1-2]。而且，科研工作者更关心的是自己的研究成果被国内外同行的认可程度，而非所处文章群的平均学术水平。单篇学术论文的被引次数在一定程度上反映了人们对某项研究工作的关注程度和重视程度, 体现了该论文在学术交流中的作用和地位。因而, 在科研评价工作中越来越倾向于将论文的被引次数作为衡量论文重要性的客观指标。

基金资助为科学研究提供了必要的条件，为基础科学研究的持续健康发展奠定了坚实有效的基础，同时也提高了科学工作者解决重大问题的能力[3]。与此同时，随着各国科技与经济竞争的加剧以及科研资金投入的不断增大，要求说明科研资金使用效益与效率、加强科研经费的管理以及打击学术腐败的呼声日益高涨。这些都使定量研究基金资助对论文的学术水平或学术影响力是否更大显得非常必要。如果采用论文的被引次数作为论文学术质量的表征，就需要研究基金资助论文是否比非基金资助论文获得更高的引用次数[4-8]。

然而，类似于医学研究中的观察性数据，由于没有经过随机化分组，直接以二分类变量为分组变量，对两组数据进行比较是不具有可比性的。论文的累积被引次数也受很多因素(如论文发表时间)的影响，如果直接对基金论文和非基金论文的被引次数进行比较而不考虑这些因素的影响，同样会造成两组论文不可比，最终造成研究结果的失真。倾向指数法的概念由Rosenbaum和Rubin在1983年首次提出，它是通过构造每个个体的倾向指数得分，然后通过匹配等方法重新选择研究样本，使非随机化的数据达到类似随机化数据的特点，又称为“事后随机化”。本文采用倾向指数法研究基金资助对学术期刊论文的累积被引次数的影响，同时为研究期刊论文累积被引次数的其他影响因素提供参考。

1 资料与方法

1.1 资料来源

数据来源于“中国知网”(http://www.edu.cnki.net)的“中国学术期刊网络出版总库”，进入高级检索，跨库选择只选择“期刊”，检索项为“关键词”，检索词为“艾滋病”，并且匹配“精确检索”，以保证检索到的文献资料都是关于艾滋病专题研究的期刊论文，选择学科领域“预防医学与卫生学”。考虑到论文累积被引次数和发表时间的非线性关系，以及检索文献时2015年以后发表的论文发表时间短、被引少等情况，检索区间限定在2010-2014年，共检索到相关文献675篇，除去非期刊论文和影响因子未查到的论文，共624篇。将所有检索结果导入Excel进行数据整理，对检索出的文献按题名、作者等进行排序，剔除抄袭和一稿多投的文章。对入选期刊论文的特征进行分析，内容包括被引频次、影响因子、基金项目、第一作者的发文量、第一作者的h指数(指其发表的Np篇论文中有h篇每篇至少被引h次、而其余Np-h篇论文每篇被引均小于或等于h次，h指数能够很好的反映一个人的学术水平，h指数越高，表明发表论文的质量越高[9-10])、期刊是否为中文核心和发表时间等。本研究的发表时间指下载期刊论文的时间和期刊论文发表时间的时间间隔，以年为单位。

1.2 研究方法

1.2.1 倾向指数匹配法

倾向指数匹配法(Propensity Score Matching)是以处理因素(基金资助)为应变量，混杂因素为自变量，建立logistic模型，根据模型计算每个期刊论文的倾向指数[11]。

倾向指数的定义：在给定一组协变量xi条件下，将任意一个研究对象分配到处理组或者对照组的条件概率，第i个研究对象被分配到处理组而非对照组的概率可以表示为：e(xi)=P(zi=1|xi)，假定分组变量zi和协变量xi相互独立，则对任意一个观察变量xi[11]：

其中，P被称为倾向指数[11]。倾向指数的主要研究方法包括匹配、分层法和协变量调整等。本文采用倾向指数最近距离匹配法对组间相同或相近的个体进行配对，并将差值设定在某个范围内，即为卡钳匹配[12]，该研究中卡钳值设置为0.02，匹配比例为1:1。

1.2.2 标准化差异法

倾向指数匹配法的目的是使非随机化的数据达到类似随机化数据的效果。以往很多研究都是假设检验法来评价组间的混杂因素的均衡性，近年来，标准化差异法在倾向指数的研究中应用较多。

连续性变量的定义是：

分类变量的定义是：

其中，PT和PC分别表示处理组和对照组中待检验变量的率。一般认为，当标准化差异小于10%时，认为组间变量的均衡性较好[13]。

1.2.3 分析方法

对整理的数据(基金组和非基金组)分别进行基本的统计描述，定量资料采用两独立样本u检验，定性资料比较采用两独立样本χ2检验。通过描述分析发现两组间协变量分布不均衡。为了均衡混杂因素采用倾向指数匹配法，对匹配后的资料采用假设检验法和标准化差异法评价组间协变量是否均衡，并采用配对t检验对基金论文与非基金论文的被引次数进行分析。本文用到的倾向指数匹配法由自编的R 程序实现，其他统计计算在R统计软件以及Excel中进行[14-15]。检验水准α=0.05。

2 结果与分析

2.1 研究对象的基本情况

检索到相关文献675篇，除去非期刊论文和影响影子未查到的论文，共624篇，有效率为92.44%。其中基金论文192篇，占30.77%。所属期刊影响因子小于0.5的论文所占比例最大，达到62.66%。作者的发文量主要是1篇或2篇，作者的h指数都比较低，论文的零被引率为23.72%，论文的被引次数为1-5次，被引次数在16次以上论文只有14篇(仅占2.24%)，约有一半的论文作者为1-3个，核心期刊论文所占比例不足25%(表1)。

2.2 研究对象被引情况

2.2.1 单篇被引频次区间分布情况

由于选择的文献发表时间较短，624篇被引论文无论是从基金组还是从非基金组来看，多数论文被引次数均较低(0-5次)，基金组单篇被引频次在16次及以上的论文有6篇(仅占3.12%)，非基金组57.41%的论文仅被引用了1-5次，26.16%的论文被引频次为0，单篇被引频次在16次及以上的论文有8篇(仅占1.85%)。被引论文分布呈现被引次数越高，分布篇数越少；被引次数越低，分布篇数越多的特点(表2)。

2.2.2 零被引率情况

2010-2014年基金论文零被引率与非基金论文零被引率的比较见表3。从表3可见，除2012年基金论文零被引率略高于非基金组零被引率外，基金论文零被引率均低于非基金论文零被引率，非基金论文零被引率是逐年增加的，到2014年零被引率达到60%。

表1 研究对象基本信息

表2 单篇被引频次区间分布

表3 基金论文零被引率与非基金论文零被引率的比较

2.2.3 平均被引次数分布情况

2010年发表的论文非基金组获得了较多的引用，平均被引次数为4.88，高于基金组的平均被引次数；而其他年份发表的论文平均被引次数表现出明显的规律性，基金组的平均被引次数均大于非基金组的平均被引次数，但都呈现逐年递减趋势(图1)。

图1 2010-2014年论文平均被引次数分布

2.3 基金论文与非基金论文被引次数的比较

2.3.1 基金论文与非基金论文主要文献计量指标的均衡性分析

原始资料中入选的协变量包括影响因子、发表时间、作者个数、第一作者发文量、第一作者h指数、期刊是否中文核心。采用倾向指数匹配之前，对两组间的协变量进行基本统计描述与分析，定量资料采用检验，定性资料采用χ2检验。所有协变量中影响因子、作者个数、第一作者发文量、第一作者h指数、期刊是否中文核心等变量在两组间分配不平衡(P<0.05 )，见表4。

2.3.2 用倾向指数法匹配两组间协变量

倾向指数匹配法通过构建Logistic回归模型计算倾向得分进行匹配。有研究表明，回归模型变量选择的标准应该是纳入所有与结果有关的变量。本文以基金资助为因变量，影响因子(χ1)、是否中文核心(χ2)、作者个数(χ3)、第一作者发文量(χ4)、第一作者h指数(χ5)、发表时间(χ6)为自变量拟合Logistic回归模型。得倾向指数(PS)的计算公式为：

表4 倾向指数匹配前主要文献计量指标分布

以倾向指数为依据，逐一对基金论文和非基金论文进行卡钳匹配，共有148对匹配成功。匹配之后，纳入模型的6个协变量，用假设检验法(配对t检验)检验组间的均衡性，得到P值均大于0.05，两组间差异无统计学意义，说明匹配之后两组间协变量达到了均衡。考虑到匹配之后样本量变小而导致P值增大，为了真实地表明组间协变量达到了均衡，采用标准化差异来评价均衡性，得到标准化差异均小于10%，因此可以认为组间变量的均衡性较好(表5)。

表5 倾向指数匹配后协变量分布

2.3.3 倾向指数匹配后对两组间的被引情况进行分析

对匹配后的基金论文与非基金论文被引次数进行比较，采用配对t检验，t统计量为-0.866，P>0.05，说明基金论文与非基金论文被引次数的差异不具有统计学意义(表6)。

表6 倾向指数匹配后两组被引次数的比较

3 讨论

基金资助是科学研究必要的物质条件，在提高创新能力、提高科学技术水平和促进社会进步等方面起重要作用，为科学事业的持续健康发展奠定了强大而坚实的基础，同时也提高了科学研究解决社会经济等重大问题的能力[6-8]。本文的结果说明基金资助对中文预防医学论文被引次数的影响无统计学意义。为了使单因素分析结果更加准确可靠，本文还同时采用负二项回归模型对论文被引次数进行多因素分析，结果同样表明基金资助对论文被引次数的影响无统计学意义[5]。

造成基金论文被引次数并不比非基金论文高的原因，一方面可能是由于科研工作者为了提高科研成果的显示度，并不把基金资助课题最核心的论文发表在国内期刊上[16]。据文献报道，1999-2009年我国内地作者的高影响力论文 (被引用位列各学科的前 1%) 有4 433篇，其中只有51篇 (1.2%) 在内地期刊发表[17]。论文外流现象不只是在中国存在，而是一个世界性的问题，这与各国科学技术发展水平有很大的关系，但是这种现象严重影响了我国科技期刊的发展。另一方面，近年来，学术期刊质量评价体系中将基金论文比作为衡量期刊学术水平的重要指标[5]，尤其是2008年成为中文核心期刊评价指标之一，造成很多杂志社倾向于发表标注了基金资助的论文，而国内期刊标注基金论文会出现人为操纵的可能[5]。甚至有些作者在标注基金项目时，可能是出于结题或为以后申请更多基金项目考虑，在发表医学论文时多标基金资助项目的情况，此行为会导致基金论文与优质非基金论文的质量不存在明显差别。

4 建议和措施

4.1 国家政策方面

国家应出台相关政策公平对待国内学术期刊论文，采取措施加强引导，努力创造条件扶持重点学科创办网络版期刊，提高国内期刊国际化水平，创办国际化英文刊物，吸引优秀科研成果发表在国内期刊上发表。在论文出版和获取方面，降低出版费用，在一定程度上实现论文的开放获取，提高论文展示度和被引次数。应全方面评价科研成果与学术期刊，不能过度依赖影响因子、基金论文比等量化指标，应让科研评价工作回归到科学本身上来。不过分量化科研成果，而通过同行评议与学术影响力本身来评价科研工作者、科研成果、学术期刊是抑制论文外流最重要的方法，最终推动我国整个科学事业尤其是学术期刊的发展。