百分位数指标的修正及评价分析
2018-10-30王彩虹张立彬
王彩虹 张立彬
〔摘 要〕针对相对影响和百分位数指标的局限,提出修正百分位数指标。从引文量分布特征、同区引文量差异、引文量与发文时长关联性等方面,对相对影响和百分位数指标进行了对比分析。在此基础上,将相对影响和百分位数指标融合并引入时效性参数,构建了修正百分位数指标并以图书情报类核心期刊及高校图书馆作为测评对象进行了案例分析。结果表明,修正百分位数指标可将位于同一百分位区间但发文时长及引文量不同的论文纳入到同一尺度下进行对比评价,测评结果对于引文数量特征和内在规律性的反映更为客观。
〔关键词〕相对影响;百分位数;时效性;指标;期刊;机构;图书馆;学术影响力;评价
DOI:10.3969/j.issn.1008-0821.2018.08.009
〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2018)08-0067-06
〔Abstract〕For the more reasonable in the evaluation of academic influences,the author designed a revised percentile rank scores index.The relative impact indicator and percentile rank scores were analyzed based on the distribution characteristics of the citations,internal diversity of the papers at the same percentile rank and the correlation between citations and publication time.On this foundation,a revised percentile rank scores index which introducing heterogeneity and timelines parameters was designed.Taking the core periodicals of library and information and the university library as the evaluation objects,the empirical investigation of the revised percentile rank scores index was conducted.It was clarified by the empirical results that compared with percentile rank scores index,the model proposed had a higher discrimination and sensitivity.The revised percentile rank scores was an effective and comprehensive evaluation index of quality factor and quantity factor and it had the ability to identify differences between papers at small scale.
〔Key words〕relative impact;percentile rank scores;timelines;index;periodicals;institution;library;acdemic impact;evaluation
引文是科研交流的方法,是論文成果被同行论文的引用情况,它客观反映了论文内在价值的被认可程度[1-2]。原始引文数量是学术评价的基础性指标,其数值大小多用于表征影响力水平,但由于文献出版及传递时空局限、学科背景差异、出版物类型等因素的影响,原始引文数量直接用于学术影响力评价的客观性并不充分,而以其为基础数据的标准化处理业已成为文献计量领域的共识[3]。作为两种最具代表性的标准化方法,相对影响指标(RII,Relative Impact Indicator)和百分位数指标(PRS,Percentile Rank Scores)在实际评价工作中更多被采用[4-5]。前者是以测评对象引文数量与参考集合引文数量平均值之比作为标准尺度;后者则以参考集合百分位等级为依据,对测评对象论文进行等级划分进而线性加权求和。从评价的客观性角度看,引文数量标准化既是对同质总体特征的反映,又是对异质个体差异的概括,二者的有机结合是最佳秩序建立的关键。作为单因素指标,RII和PRS从引文相对数量和相对等级尺度相互区别,二者各有所长,但均未对发文时长有所反映。本文从引文量分布特征、同区引文量差异、引文量与发文时长关联性等几个方面对RII和PRS指标进行了对比分析,提出了指标融合并纳入时间因素的思路,以PRS为基本模型,提出了将同区引文量差异和时效性作为评价参数的修正百分位指标(RPRS,Revised Percentile Rank Scores)并进行了案例分析,以期供同行交流与评鉴。
1 RII和PRS指标分析
1.1 RII指标
RII是当前文献计量领域最常用的标准化方法,以测评对象引文量与参考集引文量期望值之比作为度量尺度是其主要特征,期望值一般为参考集引文数量的平均数。在实际应用中,RII又可分为“引文和之比”与“引文篇之比”两种类型。“引文和之比”是将测评对象引文量总和除以论文总数量得到引文平均值,之后与参考集期望值相比,此类代表有CPP/JCSm、NMCR等多种指标[6-7];“引文篇之比”则是先计算单篇论文引文量与参考集期望值之比,之后累计求和后再求平均值,如MNCS[8]、RPCR[9]等指标。可以看出,“引文和之比”是将测评对象所有论文视作共同体,即以总体平均值作为代表,而“引文篇之比”则是将每篇测评论文区别对待,是以个体之比的平均值作为代表。有学者认为“引文和之比”的方式更适宜于学术影响力的测评,而“引文篇之比”的方式则存在低水平期刊高引论文导致整体值偏离实际的可能;亦有学者认为“引文和之比”的方式忽略了论文间的价值差异,“引文篇之比”的方式则更为合理。尽管类似争论仍在继续,但二者度量的基本原理是一致的,即都是以引文平均值之比作为度量尺度,相互区别之处仅在于平均值的计算方式[10]。考虑到多数情况下,评价多以学科或专业分类进行,而参考集也多为本学科或本专业领域广泛认可的论文集合,故可认为两者并无“质”的差异。
1.2 PRS指标
百分位数即百分位分数(Percentile),是一种相对等级量数,若干百分位数有序结合,可描述变量分布的总体特征。PRS指标的基本做法是将待评价论文按引文数量依次排序,划分百分位区间段,每段区间赋予不同权重因子,之后对各区间论文按其所占比例线性加权并累积求和,计算式如下:
PRS=∑ni=1xi·p(xi)(1)
式中i表示第i个百分位区间;xi表示第i个百分位区间的权重因子;p(xi)表示第i个百分位区间的论文数量占比。
美国NSF将PRS指标用于学术评价并获得广泛认可,采取的做法是将论文集合按引文数量排序后划分为6个百分位区间段,依次为Top1%、95th~99th、90th~75th、75th~50th、0~50th,各区间对应的权重因子分别为6、5、4、3、2、1,待评价对象按其在各区间论文占比计算累积和,之后与期望值相比得到评价值,若比值>1,则认为机构学术影响力大于平均水平。
1.3 RII与PRS指標分析
RII指标和PRS指标的相同之处在于二者均需对参考集合及测评对象的引文进行标准化处理,之后通过公式计算得到指标值。显然,引文的标准化处理过程是获取客观评价结论的关键,这就要求标准化方法能够合理地反映出参考集合及测评对象引文量的变化规律[11]。为对此问题有所认识,从CNKI数据库中提取2011-2015年度图书情报类17种核心期刊(北大2014版)论文作为参考集及测评对象进行分析,引文量统计截止期为2018年2月3日。集合论文共计25 322篇,符合大样本数据要求,可认为数据分析结果具有代表性。
1.3.1 RII指标与引文量分布特征的相符性
RII类指标的主要特征是以引文量平均值作为评价依据,这克服了原始引文数量直接对比存在的固有缺陷,但以均值相比进行数据标准化处理应满足相应的逻辑原理。统计学中,数学期望值(均值)的位置决定于呈正态分布的概率密度函数,这就要求变量(即引文量)的分布规律符合正态或近正态的分布特征。
图1给出了参考集合引文量的分布频率,可以看出,集合引文量分布范围在0~259次,4次(含)及以下引文量的论文累计百分比为55.6%,4~16次(含)引文量的论文累计百分比为34.9%,引文量16次及以上的论文累计占比仅为9.5%。集合中引文量的平均数(均值)为7.14,而7次以上引文量的论文实际占比仅为32.6%;此外,集合引文中位数为4.00,众数为1,两者与均值7.14差异显著,而引文分布相应的偏度系数为6.982,峰度系数为82.029,这说明集合引文分布呈现极显著的偏态特征。
进一步的分析结果显示,集合中任一期刊(可视作测评对象)内的引文分布均呈现偏态特征,无明显集中趋势,见图2(以《情报杂志》为例)。据此可知,以引文均值化为特征的RII类指标与偏态型的引文分布规律并不相符。此外,集中趋势(平均值或中位数)与离散趋势(偏差)均为随机变量的分布特征参数,二者叠加才可描述变量(引文)分布的完整性,而RII类指标仅以平均值作为评价依据,显然有所缺失。
1.3.2 相同百分位区间内的引文量差异
对集合内所有论文按其引文量排序并划分为相应6个百分位区间,各区间论文数依次为263篇、1 070篇、1 328篇、4 430篇、6 171篇、12 060篇,各区间引文量界限值、篇均引文量、篇均发文时长及权重因子见表1。
从表1可知,同一百分位区间内,引文量仍存在较大差异,如Top1%区,最高引文量为259次,最低引文量为56次,前者是后者4.6倍,而其余各区高、低引文量也大体相差1倍。按百分位数指标的计权方式,各区不同引文量的论文对应的权重因子相同,即区内所有论文视作“等价”,这显然忽视了论文间的“价值差异”,百分位数指标也因此并不完美[12]。但对比集合引文分布(见图1)亦可知,百分位区间的划分使得各区引文量跨度范围减小,区间内引文量平均值已在很大程度上趋近于中位数,这意味着区间内引文分布的偏态状已在很大程度上被弱化。
1.3.3 引文量与发文时长的关联
分别以集合内所有论文的引文量及其对应的发文时长作为变量,采用Spearman、Kendall、Pearson 3种模型进行双变量相关性检验,结果见表2。
由表2可知,无论采用哪一种模型,引文量与发文时长均在0.01水平显著(双尾)相关,即无论假定变量是否是正态分布或离散分布以及变量是否是连续变量或分类变量,两变量之间的相关性均不能被忽略。
将论文集合按发文时长划分为5个年度组进行ANOVA单因素方差分析,结果显示分组因素对引文量有显著影响,各组之间平均值差异显著(p<0.05),见表3。据此可推断,在以引文量作为关键因素的评价指标中,若作为时效因子的发文时长未被纳入,则评价结论的客观性有所缺失[13]。
2 修正百分位数指标的提出
相对影响指标和百分位数指标均属于单参数指标,两者分别从引文相对数量和相对等级尺度进行评价,故只能反映整体的部分或局部信息,用于评价时难免存在不足。可能的解决方案是将这两种指标进行融合并引入时间变量以反映更多维度的信息,即融合指标应纳入相对引文数量和发文时长作为变量,同时避免或弱化均值标准化对引文正态分布的特定要求。基于这一设想,本文提出修正百分位数指标(RPRS),如下式:
RPRS=∑ni=1xα·βi·p(xi)(2)
式中xα·βi即百分位修正权重因子;参数α即引文修正系数,表示同区论文异质性,其值为Ci/C*i,即第i篇测评论文引文量(Ci)与同区间论文集合平均引文量(C*i)之比;参数β即时间修正系数,表示论文时效性,其值为t*i/ti,即第i篇论文所在百分位区间论文集合的平均发表时长(t*i)与该论文发表时长(ti)之比。
PRS指标用于评价时,论文所在百分位区间的x值是固定数值,即同区间论文的权重因子默认相同;RPRS指标用于评级时,同区间论文的权重因子则因论文的相对引文量及发表时长的不同而变化。可以看出,若待评价论文引文量大于同区间论文平均引文量,则α>1,反之,α<1;若待评价论文发表时长小于同区间论文平均发表时长,则β>1,反之,β<1。可知,RPRS指标通过参数α、β进一步识别了同区间论文差异进而对权重因子进行双维度调整,由此可将位于同一百分位区间但发表时长及引文量不同的论文纳入到同一尺度下进行更加合理地测评。
3 RPRS指标案例分析
3.1 期刊学术影响力评价
3.1.1 数据统计与参数分析
百分位数区间划分参见表1,任选4种图书情报类核心期刊作为测评对象,统计各期刊在各区间的论文数量、引文数量及发文时长,之后分别计算出各区间论文占比及相应的参数值α和β,结果列于表4、表5。
从表4可以看出,Top1%区、95th~99th區最大百分比分别为《图书情报知识》、《情报杂志》所对应,说明该两种期刊的高引用论文占比相对更大;而50th~75th区、0~50th区最大值分别对应《情报科学》、《情报资料工作》,说明该两种期刊低引用论文比例相对较多。总体看,4种期刊在各区间排序存在交替变化现象,由表4数据并不能直接比较期刊整体影响力的大小,这也说明进一步计算百分位数指标的必要性。
由表5可知,同一百分位区间,不同期刊对应的α、β值不同,同一期刊在不同百分位区间对应的α、β值也不同。如在Top1%区,《情报杂志》的α值为0.958、β值为0.931,《情报资料工作》的α值为0.823、β值为1.052,说明前者在该区的篇均引文量相对值大于后者,但前者的篇均发文时长相对值(1/β)也大于后者,说明后者发文的时效性更佳,其引文量在后期增加的可能性也因此更大。α和β数值的变化,反映出这两个参数对同区论文异质性和时效性差异的识别,将两参数纳入评价指标,显然对于获取更加合理的评价结论是有利的。
3.1.2 RPRS与PRS指标的计算与对比
按照公式(1)和(2),分别计算4种期刊的PRS和RPRS指标值,相关数据及参数值取自表4、表5,计算结果列于表6。
从表6可以看出,《图书情报知识》及《情报资料工作》的RPRS值大于其对应的PRS值,而《情报杂志》、《情报科学》两种期刊的RPRS值小于其对应的PRS值。PRS指标中各百分位区间的权重因子是固定数值,而RPRS指标中相应的权重因子是动态变化值,即前者权重因子为x,而后者为xα*β。由于各期刊在各百分位区间对应的参数α和β不同,由此使得权重因子变化继而导致指标值改变。
从表6还可看出,RPRS值相较PRS值的变化直接导致了期刊排序的改变,《情报杂志》、《图书情报知识》、《情报资料工作》3种期刊在PRS指标下的排序为1、2、3,而在RPRS指标下的排序为3、1、2。结合表4可知,尽管《图书情报知识》在Top1区的论文占比大于《情报杂志》,但其在95th~99th区和90th~95th区的论文占比明显小于后者,PRS分区计权求和的结果使得后者的排序超过前者。根据表5则可进一步分析出3种期刊在各区的差异,除Top1区α值外,《情报杂志》在Top1区的α值及在95th~99th区和90th~95th区的α和β值均小于《图书情报知识》和《情报资料工作》的相应值,这说明《情报杂志》在3个区的相对发文时长更长且在95th~99th区和90th~95th区的相对引文量小于后两种期刊,而RPRS指标赋予了相对引文量大、发文时长短的论文以更大的区间权重因子,由此使得期刊排序发生改变。指标值的差异反映了RPRS与PRS对同区论文区分维度的不同。
3.2 机构学术影响力评价
学术期刊是科研论文宏观层面的“集结地”,而研究机构则是科研论文微观尺度的“产生源”,二者的性质、规模不同,故有必要对RPRS指标用于机构学术影响力的评价进一步探究。选择南京大学、东南大学、浙江大学、南开大学、上海交通大学5所高校图书馆作为机构代表,进行评价分析。为表述简便,各机构均采用简称,见表7。与前述一致,分别统计各机构在2011-2015年度发表的图书情报类核心期刊论文,依次计算各百分位区间的论文比例、参数α和β、PRS及RPRS指标,结果见表7、表8和表9。
从表7可以看出,各机构在0~50th区的论文占比均≤50%,说明各机构论文引用水平整体较高。其中,上交馆在Top1%区、95th~99th区占比最大,而南开馆在90th~95th区占比最大。依据高引区相对更大的权重因子,上交馆、东大馆、南大馆的PRS指标值更高,各自相应排序分列1、2、3,但在RPRS指标下三者排序则变为2、1、4,东大馆超越上交馆,而南大馆则降至浙大馆之后,见表8。
通过分析表9数据可知,尽管上交馆在Top1、95th~99th、90th~95th、75th~90th等4个区的占比领先于东大馆,但其在这4个区的α值均小于后者(即相对引用量偏低),同时,上交馆在Top1区、95th~99th区、0~50th 3个区的β值也小于后者(即相对发文时长更长),因此,东大馆在相应区的修正权重因子增大而使得其RPRS指标值高于上交馆。而南大馆较浙大馆在90th~95th区占比显著领先,且在Top1区占比也高于后者,故其PRS指标值高于后者;但除Top1区外,南大馆在其余各区的修正权重因子均小于浙大馆,各区加权计和的结果使得其RPRS指标值小于后者。
从机构的学术影响力评价结果可以看出,RPRS指标同样显示了与PRS指标不一样的判别结果。借助同区异质参数α和时效性参数的双维度调节,RPRS指标对论文差异的区分度也较PRS指标更进一步。
4 结 论
学术影响力评价是根据既定目标来测评对象的学术属性(即影响力),并将这种学术属性转变为客观定量的分值或主观效用的行为,而评价指标则是实现这种行为的工具和手段。引文量作为学术影响力评价的核心关切点,不应被视为孤立的单一因素,而是具有多属性的“体系结构”。虽然RII、PRS、RPRS均以引文量作为影响力评价的关键因素,但三者对于引文量的属性描述相互不同。RII类指标测评的是引文量的相对数值,PRS指标测评的是引文量的等级分布,而RPRS指标是在测评引文量等级分布的基础上加测引文量的相对数值和发文时长,是对前两者的融合和改进。可以认为,RPRS指标的评价过程,实现了引文相对数量、等级分布、时效性等要素之间的信息交换、流动和组合,对于引文数量特征和内在规律性的揭示更加全面,因此更有利于获取相对客观的评价结论。
研究中仅针对RPRS指标进行了图书情报类期刊及研究机构的案例分析,从指标应用领域看,RPRS指标同样可应用于不同学科期刊或研究实体的对比评价。同RII及PRS指标类似,合理的选择RPRS指标的参照標准可为引文数量的标准化奠定基础,继而支持不同学科背景论文的影响力对比评价,而参照标准的选择将主要围绕JCR(Journal Citation Report)主题类展开,针对不同主题及其组合成的不同学科分类进行RPRS指标的应用研究将是后续研究重点。
参考文献
[1]蒋海龙,陈丹丹.国内链接分析期刊论文的引文分析[J].现代情报,2012,32(2):165-169.
[2]杨瑞仙,秦渴.基于引文的科研关系组织及其服务的研究现状与发展趋势[J].图书馆,2015,(12):82-85.
[3]Suzy Ramanana-Rahary,Michel Zitt and Ronald Rousseau.Aggregation Properties of Relative Impact and Other Classical Indicators:Convexity Issues and the Yule-Simpson Paradox[J].Scientometrics,2009,79(2):311-327.
[4]Ronald Rousseau.Basic Properties of Both Percentile Rank Scores and the I3 Indicator[J].Journal of the Association for Information Science & Technology,2012,63(2):416-420.
[5]Michael Schreiber.Empirical Evidence for the Relevance of Fractional Scoring in the Calculation of Percentile Rank Scores[J].Journal of the American Society for Information Science & Technology,2013,64(4):861-867.
[6]Ludo W.Towards a New Crown Indicator:Some Theoretical Considerations[J].Journal of Informetrics,2011,5(1):37-47.
[7]Juan A C.The Effect on Citation Inequality of Differences in Citation Practices at the Web of Science Subject Category Level[J].Journal of the American Society for Information Science &Technology;,2014,65(6):1244-1256.
[8]Loet L.Remaining Problems with the“New Crown Indicator”(MNCS)of the CWTS[J].Journal of Informetrics,2011,5(1):224-225.
[9]Ludo W.Field-normalized Citation Impact Indicators and the Choice of an Appropriate Counting Method[J].Journal of Informetrics,2015,9(4):872-894.
[10]Ludo W.A Review of the Literature on Citation Impact Indicators[J].Journal of Informetrics,2016,10(2):365-391.
[11]Vinkler P.Application of the Distribution of Citations Among Publications in Scientometric Evaluations[J].Journal of the American Society for Information Science & Technology,2011,62(10):1963-1978.
[12]Lutz B.The Problem of Percentile Rank Scores Used with Small Reference Sets[J].Journal of the Association for Information Science & Technology,2013,64(3):650-655.
[13]舒予,张黎俐.时序动态视角下的学术影响力评价方法及实证研究[J].现代情报,2017,37(11):74-80.
(责任编辑:陈 媛)