APP下载

融合文献计量与同行评议共识的期刊评价方法研究

2022-06-07吕冬晴阮选敏鞠秀芳

情报学报 2022年5期
关键词:象限评议计量

张 旭,吕冬晴,阮选敏,成 颖,鞠秀芳

(1.南京大学信息管理学院,南京 210023;2.南京大学中国社会科学研究评价中心,南京 210093)

1 引 言

学术期刊(下文简称“期刊”)评价是学术评价的重要组成部分。随着期刊规模的持续增长,高质量期刊的遴选以及采用何种方法对其进行评价已经得到了学界的广泛关注[1]。目前,同行评议仍是期刊评价的主要方法。中共中央办公厅、国务院办公厅印发的《关于深化项目评审、人才评价、机构评估改革的意见》①http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm明确提出了“基础前沿研究突出原创导向,以同行评议为主”的指导原则。不过,现有研究表明评审专家的主观性[1-2]、认知偏差[3-4]以及情感偏差[5]等会对评价结果产生显著影响。

文献计量作为期刊评价的主要方法之一,产生了以期刊影响因子(journal impact factor,JIF)、h指数等为代表的一系列有影响的成果。JIF等传统指标的不足之一是仅考虑了期刊的被引数量,未区分施引文献的质量。对此,部分研究将PageRank算法[6]应用于引文分析[7-8],产生了期刊声望指标(SCImago journal rank,SJR)[9]与特征因子(eigen‐factor)[10]等衍生指标。PageRank的引入显著提升了期刊评价的效果,不过,此类方法依然没有跳出计量评价的范畴。

目前,学界普遍认同将文献计量与同行评议有机融合是更有效的评价方式[11-12]。据此,本研究拟吸收同行评议与文献计量两种方法之所长,全面改进期刊评价研究。首先,多项研究表明评议者很容易就最优秀评价对象达成一致,即同行评议中普遍存在的偏见、裙带关系以及利益冲突等对最优个体的评价影响甚微,如学科的一流期刊[13]。其次,针对PageRank算法的不足,在网页排序研究与应用中通过引入种子网页的衍化算法Trust Rank[14]已经得到了广泛的应用。鉴于PageRank算法在期刊评价研究中的价值,学界有必要探讨TrustRank算法在期刊评价中的意义。

综上,本研究选取同行评议筛选出的学科/领域期刊的共识部分——一流期刊作为种子,借助TrustRank算法进行期刊的评价研究。具体地,融合专家的共识意见与文献计量指标,本研究提出期刊权威性因子(journal authoritativeness factor,JAF);在此基础上,提出基于JAF与JIF的综合指标(journal authoritativeness and impact index,JAII),以提高期刊评价的科学性与合理性,具体研究问题包括:

(1)JAF评价结果的可靠性与稳定性。

(2)JAII评价结果的可靠性与稳定性。

2 文献综述

2.1 期刊计量评价

1955年,Garfield[15]在Science上首次提出了通过被引频次测度期刊影响力的设想。1975年发布的《期刊引用报告》(Journal Citation Reports,JCR)采用文献计量指标JIF测度了期刊的影响力,自此,学界与业界对JIF进行了系统的研究与应用[16]。其间,学界相继发现JIF存在如评价维度单一[17]以及在出版周期较长的学科中评估能力较差[2]等不足,其他还包括JIF无差别地对待每一本施引期刊及每一条引用,忽视了因期刊质量不同导致的引文价值差异。对此,Pinski等[18]认为相较于普通期刊,被高影响力期刊引用的成果的学术影响力更高[10],并基于加权引文网络得到了期刊影响力值。Page等[6]受Pinski等[18]的启发,提出了著名的网页排序算法——PageRank。该算法的卓越表现引起了科学计量学者的关注并将其应用于引文分析,以兼顾引用的“数量”与施引者“质量”,弥补了传统引文指标只考虑引用“数量”的不足[7-8]。该算法随之被广泛应用于论文[19-20]、学者[21-22]以及期刊等的评价研究。

目前,PageRank在期刊评价的研究与实践中已形成了丰硕的成果。比如,Carl[10]通过“期刊受到越多高影响力期刊的引用,其影响力也越高”的假设优化了PageRank,进而提出了期刊特征因子指标(eigenfactor)。Bollen等[23]将期刊的重要性分为“流行性”与“声望”两个维度,分别采用JIF测度期刊的流行性,依据加权PageRank算法测度期刊声望,并据此提出了融合二者的指标Y-factor;该研究表明,期刊声望与流行性分属不同维度,相较于单独使用二者,Y-factor的评价结果更符合学界的认知。苏成等[24]进一步考虑了期刊载文量的影响,提出了篇均PageRank(PR)值的思路。Cheang等[25]通过区分期刊自引、内部及外部3种不同引用类型改进了PageRank算法,并将其应用于39本管理学期刊的评价。

2.2 同行评议与计量评价的结合研究

在评价活动中,对于是否有必要在同行评议中引入定量指标以及二者间的关系,多项研究给出了肯定的回答,认为定量指标能够在同行评议中起到辅助作用,可以起到规避同行评议制度部分缺陷的作用[26]。比如,研究发现,超过2/3的受访者赞成使用文献计量学指标辅助评价决策[27];专家小组成员广泛支持在同行评议中使用文献计量指标,但其宜主要应用于对候选人的初步评估[28];相关分析显示,二者呈强相关关系,表明计量指标完全可以替代同行评议,是一个高效且经济的评价方法[12]。不过,少量研究显示,定量指标与同行评议的相关性很弱,比如,JIF_2及JIF_5与同行评议结果的相关性不显著[29],JIF_5与同行评议的相关系数仅为0.1左右[30]。

学界尝试将同行评议与多种文献计量指标结合以提升评价效果,将二者加权是最常见的组合方式。比如,部分研究采用波达计数法(Borda count)整合了同行评议、JIF与h指数[31];将专家打分与h指数、g指数三者的均值作为期刊最终得分[32-34];分别采用PageRank与同行评议对目标期刊进行评价,然后采用多目标粒子群优化算法对评价结果进行整合[35]等。除了简单加权的方法外,也有学者将二者进行了融合,比如,将权威期刊论文作者简介中的期刊列表顺序视为专家对期刊的投票,依据投票结果构建期刊关系矩阵,并采用PageRank算法得到期刊声望值[36]。

目前,同行评议与计量指标的结合作为有效的评价方法[11]已被广泛应用于评价实践。例如,英国的国家卫生研究所(National Institute for Health Re‐search,NIHR)在高级项目负责人以及生物医学研究等多项评议活动中采用了定量指标辅助决策。英国的研究卓越框架(Research Excellence Framework,REF)在评估高等教育机构的研究质量时也采用了文献计量指标,不过最终评价结果仍由专家小组根据成果的原创性、重要性和严谨性等原则评议形成。澳大利亚卓越研究(Excellence in Research for Australia,ERA)采用了与REF类似的方法,引文分析结果被明确用作评估研究质量的指标。

2.3 述评

长期以来,期刊评价一直是学界广泛关注的问题。纵观其发展过程,相关研究与实践经历了从定性到定量,再到定性与定量相结合的转变,目前仍存在以下不足。

首先,定量指标主要依赖引文数据。以JIF为代表的传统定量指标均存在一个难以忽视的问题,即未对施引期刊的质量加以区分,相比于质量较低的期刊,高质量期刊的引用更具学术价值。PageR‐ank的引入部分解决了上述问题,推动了期刊定量评价的发展。不过,PageRank的计算结果仍难以识别期刊的过度自引[37]、“互惠引用联盟”(citation cartel)[38-39]等作弊行为。

其次,同行评议制度的主观偏见问题亟待解决,定性与定量融合的期刊评价方式需要创新。虽然同行评议是期刊评价的主导方法,但是评审专家的主观性与认知偏差、评估成本高等问题长期以来难以解决。定量指标因其客观、成本低等优点,成为了辅助同行评议以及降低专家偏见影响的重要方式。从同行评议与计量指标的融合方式来看,学界长期探索将二者取长补短、科学融合的方式,但是现有主流做法依然将二者视为相互独立的成分,尚未实现真正意义上的融合。

综上,本研究将探索期刊评价研究与实践中急需的同行评议与文献计量融合的新方法。具体来说,本研究一方面选择期刊同行评议中鲜有争议的共识部分,即一流期刊作为评价的起点,以减少专家偏见的影响,达到取其精华的目的;另一方面,将同行评议的意见充分融入定量评价指标以提升评价的精准性。

3 研究设计

3.1 理论基础

“科学是一个社会过程(Science is a social pro‐cess)”[40],引用是这一过程中科研人员的重要社会行为,也是学者社会心理过程的反映[41]。引用视角的研究发现,相较于普通学者,高水平学者更倾向于引用高质量研究,比如,985高校毕业的学者更注重参考文献的质量,学者们对一区期刊论文的引用偏好随着高校层次依次降低[42]。被引视角的研究也发现,被高水平研究引用的学术成果,同样具有较高的质量[9-10,18,23]。前述研究提示,以学科/领域内普遍认可的一流期刊作为评价的起点,通过一流期刊对其他期刊的引用开展期刊评价具有科学性与合理性。

实践中该思路面临的主要困难是一流期刊的选择。目前,以计量方式确定的一流期刊争议较大,比如,存在S ust ainab ility、IE EE Access等期刊虽具有较高的JIF,但在学科/领域内认可度不高的情况。鉴于同行评议仍然是当前一流期刊选择的“金标准”,考虑到同行评议虽存在偏见、裙带关系以及利益冲突等问题,但在学科/领域内部,学者对于一流期刊通常易于达成共识,即学者和机构对一流期刊以及学科最优秀期刊的认知并无太多分歧[13],比如,学界普遍认可Nat ure、S cience、Cell等期刊属于超一流期刊,美国得克萨斯大学达拉斯分校(The University of Texas at Dallas,UTD)界定的24本经济管理类顶级期刊也得到了全球同行的认同。

3.2 JAF

基于3.1节的思路,本研究提出融合同行评议共识与文献计量方法的期刊评价指标JAF。JAF以测度期刊声望的PageRank类指标为基础[10,23,43-44],融合专家意见(学术质量),用于测度期刊权威性。其计算包括两个过程:①吸收领域同行关于期刊质量的共识性意见,以学科/领域内的一流期刊作为评价的起点。具体地,采用同行评议的方式从待评价的期刊集合(V)中选择高质量期刊作为种子期刊(S+),并给予这些期刊以高权威值。②借助TrustRank[14,45]算法,区分不同等级期刊的引用价值,并将同行达成共识的种子期刊与文献计量方式相融合,通过种子期刊对其他期刊的引用迭代计算出待评价期刊的JAF值。

TrustRank原本用于网页重要性排序,但网页链接与期刊引用存在两个明显的区别。其一,在网页链接关系中,一个网页最多仅指向其他网页一次,而在引文网络中,一本期刊可以多次引用其他期刊[24];其二,期刊是学术论文的集合,而网页是不可拆分的最小单元。不同期刊发表论文的周期、数量存在较大差异,例如,《中国图书馆学报》是双月刊,年均载文量不足60篇;半月刊《图书情报工作》一年可以发表500余篇论文,数量约为前者的10倍。载文数量上的差异会导致期刊在总引用数上的不平衡,即在其他条件相同的情况下,载文量高的期刊会获得更多的引用。针对第一个差异,本研究采用Bollen等[23]提出的加权矩阵代替原始网页链接矩阵;为消解第二个差异带来的影响,本研究在期刊引用关系矩阵中引入了期刊载文量,提出篇均关系矩阵,即公式(2),并采用公式

计算期刊的JAF。与之前的计量指标相比,JAF在区分不同引文价值的同时,改进了传统方法中难以融入专家意见的不足。其中,D(i)表示期刊i的初始JAF;m为S+中期刊总数;JT表示期刊篇均关系矩阵,元素JT(i,j)表示期刊i对j的权威性转移权重;r表示期刊i引用期刊j的次数;t表示期刊i的施引次数;n表示期刊j的发文量;P表示期刊的JAF向量,元素P(i)表示期刊i的JAF,其初始值为D(i);α为衰减因子,参考TrustRank算法,通常将其设置为0.8或0.85[14]。

3.3 JAII

考虑到单一指标难以全面反映期刊的质量,且长期采用单一指标进行评价,容易形成负向引导,比如,为提高JIF而过度自引等。据此,在期刊评价中引入多维度评价指标的做法得到了广泛认同[44,46]。本研究提出的JAF反映了期刊的权威性,JIF反映了期刊的影响力,本研究拟整合JAF与JIF,提出融合指标JAII。

(1)四象限评价。从权威性(JAF)及影响力(JIF)两个维度将期刊划分为4种类型(图1):第一象限,兼具高影响力与高权威性特征的期刊,属于学科/领域内的一流期刊;第二象限,权威性较高,但影响力略低的期刊;第三象限,权威性与影响力均较低的期刊;第四象限,具有较高的影响力,但权威性偏低的期刊。

图1 期刊权威性与影响力四象限评价示意图

(2)指标融合。在前人的研究中,指标融合方法包括熵值法[47]、层次分析法[48]、TOPSIS[49]等。本研究依据Bollen等[23]的指标融合方式,将JAF与JIF的乘积定义为新指标JAII,

并将其用于期刊评价。

3.4 数据

为验证本研究提出指标的有效性,本研究以FMS(Federation of Management Societies of China)推荐的管理科学中文期刊为评价对象[50]。FMS是中国优选法统筹法与经济数学研究会、管理科学与工程学会、中国系统工程学会联合发布的管理科学高质量期刊推荐列表,该列表基于“同行评议、价值导向、等效应用”原则形成,不仅关注期刊论文品质与期刊的学术影响力,还考虑了同行评议与文献计量指标双重影响,其中的期刊被分为T1与T2两级,T1包括《中国社会科学》《经济研究》以及《管理世界》等一流期刊,T2包括《旅游学刊》以及《财贸研究》等期刊。FMS中的期刊评价结果具有较高的权威性与领域认可度,适宜作为本研究的评价对象。

本研究选取中文社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI)数据库2000—2018年共19年的引文数据作为计量评价的数据源。选取CSSCI作为引文数据来源的原因在于其数据标引较为规范,同时其来源期刊相较于其他期刊具有更好的学术规范。数据清洗环节仅保留CSSCI来源期刊的内部引用关系,剔除对图书、会议论文、学位论文、外文、网络资源等非CSSCI来源期刊的引用数据,CSSCI未收录的7本FMS期刊亦不作为本研究的评价对象,最终获得引文数据共897821条。

3.5 种子期刊

目前,多个机构出台了具有较高认可度和权威性的期刊等级划分或排名结果,如南京大学中国社会科学研究评价中心研制的CSSCI核心来源期刊、北京大学图书馆主导制作并发布的《中文核心期刊要目总览》,以及中国科学引文数据库等。然而上述期刊列表所包含的期刊较多,质量参差,不适宜直接作为种子期刊。考虑到种子期刊的选取需要得到领域内的高度认可,且近些年来学科之间不断增强的交叉融合趋势,本研究最终选择南京大学2017年评选出的31本各学科一流期刊[51]作为种子期刊。

3.6 JAF的计算

本研究使用Python 2.7计算JAF,算法的收敛系数设为1e-8,衰减因子设为0.85,迭代次数为动态迭代,迭代停止条件设置为两次迭代的差异小于收敛系数[6]。为验证JAF的有效性,本研究选取了两种期刊评价方法作为基线:①JIF。尽管JIF存在一些不足,但其仍是当下最具影响力的评价指标;②苏成等[24]提出的优化PageRank算法(下文简称“苏成_PR”)。苏成_PR同样基于加权与修正期刊载文量的思路改进了PageRank算法,改进后的算法已经取得了较好的评价效果。与本研究的不同之处在于其在期刊PR值计算完成后,再采用载文量对其进行加权。本研究将FMS期刊排名视为“金标准”,采用两个指标对其进行检验。

(1)相关系数(ρ)。采用Spearman相关分析分别计算3种算法得出的期刊排名与FMS排名的相关系数,相关系数越大,表明算法与FMS的结果吻合度越高,算法的评价效果越优。

(2)T1等级期刊准确率(acc)。期刊评价的重要目的之一在于选出高质量的部分,因此,本研究将准确评选出FMS中T1等级期刊的比例作为第二个评价指标,即

其中,acc(X)表示算法X的T1等级期刊准确率;N(X,T1)表示在算法X中准确选出T1等级期刊的数量;N(FSM,T1)表示FMS中T1等级期刊总数。

4 结果

4.1 JAF有效性分析

本选取2018年作为目标年份,比较JAF、JIF及苏成_PR的评价效果,以此检验JAF的有效性。考虑到JIF及苏成_PR采用2年时间窗,JAF采用了相同的设置,利用2016—2017年的引文数据进行计算。此外,由于《保险研究》等5本期刊引文数据收录不完整,本研究仅展示其余73本期刊的评价结果。

(1)Spearman相关系数。JAF、苏成_PR及JIF这3种方法均与FMS期刊评价结果呈现较强的、显著的正相关关系,按照相关系数由高至低依次为JAF(ρ=0.656,p<0.001)>JIF(ρ=0.601,p<0.001)>苏成_PR(ρ=0.527,p<0.001),即JAF的评价结果与FMS更为一致,优于2种基线算法(表1),表明在PageRank的基础上引入专家意见有效地提高了评价的准确性。

(2)T1等级期刊准确率。剔除了引文数据不完整的期刊后,共保留FMS的T1等级期刊26本(表2)。3种方法均准确评选出排名前5位的期刊;对于排名位于前2/3的期刊,预测准确性较高;对于排名靠后的期刊,预测准确性较低。其中,JAF及苏成_PR准确评选出T1级期刊17本,准确率达65.385%;JIF准确召回16本,准确率为61.538%,略小于前两者。

表2 T1等级期刊预测结果

4.2 JAF稳健性分析

JAF是建立在期刊引文网络基础上的评价指标,引文时间窗的设置会对JAF产生影响。为检验JAF对于不同引文时间窗的稳健性,本研究选取了2~10年共9种不同长度的引文时间窗,分别计算不同时间窗下JAF的评价结果,并将评价结果与FMS进行比较。其中,剔除引文数据不完整的期刊12本,对其余66本期刊进行评价。

Spearman相关分析表明(表3),不同时间窗下,JAF期刊排名结果与FMS具有显著的正相关关系,相关系数介于0.627~0.650,波动较小,表明JAF的评价结果对不同长度的引文时间窗具有较强的稳健性。其中,五年时间窗下的(JAF_5)相关系数高达0.650,相较于两年(JAF_2)的时间窗具有明显的提升。T1等级期刊准确率数据显示,不同时间窗下的准确率差异较小,长引文时间窗(7~10年)的准确率略高于短期(2~6年),引文时间窗为4时的准确率最低。综合考虑ρ与acc,JAF在7年引文时间窗下的表现最优,即7年为在管理科学领域采用JAF进行期刊评价的最佳引文时间窗。

表3 不同引文时间窗下的JAF与FMS相关性

4.3 四象限评价

4.3.1 聚类分析

本节从权威性(JAF)与影响力(JIF)两个维度对目标期刊进行深入分析,挖掘各期刊在这两个维度上的表现。同时,考虑到时间窗对两个指标的影响,本节进一步从以下两个方面展开分析:①异步时间窗。由4.2节可知,7年是采用JAF进行管理科学期刊评价的最佳引文时间窗。因此,在异步引文窗的分析中,本研究采用7年作为JAF的计算时间窗(JAF_7),分别采用2年、5年与10年的时间窗计算JIF(JIF_2、JIF_5与JIF_10)。②同步时间窗。作为对①的补充,本节进一步为JAF与JIF设置相同的时间窗(2年、5年与10年),并分析期刊在该组合维度下的表现。

1)异步时间窗

JAF_7与JIF_2、JIF_5、JIF_10的层次聚类结果分别如图2a~图2c所示。图2表明,JAF_7与JIF_2、JAF_7与JIF_5,二者的聚类结果相差甚微,但其与JAF_7和JIF_10的聚类效果存在较大差异,JAF_7与JIF_2或JIF_5的聚类结果对期刊的区分度更高,聚类结果更符合认知。①一流期刊:在所选期刊列表中,仅《经济研究》与《中国社会科学》2本期刊在3组聚类结果中稳居第一象限,在影响力与权威性两个维度均遥遥领先于管理科学领域的其他期刊。②高权威性期刊:《经济学(季刊)》《管理世界》《世界经济》以及《国际经济评论》在不同聚类结果中稳居第二象限,4本期刊均具有较高的权威性,但在影响力方面的表现略逊色于第一象限;《金融研究》在较长的引文窗口下(5年或10年)属于第二象限,但在短期引文时间窗下的表现并不突出。③高影响力期刊:《中国工业经济》和《中国图书馆学报》2本期刊在2年及5年时间窗下属于第四象限,即具有较高的影响力但权威性表现不足;但随着时间窗的增加,2本期刊的影响力优势也在减弱,与第二、第三象限期刊的差异逐渐缩小,在10年时间窗下,《中国工业经济》变更为第二象限,而《中国图书馆学报》则进入第三象限。④普通期刊:除上述期刊外,其余期刊的权威性与影响力均较低,均属第三象限。需要说明的是,由于《保险研究》等6本期刊的引文数据不完整,没有纳入本节的分析。

图2 异步时间窗下JAF与JIF双维度层次聚类结果

上述分析表明,管理科学领域期刊在权威性与影响力两个维度的聚类结果呈金字塔结构,期刊数量由第一象限、第二和第四象限至第三象限呈现出递增趋势,即第三象限囊括了管理科学领域的大部分期刊,而权威性与影响力俱佳的期刊较少。

2)同步时间窗

与异步时间窗中类似,本节剔除《保险研究》等5本引文数据不完整的期刊,为JAF与JIF设定相同的引文时间窗,分别探究在2年、5年及10年时间窗下管理科学领域期刊在权威性与影响力两个维度的表现。由图3a~图3c可见,采用短期、中期、长期引文时间窗的期刊聚类结果存在明显区别,对期刊的区分度逐渐减弱。引文窗口从2年增长为5年时,原始的第二象限及第四象限倾向于合并为一类;当从5年增长为10年时,期刊的融合趋势更加明显,仅剩余第一象限与第三象限两个类别。

图3 同步时间窗下JAF与JIF双维度层次聚类结果

综合异步时间窗与同步时间窗的分析结果可见,JAF在7年引文时间窗下对期刊的区分度较高,而在5年及10年的时间窗下的区分度较弱;JIF在2年及5年时间窗下的聚类效果优于10年;综合JAF与JIF两个维度,JAF采用7年、JIF采用2年的评价结果更符合学界认知,而10年的聚类效果不佳,不宜作为双维度聚类分析的时间窗口。

4.3.2 JAII评价

依据4.3.1节的分析结果,JAF的引文时间窗设置为7年、JIF设置为2年,对期刊的区分效果更佳,故采取这一设定探究将JAF与JIF融合后的新指标——JAII的评价效果。Spearman分析结果表明,JAII与FMS的评价结果存在显著的正相关关系,相关系数高达0.716,显著高于与JAF_7及JIF_2的相关系数(表4),即相较于原始指标,融合指标JAII的性能得到了显著的提升。

表4 JAF_7、JIF_2、JAII及FMS排名的Spearman相关分析

5 讨 论

(1)定性与定量的融合。学界普遍认可将文献计量与同行评议加以融合是更有效的评价方式[11],并开展了多方面的探索。张琳等[52]将学术评价中的定性与定量结合方式概括为两类。第一类是以同行评议为主,科学计量结果仅作为评审专家的参考。例如,荷兰每六年开展一次的全国高校与科研机构的评价实践[53],采用科学计量指标辅助、评审专家决策的方式。第二类为综合应用,即文献计量指标与同行评议并行使用,如意大利的学科评估工作[54]。然而上述两种主流做法将同行评议与定量指标视为相互独立的部分,当二者的评价结果出现较大分歧时,依然采用同行评议的决策作为金标准,这导致同行评议中存在的主观性[1-2]等问题难以改善,同时文献计量在其中发挥的作用甚微,二者未达到真正意义上的融合。与现有工作不同,JAF与JAII采用了专家的共识,同行评议主观性、认知偏差等对其影响甚微。JAF仅选取学科/领域内的一流期刊作为种子期刊,学者对领域内的顶尖期刊具有普遍的共识,且顶尖期刊在较长一段时间内基本稳定。因此,该做法能够显著减少同行评议的主观性,降低评价工作的人力与物力成本。此外,本研究借助于TrustRank算法,在定量分析方法中引入了专家共识,实现了定性与定量评价的有机融合,提升了定量指标的评价效果,为定性与定量的融合方式提供了新思路。

(2)期刊多元评价的探索。本研究结果表明,JAF与JIF具有较高的相关性,但同时散点图及层次聚类的结果(图2,图3)表明二者存在较大差异。Bollen等[23]的研究也表明,期刊的PR值与JIF兼具较高的相关性与差异性。采用单一指标开展的评价难以勾勒出期刊的多维特征,多维评价方为期刊评价的必由之路。对此,学界已经进行了积极的探索。例如,李超[47]基于期刊的h指数和IF依据熵权法提出了一种新的期刊影响力评价指标,即HIF指数,该指数一定程度上改进了JIF只关注短期期刊影响力的问题。Lowry等[12]采用JIF、五年JIF、h指数等指标对信息系统领域的期刊进行评价,结果认为,基于多维定量指标的期刊评价效果与同行评议结果十分接近,甚至可以替代同行评议成为高效、高性价比的期刊评价方式。

本研究结果显示,多维评价能够增强期刊的区分度。从4.3.1节的聚类分析可见,单独采用JIF或JAF作为评价指标时,区分度弱于采用双维度的分析结果。以JAF_7与JIF_2的组合为例(图2a),在JAF维度上,第四象限与第三象限的差异性较小;采用JIF维度时,第一与第四象限、第二与第三象限均存在明显的交叉。而当采用双维度评价时,各象限的界限更加清晰。同时,融合指标JAII的期刊排序结果与FMS更趋一致,相关系数高达0.716,相较于单独使用JIF或JAF均有显著提升,再次证实了基于多个指标的融合评价更能反映期刊的真实价值,评价结果与学界的认知更贴合[23]。

(3)引文时间窗在多指标评价中的重要性。论文多种形态的引文曲线[55]是时间窗对引文分析产生显著影响的内在原因。研究发现,在不同时间窗下,引文指标的评价结果存在显著差别[56];本研究提出的JAF指标对于引文时间窗具有很好的稳健性,在2~10年的不同长度的引文窗口下,JAF的期刊排序结果与FMS的相关系数变化较小,稳定在0.64左右。不过,相较于单指标,当采用JAF与JIF双维度评价时,引文时间窗的影响较为明显,结果显示随着引文时间窗的增长,JAF与JIF对期刊的区分度逐渐降低,分区结果不够理想。此外,与先前研究得出的“不同时间窗口的评价指标混合使用要慎重”[57]的结论不同,本研究发现,当JAF与JIF分别采用7年与2年引文窗口时,依据权威性与影响力双维度对期刊进行等级划分的结果更加符合领域认知,表明JAF在长时间引文窗口、JIF在短时间窗口下的组合评价效果更为突出。因此,期刊的长期权威性与短期影响力存在较好的互补性,二者的结合能够提升期刊评价的区分度,从而更全面地评价期刊短期、中期的综合表现。

(4)引文类指标的局限。如表2所示,《系统工程理论与实践》等8本期刊未被任何一种定量指标准确预测为T1等级,原因在于其JAF、JIF及苏成_PR值均明显低于同等级的其他期刊(图4)。造成这8本期刊在3个引文类指标上表现不佳的主要原因是期刊的研究主题。根据CNKI(China Nation‐al Knowledge Infrastructure)数据的统计可见,部分期刊论文的研究内容偏向数理以及计算机等学科,例如,《系统工程理论与实践》主要研究系统工程领域的热点问题,涉及遗传算法、神经网络、电子商务以及云计算等主题[58],其中数学学科相关论文占比高达12%;《情报学报》涉及算法及计算机应用类的论文占比高达14%;《中国管理科学》中数学类论文占比也达到了5%①《系统工程理论与实践》《中国管理科学》及《情报学报》3本期刊的主题及学科统计数据来自CNKI(https://navi.cnki.net/knavi/Journal.html),统计时间是2021年6月10日。。多项研究表明,在社会科学中,当论文中的数学知识过多或过深时,比如,论文中的公式或微分方程较多,会显著影响论文的可读性,从而降低其被引[59-60]。因此,上述期刊的引文类指标不尽如人意并不意外。

图4 T1等级期刊JAF、JIF及苏成_PR值

引文类指标容易受到研究主题的影响,因此,后续的研究中亟须从其他视角对评价结果进行补充,例如,采用作者机构指数测度论文的“输入”质量[61]、采用作者简介信息作为期刊评价的基础数据[36]等可能是一个有效的补充和积极的尝试。

6 结 论

本研究选择学科/领域中同行普遍认可的一流期刊作为评价的出发点,以减少同行评议的偏见等问题,达到“取其精华”的目的。借助TrustRank算法,提出了融合同行评议共识与文献计量方法的期刊权威性因子JAF。出于期刊多维评价的需要,本研究进一步整合JAF与JIF提出融合指标JAII,用于进行期刊双维度评价。为验证JAF与JAII的有效性,本研究进一步选取了FMS管理科学领域推荐期刊为评价对象,基于CSSCI数据库2000—2018年的引文数据开展实证研究。结果表明,与两种基线指标相比,JAF与FMS的结果更加一致,且JAF对引文时间窗口具有稳健性;在管理科学领域,适合JAF的最佳引文窗口为7年;JAF与JIF的融合指标JAII评价效果优于原始独立指标。

本研究的创新之处主要体现在以下两个方面。一是针对当前学术期刊评价实践层面存在的定性与定量评价结合不紧密的问题,提出了融合专家意见共识与定量指标的期刊评价思路。二是据此在期刊评价实务层面提出了融合基于JAF与JIF指标的兼顾权威性与影响力的期刊双维度评价框架,并通过实证证实了该框架的科学性、合理性以及实用性。本研究提出的JAF主要存在两点局限。首先,种子期刊的选取尚缺乏可操作性的细则。本研究直接采用学界普遍认同的南京大学推荐的人文社会科学一流期刊作为种子期刊,在缺少类似前期工作的场景可能会限制本研究提出方法的应用,在后续的研究中将深入探索种子期刊的选取方法。其次,面向期刊多维评价的主流,本研究仅融合了同行评议共识与文献计量两个维度,后续探索中可融合的特征还可以包括作者机构指数[61]等。

猜你喜欢

象限评议计量
强化述职评议 落实主体责任
勘 误
复数知识核心考点综合演练
计量检定在食品行业中的重要性
CPMF-I 取样式多相流分离计量装置
常数牵手象限畅游中考
计量自动化在线损异常中的应用
创新评议形式 提高评议实效
平面直角坐标系典例分析
对“自度曲”本原义与演化义的追溯与评议