APP下载

基于论文被引离散系数的期刊分区方案合理性定量比较*

2022-01-21王凌峰杨海霞

情报杂志 2021年12期
关键词:社科院分区次数

王凌峰 杨海霞

(桂林电子科技大学商学院 桂林 541004)

0 引 言

1665年以来,期刊一直是最有代表性的论文发表系统。互联网时代出现新型论文发表系统,如预印本1.0(典型如arXiv)、类期刊平台(典型如F1000 Research)以及预印本2.0(典型如中国科技论文在线)[1],但是上述新型论文发表系统目前尚未能动摇期刊组织论文同行评议的垄断地位,可预见未来期刊仍将是最主要论文发表系统。

期刊数量众多,不同期刊论文质量存在明显差异,故有必要进行期刊分区。一些欧美国家科研管理采用期刊分区,如澳大利亚研究委员会对澳大利亚高校进行学术评估时使用期刊分区名单[2]。我国目前至少存在7种中文期刊分区方案,包括中国社会科学院下属中国社会科学评价研究院发布的人文社会科学领域期刊分区(简称社科院分区)、北京大学图书馆组织编制的期刊分区(简称北核)、南京大学社会科学评价中心方案(简称CSSCI或南核)、中国科技信息研究所、中国科学院文献情报中心、武汉大学邱均平课题组发布的RCCSE期刊分区,除此之外尚有一些单学科期刊分区方案,如2020年中国优选法统筹法与经济数学研究会、中国管理科学与工程学会、中国系统工程学会联合发布的《FMS管理科学高质量期刊推荐列表》将1 135种管理科学与工程领域国内外期刊分成ABCD四区。

多种期刊分区方案并存必然导致一些期刊在不同方案中的评价差异较大,本文2021年初开始撰写时,《现代情报》没有被北核2017版目录纳入,但南核2019版目录纳入,《运筹与管理》被北核2017版目录纳入,但是在社科院2018版目录中仅属于扩展版。此类现象显然不合理,应发布统一的期刊分区方案,主要理由有二:a.从学理角度看,在一段时间内,同一个学科期刊之间的质量差异属于客观存在,相对位置稳定,不应出现同一本期刊在同一时期的不同期刊分区方案中评价差异较大情况。b.从科研管理角度看,高校、科研机构在人才引进、职称评审、研究生奖学金评定、学科评估等多种场合中,需要统一的期刊分区方案,同一本期刊按照不同分区方案所属等级不同,带来管理困难。

期刊可以从不同角度分区,因此存在多种期刊分区方案。为统一期刊分区方案,需要对不同期刊分区方案合理性进行比较。比较分定性比较与定量比较,本文以期刊各分区内部论文被引次数离散系数为评价指标,对不同期刊分区方案合理性进行定量比较。

1 期刊分区合理性定量比较方法

1.1定量比较指标:分区论文被引次数离散系数本文基本思路是:期刊分区目的是让论文质量比较接近的多本期刊归入同一个分区。论文水平最常见定量指标即论文被引次数。因此,如果若干期刊论文被引次数较接近,则应归入同一个分区。“论文被引次数比较接近”使用数学语言表达即该分区期刊发表论文被引次数差异小,论文被引次数差异小即论文被引次数离散系数小。

为方便理解,举例说明:假定有五本期刊A、B、C、D、E,每本期刊发表论文都是5篇,各论文被引次数见表1。

表1 五本期刊五篇论文被引次数

假设五本期刊划分为两个分区,则五本期刊有两种分区法,即AB、CDE以及ABC、DE。

根据表1的论文被引次数,分别计算两种期刊分区方案中,每个方案分区的论文被引次数离散系数见表2。

表2 示例两种方案的离散系数

表2显示,第一种方案两个分区离散系数之和0.68明显小于第二种方案两个分区离散系数之和0.95,故第一种分区合理性更高。

可以将上述步骤用数学符号表达,但由于步骤清楚也并不复杂,故仅用实例展示。

1.2两个方案分区数不同时的调整规则对同一组期刊进行分区时,方案A可能分五个区,而方案B可能分三个区,两个方案比较合理性时需要调整分区,这里给出两个调整规则:a.将分区数量较多方案内部的相邻分区适当合并。所谓“适当”的具体判断标准是两种方案对比分区内期刊相同率尽可能高。b.采用规则一调整后,仍然不能确定唯一的分区调整结果,则选择调整后各分区论文被引次数离散系数和最小的方式进行调整。

为方便理解,举例说明:假定10本期刊有A、B两种分区方案,方案A分三区,一区包括编号1、2、3三本期刊,二区包括编号4、5、6三本期刊,三区包括编号7、8、9、10四本期刊。方案B分两区,一区包括编号1、2、3、4、5五本期刊,二区包括编号6、7、8、9、10五本期刊。

为对比方案AB,需要将方案A三个区合并成两个区。先采用调整规则1对三个区进行合并,具体过程见表3。

表3 方案A两种合并方式

续表3 方案A两种合并方式

表3显示,方案A一、二区合并后形成的新分区期刊相同率高于方案A的二、三区合后新分区期刊相同率,因此应选择方案A的一、二区合并后再与方案B的一区、方案A的三区与方案B的二区进行比较。

由于规则1已经可以处理该示例,故此处不继续使用规则2。

2 拟比较三个期刊分区方案简介

本文拟定量比较社科院分区、南核(CSSCI)、“H指数+剩余影响因子分区(简称HRIF)”三种分区方案合理性。

HRIF分区方案是本文一作首次提出的期刊分区新方案。“剩余影响因子” (Residual Impact Factor,缩写RIF)即一本期刊在讨论时间窗口内,扣掉H指数后的其他剩余论文被引次数除以剩余论文数量计算得到的影响因子。

2.1 HRIF分区方案HRIF分区方案的逻辑起点是:一本期刊发表的论文中,少数论文被引次数大大高于多数论文被引次数,服从幂分布[3]。由于期刊论文被引次数的幂分布特点,单独使用影响因子或者H指数来评价期刊都可能出现不合理现象。

单独使用影响因子评价期刊存在“一文拉高全刊影响因子”的MEGA 效应。Tamura Koichiro等人编写的MEGA软件被众多进化生物学研究者使用。2007年Tamura Koichiro等在进化生物学期刊MolecularBiologyandEvolution上发布MEGA 4版本。2009年该刊影响因子提高到近10,进入进化生物学领域高影响因子期刊行列。随后两年MEGA软件没有更新,该刊影响因子显著降低。2011年MEGA 5发布,该刊影响因子猛增到14.3。如果扣除 MEGA 软件带来的被引次数,该刊影响因子会减少一半多。

单独使用H指数的弊端在于H指数只考虑期刊发表论文中的少部分高被引论文,而漏掉数量上占多数的一般论文,可能导致期刊排名虚高。一个具体实例是《教育教学论坛》的谷歌学术发布H指数位居中文期刊前列,因为其发文量很大(近年来每年在五千篇以上),总有若干论文被引次数高,因此H指数高。但是,该刊发文量大,论文平均被引次数低,表现为影响因子低,该刊在中国知网中文期刊影响因子年报中的相对排位明显低于其在谷歌学术H指数中的相对排位。

HRIF分区同时采用H指数、剩余影响因子评价期刊,可以消除仅使用H指数或者影响因子评价期刊时出现的上述不足。

国际惯例通常将一个学科的全部期刊分为四个等级,本文照此。此时HRIF分区的基本步骤为:a.计算每本期刊过去两年发表论文的H指数。b.计算每本期刊过去两年发表论文的RIF剩余影响因子。c.将全部期刊的H指数和RIF剩余影响因子降序处理后,根据期刊总数均分为四段,形成16个方格。H1为H指数最大一段,RIF1为剩余影响因子最大一段,其余类推。如果需要将期刊分为三个、五个或者其他分区时,将H指数、RIF影响因子均分为三、五或者其他等级数即可。

HRIF分区的1到4个分区与16个方格之间的对应关系见图1。

图1 HRIF16个方格与四个分区的对应关系

图1中符号“×”表示不存在的H指数与剩余影响因子组合。图1右下方“×”出现原因是:按照H指数与RIF剩余影响因子的定义,剩余影响因子必然数字上小于H指数,不可能出现RIF很大、而H指数很小的组合。图1左上方“×”出现原因是:如果一本期刊RIF剩余影响因子很低,意味着该刊多数论文质量低,由于多数作者不会将较高质量论文投往多数论文质量低的期刊,因此RIF剩余影响因子小的期刊,较高质量论文数量少,则H指数自然小。

可以看到,HRIF分区能够消除单独采用H指数或者单独采用影响因子评价期刊的前述两种不合理现象。首先,一篇极高引用次数的论文在计算期刊H指数时,最多让该刊H指数增加1,计算剩余影响因子时会扣除H指数包含论文的被引次数,故“一文拉高全刊影响因子”的MEGA 效应在HRIF分区中不会出现。其次,《教育教学论坛》之类H指数高而剩余影响因子低的期刊在HRIF分区中落入低分区,而不能进入高分区。

2.2社科院期刊分区方案2018年中国社会科学院下属中国社会科学评价中心发布《中国人文社会科学期刊 AMI 综合评价指标体系》,目前为止未更新。其学科分类综合教育部《学位授予和人才培养学科目录(2018 年)》、国家标准《学科分类与代码》(GB/T 13745-2009)及《中国图书馆分类法(第五版)》,分 3 个学科大类、23 个学科类和 33个学科子类。

社科院版分区方案采用3个一级指标、10个二级指标和 24个三级指标。3个一级指标分别为吸引力、管理力、影响力。吸引力下二级指标包括获奖状况、论文状况、同行评议,管理力下二级指标包括学术不端、编辑队伍和作者队伍、制度规范以及信息化建设,影响力下二级指标包括学术影响力、社会影响力、国际影响力。由于三级指标较多,此处不列,感兴趣的读者可以自行到中国社会科学评价中心官网下载。

社科院版分区将期刊分为五级——顶级、权威、核心、扩展、入库。其中“入库”没有明确单列为一个等级,但事实上形成一个分区。

2.3 CSSCI南核分区方案1998年南京大学组建课题组研制《中文社会科学引文索引》。1999年教育部将该项目列为九五规划重大项目。2000年南京大学与香港科技大学联合完成《中文社会科学引文索引》数据库[4]。目前国内通称CSSCI或南核,两年更新一次。

CSSCI学科分类综合国家标准《学科分类与代码 (GBT 13745-2009) 》、国务院学位办发布《学位授予和人才培养学科目录(2011年)》和《国家社会科学基金学科分类目录》确定。另外根据我国实际情况设置“高校综合学报”和“综合社科期刊”两个类别。

CSSCI结合定量计量指标与定性专家评价,从大陆出版的2 700余种中文人文社会科学学术期刊中选出500多种期刊作为源刊。来源期刊分为核心版、扩展版两个等级。

CSSCI指标由4个一级指标和12个二级指标组成。4个一级指标分别为出版规范(包括政治导向、专业导向、版本与频率等二级指标)、形式规范(包括期刊信息、论文题录、引文著录、引用统计等二级指标)、学术影响(包括影响因子、总被引频次、即年指数等计量指标)、专家评价(包括网络评议、学科终审)。

CSSCI来源期刊遴选第一次采用近千名正高专业技术人员投票方式,后使用他引影响因子、总被引次数两个指标排序确定,两个指标权重为8:2[5]。

3 数据收集与处理

以图书情报学科简体中文期刊为讨论对象,采用前文第1节提出的方法定量比较第2节介绍的三种期刊分区方案优劣。

3.1数据来源讨论期刊取自《中国人文社会科学期刊 AMI 综合评价报告》(2018年)、南核CSSCI正版与扩展版(2019)两个分区方案在图书情报学科共有的24本期刊。

24本共有期刊论文被引数据来自中国知网数据库。讨论年限为2019.1.1-2020.12.31。使用爬虫程序从中国知网抓取24本期刊论文被引次数。

3.2讨论期刊在三个方案各分区的分布情况24本期刊在三种分区方案中的分布情况见表4。需要说明的是,2018版社科院分区将大部分学科的期刊分为顶级、权威、核心、扩展、入库五个分区,但图书情报学科没有顶级和入库期刊,只有权威、核心、扩展三个分区。

表4 24本图情类中文期刊三种规则分区结果

3.3三个拟比较方案分区的统一处理三个方案分区数不同,需要根据前文第1节规则统一处理。

社科院分区与HRIF分区对比情况是:本文讨论的社科院分区中,图书情报学科分三个区,而HRIF分区为四个分区。根据前文第1节规则,将HRIF分区2、3区合并。最终社科院权威期刊与HRIF分区第1区对比、社科院核心期刊与HRIF分区的2、3区对比、社科院扩展期刊与HRIF分区的第4区对比。

CSSCI与HRIF分区对比情况是:南核只有正版与扩展版两个区,而HRIF分区有四个区,按照前文第1节规则,HRIF分区的1、2、3区合并后与南核正版对比,HRIF分区的第4区与南核扩展版对比。

社科院分区与南核分区对比情况是:社科院的权威+核心分区合并后的期刊与南核的正版期刊对比,社科院的扩展版与南核扩展版期刊对比。

4 三个方案两两比较结果

按照第1节步骤得到三个期刊分区方案两两比较结果,分别见表5、表6、表7。

表5显示,社科院方案与南核的两个比较分区离散系数直到小数点后第三位方出现不同,差异微小,表明两个分区方案合理性相当。

表5 社科院与南核分区定量比较结果

表6显示,社科院首尾两个分区离散系数明显大于HRIF分区(即0.578>0.305、0.702>0.323),中间分区社科院离散系数同样大于HRIF分区,因此HRIF分区明显更合理。

表6 社科院与HRIF分区定量比较结果

表7显示,南核正版离散系数大于HRIF调整后的首个分区(即0.564>0.491),在扩展版分区比较上,南核离散系数是HRIF分区两倍多(即0.705>0.323),HRIF分区明显更合理。

表7 南核与HRIF分区比较结果

综上,采用本文方法,本次讨论的24本图书情报领域中文期刊比较,得出两点结论:

a.社科院、南核方案整体合理性相当。出现该结果的原因是社科院、南核对比的分组所属期刊高度一致。从表4中可以看到,社科院的权威+核心分区合并后的期刊与南核的正版期刊高度一致,18本期刊中仅有1本期刊不一致,即序号18的《图书馆学研究》在南核中属于正版、在社科院分区中属于扩展版,其余17本期刊相同。同样地,社科院的扩展版与南核扩展版期刊对比,6本期刊中仅1本期刊不同,即序号19的《图书馆》在南核中属于扩展版、社科院中属于核心区。

b.HRIF分区明显优于社科院、南核方案。出现该结果的原因是HRIF分区使用H指数、RIF剩余影响因子分别刻画期刊论文中的少数相对高被引论文以及多数相对低被引论文,充分刻画期刊论文被引次数幂分布特征。社科院、南核方案采用的文献计量指标以影响因子、总被引次数等总量指标、平均指标为主,对期刊论文被引次数幂分布特征刻画相对不足。

5 结 语

目前国内期刊分区多方案并存,不同方案合理性大小比较成为期刊研究、科研管理研究的一个重要问题。本文对该问题研究有三点贡献:提出使用论文被引次数分区离散系数大小定量比较不同期刊分区方案合理性;提出优于社科院版分区、南核分区的期刊分区新方案“H指数+剩余影响因子”HRIF分区方案;HRIF分区可以作为不同期刊分区方案合理性的一个定量比较基准。

下一步研究工作包括:a.采用五年时间窗口计算H指数与RIF剩余影响因子。高论文被引峰值通常出现在论文发表后第4~5年[6],所以采用五年时间窗口计算H指数与RIF剩余影响因子更为合理,只是习惯上以两年影响因子使用最多,故本文暂时采用两年影响因子。b.更换指标探讨本文方法稳健性,如本文采用“论文被引次数”指标计算分区论文离散系数,后续研究可以考虑采用“论文他引次数”。c.采集更多学科更多期刊数据讨论。d.将更多期刊分区方案(如中国科技信息研究所、中国科学院文献情报中心期刊分区方案、FMS管理科学期刊分区方案等)与HRIF分区进行比较。

猜你喜欢

社科院分区次数
省委常委、省委宣传部部长王纲到省社科院调研
贵州省地质灾害易发分区图
上海实施“分区封控”
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
振兴乡村,山东大有可为——访山东社科院农村发展研究所所长张清津
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
社科院数字图书馆建设研究
大型数据库分区表研究
大空间建筑防火分区设计的探讨