基于因子分析法的科技期刊引文综合评价指标研究
2015-03-26孙金立
■吴 涛 杨 筠 陈 晨 赵 娟 孙金立
1)第四军医大学《医学争鸣》编辑部,陕西省西安市长乐西路169号 710032
2)第四军医大学图书馆,西安 710032
3)西安邮电大学外国语学院,西安 710121
准确公正地评价科技期刊对于研究者掌握学术动态、科研单位评价科研成果、图书馆选择精品期刊等各个领域都有极其重要的作用。期刊评价理论发展至今,已经涌现了大量的评价指标。传统指标如总发文量、总被引频次、他引率、引用半衰期等对期刊的评价目标明确但单一,多从“量”的角度考虑。从“质”的角度评价期刊的引文评价指标有影响因子(Impact Factor,IF)、h指数、特征因子(Eigenfactor Score,ES)、SJR(SCImago Journal Rank)和 SNIP(Source Normalized Impact per Paper)等,以及这些指标的衍生指标:5年IF(IF5)、类h指数(A指数、g指数、R指数等)、论文影响分值(Article Influence Score,AIS)等。这些琳琅满目的指标都是通过不同的运算法则衡量期刊引文的数量和质量,在科技期刊评价中具有一定的先进性,但其弊端也逐渐暴露,这些引文评价指标既有各自的优缺点,彼此又存在高度相关性[1]。单一的评价指标显然无法满足科技期刊评价的要求,但对期刊进行多指标的综合评价又众说纷纭,做法不一[2-4]。
对科技期刊进行多指标的综合评价涉及指标选择、权重赋予、消除相关指标间的信息重叠等诸多方面的问题。因子分析法通过分析多个原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量(公因子),并用这些潜在变量来解释原始指标之间的相关性[5]。因子分析由于解释力较强,能客观确定各指标权重,消除指标间的相关重叠性,为综合评价科技期刊提供了一种较好的方法[6]。
本文尝试对 IF、IF5、h指数、SJR、ES和 SNIP六大具有代表性的期刊引文评价核心指标进行因子分析,找出它们之间的公因子,建立科技期刊引文综合评价指标函数,并通过实例与这六个指标进行排序对比,希望能对科技期刊引文综合评价工作提供些许参考意见。
1 数据来源
本文以基于WoS数据库的IF、IF5、ES和基于Scopus数据库的h指数、SJR和SNIP六大核心指标为研究对象,选择了2013年公布的这两大数据库共有的医学类期刊作为因子分析数据来源。IF、IF5、ES来自2012年的期刊引证报告(Journal Citation Reports,JCR),h指数和 SJR查自网站 http://www.scimagojr.com/journalsearch.php,SNIP在 http://www.journalindicators.com/indicators上可查询。排除数据不全或极端数值为零的期刊后,共收集1881份医学期刊的评价数据。
2 方法
将这1881份期刊的 IF、IF5、ES、h指数、SJR和SNIP数值录入Excel表格,利用SPSS20.0统计软件进行因子分析。找出这六个指标的公因子,以每个因子对公因子的贡献率为权重,构建指标的综合评价函数。再挑选出这1881份期刊中的分属免疫学专业期刊(共68份)和综合内科医学期刊(共71份),将其六个指标的标准化数值分别代入新建函数,得到这些样本期刊的综合评价指标值,并排序,排序结果分别与六个指标的排序结果对比分析。
2.1 原始数据处理
为了消除原始数据数量级和量纲的差异,首先对原始数据作标准化处理(SPSS软件自动处理过程),然后建立各指标间的相关系数矩阵(表1)。对数据进行KMO和Bartlett检验,KMO为0.796,大于0.5,表明样本充足;Bartlett球形度检验的显著性水平P=0.000<0.001,表明原始数据适合做因子分析。
表1 相关矩阵
2.2 因子分析
将 IF、IF5、ES、SJR、h指数和 SNIP依次编号x1-x6,公因子提取采用主成分分析法。利用SPSS20.0计算各指标相关矩阵特征值和方差累积贡献率(表2),根据特征值大于1或者方差累积贡献率大于80%确定公因子。由表2可知,因子1和2的特征值均大于1,并且它们提供的累积贡献率(91.811%)已达到80%,因此提取前两个因子为公因子。
然后建立因子载荷矩阵(表3),它反映了每个指标与公因子之间相互联系的密切程度。由表3可见,旋转前的因子载荷矩阵不能明显地反映出每个指标在公因子上载荷的差别,也就很难解释各公因子的专业意义,因此采用Kaiser标准化的正交旋转法进行因子旋转,使每个公因子上因子载荷的平方向0和1两级分化,造成尽可能大的差别,以使各公因子支配不同的原始指标,从而使各公因子具有较为清晰的专业意义。旋转后的因子载荷矩阵显示因子1在 IF、IF5、SJR、SNIP上有较大的因子载荷(更接近1),因子2在ES和h指数两个指标上载荷最大。
表2 各因子相关矩阵特征值和方差累积贡献率
表3 旋转前后的因子载荷矩阵
3 结果
3.1 公因子的专业意义解释
通过我们前期对 IF、IF5、h指数、SJR、ES和SNIP六大指标的特点及相关性的研究[1],再结合以上因子分析结果,将这六个指标分为两类:一类包括IF、IF5、SJR和SNIP,它们反映的是期刊的平均影响力,将其上载荷较大的公因子F1命名为平均影响力因子,对全部初始变量的方差贡献率为57.453%。平均影响力因子与期刊发表论文总数成反比,侧重反映期刊论文的平均水平。另一类包括ES和h指数,它们反映的是期刊的整体影响力,将其上载荷较大的公因子F2定义为整体影响力因子,方差贡献率为34.358%。期刊载文量越大,发表的论文越多,整体影响力越大。
3.2 综合评价指标函数的建立
使用SPSS20.0计算出各因子得分系数(表 4)。
表4 各因子得分系数矩阵
根据该得分系数矩阵,可列出各因子得分的计算表达式:F1=0.328x1+0.266x2-0.210x3+0.235x4-0.151x5+0.367x6;F2=-0.120x1-0.011x2+0.607x3+0.017x4+0.548x5-0.206x6。
再以公因子1和2旋转后的主成分贡献率(见表2)为权重进行加权求和,得到每个期刊的综合因子值 F:F=(0.57453 F1+0.34358 F2)/0.91811。
3.3 实证比较
3.3.1 专业性期刊实证
利用该综合评价指标函数对WoS数据库和Scopus数据库共有的免疫学期刊(共68份期刊该六项指标齐全)进行综合评价,分别计算出各期刊的平均影响力因子(F1)、整体影响力因子(F2)和综合因子(F)得分。根据各因子得分将68份期刊排序,并与 IF、IF5、ES、SJR、h指数和 SNIP排序结果对比分析。本文将综合因子(F)排名前20的期刊排序结果列于表5。
从对比排序结果可以看出:(1)F排名第一的期刊(Annual Review of Immunology),多项指标(F1、IF、IF5、SJR、SNIP)都排在第一,F2却排在第 51位。研究这份期刊发现,其载文量偏少,每年只发表20~30篇文献,导致F2排名靠后,ES和h指数也不是很高,但这份期刊篇均影响力很高,综合排名仍为第一;(2)F排名第六的期刊(Journal of Immunology),F2、ES和 h指数排名第一或第二,但F1却排在第68位上。研究该期刊发现,其近五年年均载文量达1592篇(1382~1948篇),导致ES和h指数偏高,排名靠前,但篇均影响IF排到第15位,IF5、SJR和SNIP排名分别为14、11、15。权衡整体与平均影响力后,综合因子排名第6,介于ES、h指数与IF、IF5、SJR、SNIP排名之间。(3)整体影响力与平均影响力均衡的期刊,IF、IF5、h指数、SJR、ES和 SNIP六大指标排序结果较一致,则F1、F2与F排名也不会有大的出入。如F排名第三的期刊(Nature immunology),近五年年均载文量219篇(211~238篇),IF、IF5、ES、F1均排第三,SJR、SNIP排第二,h指数排第四。F排名第20的期刊(Biology of blood and marrow transplantation),其近五年年均载文量275篇(236~308篇),F1和F2分别排19和26,六大引文评价指标排名也都介于17~28。
表5 免疫学期刊引文评价综合指标得分排序与其他指标排序对比
3.3.2 综合性期刊实证
利用该综合评价指标函数对WoS数据库和Scopus数据库共有的综合性内科学期刊(共71份期刊该六项指标齐全)进行综合评价,计算各期刊的因子得分,再根据各因子得分将71份期刊排序,并与六大原始指标的排序结果对比分析。
通过对比排序结果,我们发现:(1)在载文量大的期刊,如综合因子 F排名分列前三的 New England Journal of Medicine(近五年年均载文量达1818篇)、Lancet(近五年年均载文量达1797篇)、JAMA(近五年年均载文量达1305篇)都是医学界的顶级综合类杂志,其六大原始指标排名基本都在前三,虽然可能因为载文量大的原因,代表平均影响力的F1因子排名受到影响,排在倒数后三位,但这并不能影响综合因子F的排名。(2)在载文量小的期刊,如综合因子 F排名第六的期刊 Annual Review of Medicine,其近五年年均载文量只有34篇(31~36篇),ES和h指数分别排在第13和第7位,IF、IF5、SJR和 SNIP分别排 4、5、3、5位,篇均影响力较整体影响力排名靠前,F因子排名很好地中和了这两种影响力,排名第六。
4 讨论
目前,在国内外期刊评价中,IF仍然占据着重要地位,其计算过程简单,某刊前两年发表论文在统计年的被引证次数除以该刊前两年发表论文总数,但局限性也很明显:默认所有引文具有同样的权重,不排除自引,对于极端数值的变化敏感等等。IF5将统计的引文区间延长至5年,对IF做了一定的改进,但不能更正以上局限,而且从本研究及其他研究[7]结果看,IF与IF5排名差异小,相关程度极强,所以IF5取代IF意义不大。h指数在国外期刊评价中也是极为常用的,从h指数的计算原理就能看出h指数的数值变化是随着时间只增不减的[7,8],期刊发表的论文数量越多,越有利于提高 h指数,其同一种期刊的排名比IF排名靠前[9]。SJR与ES引入了引文网络的概念,参考了衡量网页重要性的PageRank算法,计算时考虑到引文的权重,但SJR与期刊刊载论文的平均水平关系较强[10],而ES具有发文量依赖倾向,用于评价期刊的总体影响力[11]。SNIP是期刊评价指标团队中较新的成员,由于基于全球最大的文摘和引文数据库Scopus和其能对不同主题领域来源期刊进行直接评价的优势[12],而引起期刊评价界的广泛关注,但从它的全称“篇均来源期刊标准影响”和计算原理“引用潜力”(一篇文献在特定学科领域里估计能达到的平均被引用次数)看[13],SNIP是对期刊平均影响力的测量。因子分析的结果将IF、IF5、SJR和SNIP归为一类,h指数和ES归为一类,可见支配这些指标相关性的重叠信息不取决于来源数据库,也不在于引文区间和自引处理,或是否考虑引文权重等等,而在于计算的结果是期刊影响力的平均值还是整体值,载文量起了决定性的影响。
无论是哪一个期刊引文评价指标,都存在片面性,因此国内外所有的数据库在评价一本期刊时都会同时采用多个指标,但各自做法不一,而且这些引文指标之间存在信息交叉,对不同期刊的评价有偏颇,我们需要构建一个综合评价指标体系,将各指标分配权重,消除信息重叠。本文对1881份医学期刊的6个核心引文指标数值进行了因子分析,找出起支配作用的潜在因素——公因子F1、F2,并通过F1和F2在各指标上的不同载荷,将这六个指标分为两类,F1代表了期刊的平均影响力,F2代表了期刊的整体影响力,期刊的载文量对于F1和F2的排序有重要的影响。在权衡F1和F2的基础上,我们构建了综合引文评价指标函数以计算综合因子F值,将这六个相关的指标通过降维转化为一个综合指标。
通过对免疫学的68种专业期刊和内科学的71种综合期刊的实证研究证实,无论针对载文量偏大的期刊还是载文量偏小的期刊,该综合因子能综合这六大引文评价指标,消除载文量的影响,权衡期刊整体与平均影响力,客观公正地评价科技期刊的质量水平。当然,还是那句老话:没有哪种指标是完美的。本研究构建的综合指标函数具有一定的局限性,虽然样本量大,但选择的研究指标类型有限,局限于引文评价核心指标,建立的综合评价指标体系还不够全面、丰富。但通过因子分析法构建综合引文评价指标在实例验证中显示出一定的合理性和应用价值,对于消除载文量的影响也显出一定的效果,对于期刊引文评价具有一定的参考价值。
[1]吴涛,史纪元,杨筠,等.科技期刊引文评价核心指标的对比研究[J].中国科技期刊研究,2014,25(8):1058-1062.
[2]刘雪立.中文核心期刊评价指标体系:演进·问题·建议[J].编辑学报,2014,26(1):92-95.
[3]张晓雪.我国科技期刊评价指标体系的现状考察及未来发展思考[J].中国出版,2014(1):29-31.
[4]史艳芬.基于SSCI&Scopus对比分析期刊评价指标的实证研究[J].情报杂志,2013,32(12):119-122.
[5]孙振球,徐勇勇.医学统计学[M].3版.人民卫生出版社,2011:362-373.
[6]辛督强,韩国秀.因子分析法在科技期刊综合评价中的应用[J].数理统计与管理,2014,33(1):116-121.
[7]吴海芳.几种学术期刊评价指标的相关性分析[J].大学图书情报学刊,2013,31(6):86-89.
[8]李超.国内期刊评价及其方法研究的进展与实践[J].情报科学,2012,30(8):1232-1237.
[9]朱蓓,赵会懂.H指数与影响因子评价科技期刊的比较[J].中华医学图书情报杂志,2010,19(9):1-3,24.
[10]赵星,高小强,唐 宇.SJR与影响因子、h指数的比较及SJR的扩展设想[J].大学图书馆学报,2009(2):80-84.
[11]窦曦骞,祁延莉.特征因子与论文影响力指标初探[J].大学图书馆学报,2009(6):57-62.
[12]程小娟,杨晶晶.Scopus数据库引文评价新指标SNIP原理及可行性探讨[J].图书情报工作,2012,56(10):6-9,34.
[13]Huggett S.New perspectiveson journal performance[EB/OL].(2010-01)[2014-08-30].http://www.researchtrends.com/issue15-january-2010/behind-the-data-2/.