一种类h指数实证分析及实践应用
2017-06-03宋振世
〔摘要〕文章根据h指数的思想,提出了一种考虑分年被引频次的类h指数,即年度h指数,可以对单篇论文或学者进行学术影响力评价,通过SPSS23对2万多篇论文及800多位学者的年度h指数进行实证分析,结果表明年度h指数可评价单篇论文或学者的持续影响力,最后结合年度h指数的思想,提出了用ha指数表达年度h指数的计算方法,并应用在选择代表性论文、人才引进等过程中,为相关决策提供参考。
〔关键词〕类h指数;h指数;学术影响力;实证分析
DOI:10.3969/j.issn.1008-0821.2017.05.010
〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2017)05-0052-06
An Empirical Analysis and Practical Application of an h-type IndexSong Zhenshi
(Library,East China Normal University,ShangHai 200241,China)
〔Abstract〕According to the idea of h-index,this paper proposed an h-type index which took into account the citation frequency of each year,that is,the annual h-index,which could evaluate the academic influence of single paper or scholar.Through empirical analysis of 851 scholars and their papers using SPSS23,the annual h-index evaluated the lasting influence of a single paper or scholar.At last,with the idea of annual h-index,the method of expressing annual h-index with ha index was put forward,which was applied in the process of selecting representative papers and talent introduction,providing a reference for Decision-Making Support.
〔Key words〕h-type index;h index;academic influence;empirical analysis
1類h指数研究现状
美国物理学家Hirsch(JorgeEHirsch) 2005年提出h指数的概念,用来评价科研工作者的学术成就,Hirsch把h指数定义为:如果一个科研工作者发表的N篇论文中有h篇论文的被引次数至少为h,那么其h指数为h[1]。因h指数同时关注科研成果的数量和质量,引起了国内外学者的广泛关注,也被扩展到对期刊、机构的学术影响力评价,但h指数本身也存在诸多缺陷,如h指数忽视高被引论文的贡献,难以区分h值相同,但发表论文数量和被引频次均不同的情况;h指数也完全忽视h指数以下的论文数量及被引频次,这样即使h指数相同的作者,其发表的论文数量也不一定相同;h指数存在只升不降的问题,允许科学家吃老本,也不利于新的科研工作者[2],另外还受研究领域,文献语种等因素影响[3],为改进h指数的缺陷,国内外学者在h指数的基础上提出了改进型h指数,即为类h指数。
首先,考虑单篇论文被引频次的类h指数。ha指数[4]和hm指数[5],ha指数是许新军根据“金牌优先”法则提出,“金牌优先”法则是尽量以最高水平的成果来代表被评价对象的水平,金牌数量是首要关注的对象,是排名的首要依据,在金牌数量相同的情况下,银牌的数量将成为关注的重点。该法则应用到h指数中,对于h值相同的学者(相当于金牌相同),用发文量、被引次数和篇均被引次数等作为银牌来考虑。ha=h+h/Nc核(Nc核>1,Nc核表示h指数核内所有论文被引频次总和)。同理,张雪梅提出的hm指数:hm=h+h/Nctot(Nctot表示某作者全部论文的被引频次总和);g指数[6]和hg指数[7],g指数引入了累积被引频次,相比h指数而言,对那些发表论文数量少,而被引频次较高的作者有利,hg指数弱化了高被引频次论文对g指数的影响,其值比g指数值更接近h指数,但不如h指数直观,不能直接反映量与质的关系。考虑单篇论文被引频次的类h指数还有h2指数[8]、R指数、A指数[9]、f指数[10]和ht指数[11]等。
其次,考虑合作者的类h指数。hbar指数[12],Hirsch剔除合作作者因素对h指数的影响进行改,提出了hbar指数,即合作作者的h指数如果高于论文的被引频次时,该篇论文将会被剔除,不计算在hbar指数中,hbar指数虽然考虑合作作者的因素,但没有考虑合作作者对论文的贡献程度,总之,hbar指数的计算不包括与比自己科研能力强的合作者的合作论文;Kosmulaski研究表明,排除自引后样本的h 指数平均降低了26%,可见自引修正对h指数的计算是非常必要的[13];Shekofteh在考虑第一作者和通讯作者的影响的因素后提出了Y指数,Richard在Kosmulaski研究基础上,提出了排除自引的b指数[14]。考虑合作者的类h指数还有h1指数[15]、w指数[16]和hw指数[17]等。
第三,考虑时间因素的类h指数。AR指数[18]。金碧辉为了解决h指数“只能上升,不能下降”的问题提出了AR指数,即h核内每篇论文的年均被引频次总和的平方根。Ronald Rousseau在AR指数的基础上提出了AR2指数[19]。Antonis Sidiropoulos等提出hc指数和趋势ht指数,分别用于评价杰出的青年科学家和创新学者,hc指数和趋势ht指数虽然考虑了时间因素,但其新颖性的得分计算较为复杂,实践应用性较差。Anne-Wil Harzing提出个人年度hIa指数[20]表示个人h指数的年度平均增长。考虑时间因素的类h指数还有s指数[21]等。
综合上述类h指数,该文在Anne-Wil Harzing的hIa指数的思想上,进一步提出一种考虑分年被引频次的Annual h Index指数(简称ha指数),随着时间的推移,有的被引频次可能会排除在h指数的计算内,年度h指数随着时间的推移或升或降,而不像h指数只升不降。
2年度h指数的构建
21年度h指数的原理
年度h指数是在h指数和类h指数的基础上提出。年度h指数可分为单篇论文年度h指数和学者年度h指数,单篇论文年度h指数用于对单篇学术论文的学术影响力评价,学者年度h指数用于对学者的学术影响力评价。单篇论文年度h指数定义为:一篇学术论文发表后,有h年的年被引频次分别在h次以上,其年度h指数为h;同理,学者年度h指数定义为:一个学者所有的论文,有h年的年被引频次分别在h次以上,其年度h指数为h。
22年度h指数的计算实例
假设某学者2011年发表7篇论文,7篇论文2011-2015年之间每年被引用情况按照公式(1)原理计算,论文1的年度h指数为4,其有4年的单年被引频次大于4,论文2的年度h指数为3,其有3年的单年被引频次大于3;同理推算出,该学者的年度h指数为5,其有5年的单年被引频次大于5。在批量计算时,以Excel为例,对每条数据横向降序排序,然后编写程序执行如下公式,其中j为第几年,cition(j)为该年被引频次。
年度h指数=j-1j≥cition(j)
j?j=cition(j)j为年份数,?j=1,2,…,2016-论文发表年份(1)
3年度类h指数实践应用实证分析
31数据来源及处理方法
华东师范大学图书馆2009年开始,针对全校教师开展学术影响力评价,科研论文方面,理工科教师检索SCIE论文,论文类型包括Article、Review和Proceedings Paper,文科教师检索的是第一作者CSSCI来源论文、SSCI和A&HCI论文,第一作者CSSCI被引文献检索的类型为期刊论文和图书,经过人工筛选,只保留专著的图书被引。
按照理工科教师姓名和单位地址检索,获取每个教师的SCIE论文,保存为WOS全记录制表符分割(Win)格式,下载后打开txt文件,全选复制到Excel中,并把每条记录的第一列存放作者工号,以便统计使用,通过各种途径(如教师个人主页、百度百科等)确认教师论文,汇总全校理工科教师SCIE论文,通过vba程序快速生成用逻辑运算符OR连接的高级检索式,在WOS中执行高级检索式,对检索结果创建引文报告,再下载包含分年被引的数据,因分年被引數据不包含UT号,对下载的数据通过论文篇名和之前下载的论文对比,最终形成包含分年被引频次的全记录数据格式;CSSCI来源文献和被引文献按照第一作者姓名检索,下载保存为txt文件,编写vba程序读取txt文件,把需要的数据按行存放到Excel中,在获取分年被引频次时,逐行遍历施引文献文本,判断施引年份,最终形成从文章发表后逐年被引用的次数。每篇论文包含分年被引频次后,可以通过工号和年份进行分组统计,计算出每个老师总的年被引频次,进而计算教师个人年度h指数。
32实证分析
321单篇论文年度h指数与被引频次、学术年龄等指标的相关性
从论文发表当年至2016年,为单篇论文的学术年龄,对20 146篇论文的年度h指数与被引频次、学术年龄等指标进行Pearson相关系数分析。从表1单篇论文年度h指数等指标相关分析表看,相关系数检验的概率p值近似为0,表明显著水平为001时,各指标显著相关。从Pearson相关系数看,单篇论文年度h指数与其被引频次的相关系数为0803,具有较强的正相关关系,考虑单年最高被引频次的影响,以单年最高被引频次为控制变量,对单篇论文年度h指数与其被引频次进行偏相关分析,偏相关系数为0524;单篇论文年度h指数与其学术年龄的相关系数为0233,虽然呈现的是正相关关系,但线性相关关系较弱,可见单篇论文年度h指数受论文发表年限的影响不大;单篇论文年度h指数与期刊影响因子的相关系数为0251,线性相关关系较弱,由此判断,单篇论文年度h指数受期刊影响因子的影响较小。
322学者年度h指数与被引频次、学术年龄等指标的相关性
从学者最早发表论文的年份开始计算其学术年龄,对851名理工科教师年的年度h指数与被引频次、学术年龄等指标进行Pearson相关系数分析。从表2学者年度h指数等指标相关分析表看,相关系数检验的概率p值近似为0,表明显著水平为001时,各指标显著相关。从Pearson相关系数看,学者年度h指数和历年h指数的相关系数为0836,呈现出较强的正相关线性关系,说明年度h指数在一定程度上可替代历年h指数;学者年度h指数与总被引频次的相关系数为0684,呈现出中等强度正相关线性关系,但考虑最高被引频次论文的影响,对学者年度h指数与其被引频次进行偏相关分析,偏相关系数为0457,可见最高被引频次论文使学者年度h指数与其被引频次相关强度减弱;学者年度h指数与其学术生涯的相关系数为0719,呈现出中等强度正相关线性关系,历年h指数与学术生涯的相关系数为0549,呈现出中等偏弱强度正相关线性关系,由此可见,年度h指数可以比历年h指数更好体现学术生涯的长短。
323不同年龄段学者年度h指数的差异
从30~60岁,每5年划分为一个年龄段,把学者划分为8个年龄段,分别是30岁以下、31~35岁、36~40岁、41~45岁、46~50岁、51~55岁、56~60岁和60岁以上,分别对不同职称群体各年龄段做学者年度h指数、历年h指数两独立样本t检验,推断不同年龄段学者年度h指数均值是否存才显著差异。对正高31~35岁和36~40岁年度h指数做两独立样本t检验,显著水平α为005,从表3年度h指数的基本描述统计量看,可以看出正高31~35岁和36~40岁年度h指数平均值有一定差异,历年h指数均值差异不大,从两独立样本t检验结果看,年度h指数F统计量的观察值为1 143,对应的概率p值为0288,由于概率p小于α,可以认为两总体方差无显著差异,因此应看假定等方差t检验结果,t统计量的观测值为-2997,对应的双尾概率p值为0004,小于α,因此可认为正高31~35岁和36~40岁年度h指数的均值存在显著差异,而从历年h指数t统计量及其双尾概率p值看,正高31~35岁和36~40岁历年h指数的均值无显著差异。
同正高分析方法,副高31~35岁和36~40岁年度h指数均值存在显著差异,其他年龄段之间均无显著差异,副高36~40岁和41~45岁历年h指数均值存在显著差异,其他年龄段之间均无显著差异,从描述统计量看,36~40岁群体年度h指数平均值最高,而且方差最小,其与31~35岁年龄段相比,年度h指數更能区分其学术影响力,其与41~45岁年龄段相比,历年h指数更能区分其学术影响力。同时对副高40岁以下和41岁以上学者做两独立样本t检验,年度h指数莱文方差存在显著差异,在不假定等方差的情况下,双尾概率p为0037,可见两组直接无论是方差还是均值均存在显著差异,在历年h指数方面,莱文方差无显著差异,双尾概率p为0949,表明两组年龄段历年h指数均值无显著差异。
在中级各年龄段之间年度h指数、历年h指数做两独立样本t检验,30岁以下与31~35岁年龄段之间年度h指数均值无显著差异,而历年h指数确存在显著差异,其他年龄段二者之间均无显著差异。对35岁以下和36岁以上中级学者做年度h指数、历年h指数两独立样本t检验,年度h指数莱文方差存在显著差异,历年h指数均值存在显著性差异。
4研究结论
41年度h指数可用于单篇论文的学术影响力评价
单篇论文年度h指数与期刊影响因子、学术年龄的相关性较低,与总被引频次的相关性较高,可见对单篇论文评价,其年度h指数可对被引频次、影响因子等传统评价指标进行补充。同时单篇论文年度h指数可以体现单篇论文的被关注的热度,弥补了h指数仅仅关注h核内论文的被引频次,年度h指数关注每年的被引频次。
42年度h指数可评价学者持续影响力
历年h指数忽视高被引频次论文,如某一学者历年h指数为10,其h核内论文被引频次从高到低降序排列,如前5篇论文的被引频次在持续增加,其历年h指数不会发生任何变化,其实该学者的影响力在增加,而年度h指数可以反映学者的持续影响力,年度h指数不忽视任何一篇被引用的论文,只要达到一定的热度,都会被计算在学者的影响力中。
43年度h指数用于评价相对年轻学者会更好
从上述实证分析来看,正高31~35岁和36~40岁年度h指数平均值有一定差异,历年h指数均值差异不大,对45岁以下正高和46岁以上正高做年度h指数、历年h指数两独立样本t检验,二组年度h指数莱文方差存在显著性差异,在不假定等方差的情况下,概率p值为0,表明两组间年度h指数均值也存在显著性差异;副高31~35岁和36~40岁年度h指数均值存在显著差异,对副高40岁以下和41岁以上学者做两独立样本t检验,年度h指数莱文方差存在显著差异;中级30岁以下与31~35岁年龄段之间年度h指数均值无显著差异,而历年h指数确存在显著差异,对35岁以下和36岁以上中级学者做年度h指数、历年h指数两独立样本t检验,年度h指数莱文方差存在显著差异,历年h指数均值存在显著性差异。可见,在正高和副高职称群体中,年轻学者的年度h指数更具有区分度,在中级职称群体中,年轻学者的年度h指数和历年h指数均有一定的区分度。
44年度h指数是对历年h指数的补充
历年h指数同时考虑发表篇数和被引频次两个指标,提出后被学术界广泛的认可,并在Web of Science等数据库中应用,但不可忽视历年h指数其本身的缺陷,年度h指数考虑单年被引频次,可以扩展到历年被引频次,也可以是某个时间段的年被引频次,如近10年或近5年的年度h指数。也可以计算单年学者h指数,如学者某一年有h篇论文被引频次为h次以上,其年度h指数为h。
年度h指数在h指数的思想上提出,计算方法简单,并根据年度h指数的算法对大量数据进行验证,年度h指数在一定程度上可以反映单篇论文或学者的持续影响力,可以作为h指数、总被引频次和期刊影响因子的辅助评价指标,对学者年度h指数的应用可以结合历年h指数组合成一个新指数,如Annual h指数(简称ha指数),把ha指数分成两部分组成,整数部分和小数部分,整数部分保留h指数的计算方法,小数部分按照h指数的思想计算分年被引频次的h指数,即年度h指数,然后除以100转换为小数,最后整数部分加小数部分组成ha指数,计算公式为:ha=h+h′/100(h′为按论文年被引频次计算所得的h指数)。假如某学者已发表了5篇论文,被引频次从高到低分别是10、9、9、8、1,2015年5篇论文所有单年被引用次数和为5、4、1、1、1,那么其ha指数为402(即ha=4+2/100)。
当然,年度h指数的思想也有一定的缺陷,它考虑了论文的年份因素,受年份的影响,一篇论文的年度h指数不会超过论文发表后的年限,学者的年度h指数不会超过其最早发表学术论文的年份数,因此,可以对分年被引频次设定一个阈值,如到达2*h次才可以进入年度h指数,也可以计算学者单年年度h指数,这些还需要实证分析来进一步研究。
5年度h指数的实践应用
51选取代表性论文
学科评估、申报长江学者、职称评审等相关活动中,需要选取代表性论文,虽然期刊影响因子、总被引频次能在一定程度上反映论文的水平,但就单篇论文而言,其自身的影响力才是最重要的评价指标。如仅仅从总被引频次或影响因子的高低来选代表性论文的话,单年或某几年高被引会导致总被引频次增高,同样影响因子较高期刊发表的论文不一定所有论文都是高被引频次或是都有持续的影响力。单篇论文年度h指数体现了论文的持续影响力,可以辅助选取代表性论文指标的参考。
52对职称评审和引进人才学术影响力评估
经过多年的科研数据搜集、整理,逐渐形成了本校教师历年科研成果数据库,除对教师历年科研成果进行数量统计外,还对历年h指数、年度h指数、任意年h指数、被引频次、影响因子等指标进行了统计。在开展人才引进或职称评审时,以现有数据库为基础,从历年h指数、年度h指数等其他指标与在职相应职称群体相关指标进行比较,并形成方阵图,以上四分位数、均值和下四分位数分开的4个区间为4个方阵,同时可以自由选择比较对象,如拟引进副高人才,导入相关成果后,可以和所在院系的副高群体比较,也可以与所在院系正高或中级群体进行比较,最终给出落在具体方阵的数据,以便辅助决策判断。
53预测学术影响力发展趋势
通过年度h指数和分年被引数据,在数据库中自动生成论文、学者、院系科研论文的年度被引发展趋势图,通过趋势图可以了解教师个人、院系或这个学校的学术影响力趋势,同时结合基本科学指标数据库(Essential Science Indicators,简称ESI)指标阈值,预测论文或学科离高被引或熱点论文的差距,通过年度h指数也可以发现本机构相关学科年度热点论文。
参考文献
[1]Hirsch,JE.An index to quantify an individuals scientific research output[J].Proceedings of the national academy of sciences of the united states of america,2005,(46):16569-16572.
[2]宋振世,周健.类h指数研究综述及其实证对比分析[J].情报科学,2012,(11):1652-1657.
[3]Hirsch,JE;Buela-Casal,G.The meaning of the h-index[J].International journal of clinical and health psychology,2014,(14):2,161-164.
[4]许新军.ha指数:对h指数的修正——“金牌优先”法则的启示[J].情报理论与实践,2009,(11):8-12.
[5]张学梅.hm指数——对h指数的修正[J].图书情报工作,2007,51(10):1162-1191.
[6]Leo Egghe.Theory and practise of the g-index[J].scientometrics,2006,69(1):131-152.
[7]Alonso,S.,Abrerizo,F.,Herrera-Viedma,E.,& Herrera,F.,hg-index:A new index to characterize the scientific output of researchers based on the h-and g-indices[C].USA:Scientomet rics,2009.
[8]Marek Kosmulski.A new Hirsch-type index saves time and works equally well as the original h-index[J].ISSI Newsletter,2006,2(3):4-6.
[9]金碧辉.Rousseau Ronald.R指数、AR指数:h指数功能扩展的补充指标[J].科学观察,2007,(3):1-8.
[10]叶鹰.一种学术排序新指数——f指数探析[J].情报学报,2009,(1):142-149.
[11]Anderson T R,Hankin R K S,Killworth P D.Beyond the Durfee square:Enhancing the h-index to score total publication output[J].Scientometrics,2008,76(3):577-588.
[12]Hirsch,JE.An index to quantify an individuals scientific research output that takes into account the effect of multiple coauthorship[J].Scientometrics,2010,(85):3,741-754.
[13]Kosmulski M.A new Hirsch-type Index Saves Time and Works Equally Well as The Original h-index[J].ISSI Newsletter,2006,2(3):4-6.
[14]Richard JCBrown.A simple method for excluding self-citation from the h-index:the b-index[J].Online Information Review,2009,33(6):1129-1136.
[15]Batistapd,etal.Is it possible t o compare researchers with different scientific interests?[J].Scientometrics,2006,68(1):179-189.
[16]Zhang Chunting.A proposal for calculating weiqhted citations based on author rank[J].EMBO Reports,2009,10(5):416-417.
[17]高小强,赵星.基于h核心的被引次数分权类h指数[J].情报理论与实践,2010,(3):45,50-53.
[18]金碧辉.Rousseau Ronald.R指数、AR指数:h指数功能扩展的补充指标[J].科学观察,2007,(3):1-8.
[19]Rousseau,Ronald;Jin,Bihui.The Age-Dependent h-Type AR(2)-Index:Basic Properties and a Case Study[J].Journal of the american society for information science and technology,2008,59(14):2305-2311.
[20]Harzing,AW;Alakangas,S;Adams,D.hIa:an individual annual h-index to accommodate disciplinary and career length differences[J].Scientometrics,2014,99:811.
[21]Lutz Bornmann,Hans-Dieter Daniel.The citation speed index:A useful bibliometric indicator to add to the h index[J].Journal of informetrics,2010,(4):444-446.
[22]Ryan,James C.A validation of the individual annual h-index(hIa):application of the hIa to a qualitatively and quantitatively different sample[J].Scientometrics,2016,109(1):577-590.