科技论文评价指标相关性比较分析
2019-03-24
随着社交媒体的出现以及学者学术交流行为的变化,学者影响力主要表现为学术影响力和社会影响力[1]。学术影响力是指研究者的科研成果在公开发表后,对该领域学术界或同行影响的深度和广度[2],以传统评价指标SCIE被引频次和ESI高被引作为代表。学术影响力评估已成为衡量科技期刊、出版社、科技机构、国家以及学者竞争力与发展潜力的重要方面[1]。社会影响力指标则是以Altmetrics为代表,主要体现学术论文网络的传播影响情况和关注度,包含Twitter、Mendeley、Blogs等各项指标,通过对论文的收藏、分享、提及、推荐等在线行为表现其影响力和社会效应[3]。关于同行评议指标,生物医学领域文献以F1000最具代表性,是专家根据自己所专长的研究主题领域前沿,鉴别学术研究出版物中最重要的文献,推荐和评论高影响力的学术研究成果[2]。如今对于科技论文的评价不再以单一指标作为唯一评价标准,而是综合考虑各种类型指标的评价结果。
ESI是衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具,也是评价学术机构和高校的国际学术水平及影响的重要指标。按照同年同学科发表论文的被引频次由高到低排序,排在前1%的论文被赋予“高被引论文”(Highly Cited Paper)。不同年份发表论文的高被引阈值均不同,被赋予高被引论文是对高水平论文的一种标识认可。SCIE被引频次则是文献计量学中传统的评价指标,论文的被引频次随其影响力的增加而逐年增高。
近年来逐步兴起的Altmetrics越来越受到科研人员的重视。陈小清[4]探讨了单篇论著影响力各评价指标的相关性,指出学术迹与Altmetrics评分和Comment论文数具有相关性,与F1000评分无相关性,各评价指标都有一定意义,侧重点不同。王雯霞[5]以Altmetrics指标为基础建立了不同学科间论文影响力评价指标模型,指出Altmetrics Score测度的是论文的社会影响力,被引频次测度的是论文的学术影响力。在不同学科领域模型中共同保留的指标为被引频次,Mendeley及Blogs在论文综合影响力评价中学术影响力占据主导地位,二者结合的定量评价能挖掘出综合影响力较高的文献。刘晓娟[6]认为,Mendeley以及Twitter在Altemetric指标中具有一定的代表性。
F1000 Prime是目前世界上唯一依据8 000多名生物学和医学领域顶尖科学家同行评议结果对最重要的科研论文提供在线推荐服务的平台,每年对全球论文总数不足2‰的优秀精品医学论文进行推荐和点评,依据学术贡献和科学价值挑选出优秀论文,推荐给全世界的生物学和医学研究者,F1000 因子(F1000 Score,FS)为专家评议分值[7-8]。
本文以F1000论文为基础,选取具有一定相似性的论文集,随后引入论文评价的各个指标,选取SCIE被引频次和ESI高被引作为学术影响力的代表指标,选取Altmetrics Score、Twitter及Mendeley作为社会影响力指标中最具代表性指标以及同行评议代表指标FS,通过探讨彼此之间的相关性挖掘各指标之间的潜在联系。
1 数据与方法
本文以F1000某学科“last month”推荐的38篇文献为基础,在PubMed数据库中查找每篇论文的“related citations”,选取每篇论文网络发表时间前6个月的“related citations”,获得原始文献401篇。
选取2014年(下载原始文献时)和2018年(查询论文是否为ESI高被引时)2个不同时间段的SCIE被引频次、FS数据进行分析,可看出随着时间变化的论文被引变化,以及FS随着时间增高或降低的变化。ESI高被引论文是根据2018年ESI第四期更新数据为评定标准,查询2008-2018年发表的文献是否为高被引,高被引论文标为“1”,否则标为“0”,对文献集内401篇文章的高被引论文进行标识。
Altmetrics Score及其一些社交网络相关指标可通过PubMedPlus平台进行查询获取。关于Altemetric指标,2011年后发表的高价值度、高影响力文章才可获得Altemetrics各项分值,但并不是PubMed收录的每篇文章都有Altemetrics各项分值,同理,也不是每条数据都有Twitter、Mendeley分值。因此综合分析查询ESI高被引论文时间及Altmetrics各个指标的覆盖率情况,最终确定对比指标数据范围,选定2011-2014年发表的246篇文献集构成样本1,其中F1000推荐的25篇文献构成样本2,再分别进行论文各指标相关性比较分析。
2 结果与分析
2.1 各指标相关性比较分析
经过滤筛选,选取样本1,利用SPSS 19.0软件做斯皮尔曼相关性分析,结果见表1和表2。
表1 样本1各对比指标数据(部分)
注:Altmetrics Score、Twitter标记为“-”,表示数据缺失,即没有Altmetrics Score和Twitter分值;SCIE被引频次标记为“-”,表示尚未被SCIE收录,无引用次数
2.1.1 被引频次与各指标的关系
2014年和2018年的SCIE被引频次成强相关关系,相关系数为0.836,说明学术影响力高的论文随着时间的变化仍然保持着高影响力水平。2014年和2018年的SCIE被引频次与Altmetrics Scores相关系数由0.531增长到0.679,与Twitter的相关系数由0.416增长到0.544,都低于与Mendeley的相关系数(分别为0.599和0.767)。这是由于被引频次是学术影响力的代表,而Mendeley用户多为科研人员,他们只利用Mendeley进行参考文献的管理和学术交流、文献的阅读与标注[9],因此在Altmetrics各项指标中Mendeley指标更接近于真实的学术影响力水平。同时,随着论文发表时间的延续,以被引频次为代表的论文的学术影响力指标与其他各指标的相关度也随之增长,论文的学术价值将逐年突显。
表2 2011-2014年发表论文集各指标相关性分析结果
注:**表示在 0.05 级别(双尾),相关性显著
2.1.2 ESI高被引与各指标的关系
ESI高被引与2014年和2018年的被引频次相关系数分别为0.549和0.691,属于中度相关。ESI高被引论文与Altmetrics Score、Twitter、Mendeley之间也成中度正相关关系,相关系数在0.6左右范围波动。
2.1.3 Altmetrics Score与各指标的关系
Altmetrics Score与Twitter、Mendeley指标均成强正相关关系,相关系数分别为0.796和0.714。相比较而言,与Twitter相关度更高,这与Twitter[9]更适用于论文的社交媒体影响力评价的结论一致。Twitter与Mendeley之间的相关系数是0.568。
2.2 F1000推荐文献各指标的相关性比较分析
选取样本2,即2011-2014年发表并被F1000推荐的25篇文献,引入论文各个评价指标,进行相关性分析,详见表3及表4。
表3 样本2中各对比指标数据(全部)
续表3
注:Altmetrics Score、Twitter标记为“-”,表示数据缺失,即没有Altmetrics Score和Twitter分值
表4 F1000推荐文献各指标相关性分析
注:**表示在 0.01 级别(双尾),相关性显著;*表示在 0.05 级别(双尾),相关性显著
2.2.1 F1000推荐文献的被引频次与其他各指标的相关性
2014年和2018年的被引频次相关系数高达0.945,高于样本1的相关系数,说明相对于其他普通论文,F1000推荐文献逐年增长的被引频次在增长后的相关性更高,外界的认可度一直较高。2014年和2018年的SCIE被引频次与FS无相关性,检测结果在0.01和0.05级别(双尾),均无显著性差异;与ESI高被引论文的相关系数分别为0.691和0.786,分别高于样本1文献集的相关系数,且持续增加。2014年和2018年的被引频次与Altmetrics Score、Mendeley相关系数分别为0.552、0.614和0.593、0.729,而与Twitter指标不相关。
2.2.2 F1000推荐文献的FS与其他指标相关性
2014年FS和2018年FS相关系数为0.898,为强相关。近2年的FS与ESI高被引论文分别在0.01和0.05级别(双尾),均无显著性差异,说明F1000推荐的论文不一定是高被引论文,而未被推荐的论文也有可能成为高被引论文,二者在统计学上无相关性。2014年FS在0.01级别(双尾)检测中与Altmetrics Score相关系数为0.528,2018年FS在0.05级别(双尾)检测中与Altmetrics Score相关系数为0.499。2014年和2018年的FS与Mendeley相关系数分别为0.745和0.661,这2年的FS只在0.05级别(双尾)检测结果中才与Twitter指标有相关性,相关系数分别为0.436和0.490。
2.2.3 F1000推荐文献的ESI高被引论文与其他指标的相关性
F1000推荐文献中ESI高被引论文与Altmetrics Score、Mendeley之间为中度正相关关系,相关系数分别为0.455和0.597,在0.01级别(双尾)检验时与Twitter指标无相关性。
2.2.4 F1000推荐文献的Altmetrics Score与其他指标的相关性
F1000推荐文献的Altmetrics Score与Twitter成高度正相关,相关系数达0.873,与Mendeley相关系数为0.620。在F1000推荐文献中,被引频次、FS、ESI高被引论文普遍与Twitter不相关,或者相关度较低,说明F1000同行评议与学术影响力指标相关度较高,与社会影响力指标(Twitter为代表)的社会关注情况、传播力度相关性较低。Twitter和Mendeley两者在0.01和0.05级别中均显示不相关,说明两者对论文传播角度的关注不同。
3 结论
随着时间的增长,作为论文学术影响力的代表指标——SCIE被引频次与ESI高被引之间存在强正相关关系,特别是那些具有较高学术影响力的文献。这些学术影响力指标与Altmetrics Score、Twitter、Mendeley为代表的社会影响力指标成中度正相关关系,Mendeley指标更接近于学术影响力的真实情况。
同行评议指标代表FS自身存在时间上无延续性的特点。FS与被引频次、ESI高被引情况均无相关性,二者分属于不同评价层面。尽管当前对学术文献影响力主要是通过传统的被引频次以及同行评议的方法进行的评估,单独1种作为对文献影响力的评估方法都会显得较为局限和不足[10]。鉴于两者之间的相关性不足,建议引入其他论文指标进行补充评价分析。FS与Altmetrics各指标存在中度相关性,与Mendeley指标相关性最高。
Altmetrics Score与Twitter和Mendeley之间也为正相关关系。一般情况下,论文的学术影响力指标和社会影响力指标之间存在中度正相关关系,说明从论文评价的不同角度可给出相对一致的结论。不可通过单一指标对论文进行评价,应根据不同学科的特点,发掘各个指标的优势,综合考虑各个指标的侧重点对论文进行综合评价。
4 讨论
4.1 论文学术影响力和社会影响力指标的对比
目前公认的论文的学术影响力指标是以SCIE被引频次为代表的。赵蓉英[11]指出,Altmetrics评价指标同传统的引文指标既具有一致性也存在差异,Altmetrics测度偏向社会影响力及社会关注度,较少涉及表征论文质量的学术影响力。刘俏[12]提出Altmetrics 指标能较多元化地评价学术论文,对学术论文的评价在体现社会影响力并兼顾学术影响力方面,具有一定的可行性。本文也指出了2个样本中各指标数据与Mendeley相关系数均在0.6及以上,Mendeley是Altmetrics中最能反映论文学术影响力的指标。本文中SCIE被引频次与ESI高被引均属于对论文学术影响力的评价范围,二者成强正相关关系,样本1、样本2计算结果的相关系数均在0.7以上。作为社会影响力的指标代表,Altmetrics Score、Twitter及Mendeley之间也均有强正相关性。SCIE被引频次和ESI高被引与Altmetrics Score、Twitter、Mendeley为中度正相关关系,说明学术影响力指标和社会影响力指标在论文评价的不同方面、不同角度对单篇论文可给出相对一致的评价结论。宋丽芳[13]提出的同行评议与文献计量作为论文科学评价的两种主要方法已成为学术界的共识。
4.2 同行评议指标和Altmetrics各项指标的对比
随着开放科学、开放数据和社交媒体工具的迅速发展,除正式出版物如期刊及专著以外的其他类型科学研究成果开始得到科学界的认可[14]。FS和Altemetrics分属2种不同类型的科学成果评价体系,二者的计算方式不同。F1000评分相对简单,仅将各位专家评分累积求和即可获得FS。FS随时间发展变化不大,在25篇文献中只有4篇文献的FS在4年间有所提高,这可能由于F1000随时都在推荐最新文献,对时间久远的论文关注度则会降低。这一结果与迟培娟[15]指出的F1000推荐的绝大部分文献都是在论文正式出版前2个月至出版后4个月给出评价结果相吻合。Altmetrics Score通过搜罗传统网络媒体、社会媒体、在线参考工具等媒介中用户对论著的收录、转发、评论、阅读、收藏等行为数据,再通过一定的赋权,综合计算而得[4]。因此Altmetrics与其构成的Twitter、Mendeley指标无疑成正相关,与本文结果一致。但各指标侧重方向均有不同,Twitter适合对文献的社会影响力做出判断,Mendeley更适用于文献的学术影响力评价[15]。研究发现,FS与Altmetrics各相关指标存在中度相关性,这与不同类型计量指标对同一组论文影响力的评估具有一致性结论相呼应[16]。另外,F1000推荐文献中FS得分虽然与被引频次无相关性,但是从与Mendeley的相关系数来看,还是从2个层面给出了相对一致的评价结果。
4.3 覆盖率及客观性
本文在引入各项论文评价指标进行分析时,考虑到ESI数据覆盖范围是2008-2018年,第一步筛选2008年后发表的文献269篇。随后在引入Altmetrics各指标时,鉴于Altmetrics公司成立时间(2011年),因此样本1选取2011年起发表的246篇文献,其中可获得Altmetrics Scores的有157篇(占63.82%),可获得Twitter分值的有141篇(占57.32%),可获得Mendeley分值的有161篇(占65.45%),说明Altmetrics各指标覆盖不够全面,不能对数据集内每篇论文给出评价,覆盖率占60%,难以公平公正地对一定范围内的文章进行评价。刘晓娟[17]探讨了Altmetrics覆盖率影响因素及应用分析,指出不同Altmetrics指标的覆盖率不同,Mendeley覆盖率最高,Twitter 其次,而大多数指标覆盖率很低,与本文结果基本一致。样本2为2011年起发表的F1000推荐文献25篇,其中可获得Altmetrics Score的有24篇(占96%),可获得Twitter分值的有21篇(占84%),可获得Mendeley分值的有24篇(占96%),说明样本2的覆盖率较高。由于全球前2‰的优秀精品医学F1000论文的学术贡献和科学价值较高,在线学术交流平台类及社交媒体类指标[4]均较高,其学术影响力和社会影响力指标也较高,受到广泛学者的普遍认可。
F1000是基于同行评议的论文评价平台,难以保证评价的绝对客观性,专家根据个人的态度对文献本身学术成就给予评价,同时存在运用范围不够广泛、全面的缺点;Altmetrics是一个包含了各种类型、各个维度指标的复杂指标集合,应用在当前这个多元化的学术生态评价系统,具有一定的影响力[15]。二者均存在对于一些质量相对较低的论文无法获得各项评分而无法进行评估的情况,同时也由于某些相关指标获取不全而存在评价的片面性疏漏。二者各有利弊,应分别从不同角度对评价文章给予辅助参考。
4.4 F1000推荐文献特点
本文中选取的F1000文献,最初数据下载时间是2014年9月,在2018年9月重新更新FS分值以及SCIE被引频次。发现4年间只有5篇文章的FS有变化增高,其他20篇文章的FS毫无变化,增高的FS占比F1000文章总数(25篇)的20%,说明F1000学者对于其推荐论文的评价无增加,时效性较强,未像被引频次一样有时间上的延续性。这符合F1000是对近期发表的论文给予评价和推荐,而后的追加评论和关注度要落后一些,后期的延续性不佳。
5 结语
本文探讨了科技论文的3种主要代表性评价指标之间的相关性,分别对学术影响力代表指标(SCIE被引频次和ESI高被引)、社会影响力代表指标(Altmetrics Score、Twitter和Mendeley)及同行评议代表指标FS进行了相关性分析。这些指标之间都存在某种内在的关联性,能分别从不同的角度反映论文的不同价值和影响力[2],同时也存在指标不在同一维度无法进行对比分析的情况。如2011年初期发表文献的Altemetrics各项数据指标缺失较多,对结果可能会有些影响。然而,对论文需要进行综合而全面的评价,各种指标之间或多或少都存在着互补的关系,没有一种是完整的,同时也存在由于论文质量不同而获取不到所有相关指标的情况。如何构建科学合理的论文评价指标体系对论文进行系统评价,是需要继续探寻的方向和目标。