国内外高被引论文研究综述
2019-02-20莫富传冯翠翠苏玲
莫富传 冯翠翠 苏玲
(华中师范大学信息管理学院,武汉 430079)
高被引论文作为科学评价的重要组成部分,其相关问题已成为当前业界和学术界共同关注的热点话题。从现有研究来看,高被引论文研究吸引了多学科研究者的积极参与,不同学科从不同研究视角对高被引论文展开不同层面问题的探讨,形成各具特色的研究成果。为正确、及时地把握某一主题领域的研究内容,追踪研究热点,既需要在期刊数据库中检索相关的文献,又要掌握文献发表时间、作者、研究机构等信息,从不同的角度诠释该领域研究现状的相关属性,以宏观地把握研究领域当前的发展情况和发展趋势。本文在简要概述国内外高被引论文研究现状的基础上,构建高被引论文研究内容和方向的整体框架,进而对国内外高被引论文的相关研究进行系统梳理和归纳,全面详尽地展示高被引论文领域的研究主题;并对国内外高被引论文的研究视角、研究主题和研究方法等进行评述,对今后的研究进行展望,以期为未来该领域的理论研究和实践应用提供借鉴和参考。
1 研究现状概述
为提高论文数据的内容针对性和学术权威性,本研究使用的外文文献来源于Web of Science,以“high*+cite*+paper*”和“most*+ cite*+paper*”为检索词进行主题检索,选择Web of Science核心合集数据库进行精炼,并按照标题等进行筛选,剔除与研究内容无关的文献,最终得到有效文献784篇。中文文献将中国学术期刊网络出版总库CAJD作为数据来源,以标题包含“高被引论文”或“高影响力论文”为检索式进行高级检索并剔除与研究内容无关和非核心期刊的文献,最终得到有效文献204篇。上述检索日期均为2019年6月21日。
对上述文献发表时间进行分析发现,早在1995年国内学者就开始了对高被引论文的研究,而国外始于2000年。2007年以来,国内外关于高被引论文研究的文献总体呈急剧增长态势,说明学者高度关注和重视高被引论文的研究,并将保持这种趋势。进一步分析发现,国内文献主要发表在图情档等领域,学科背景较为单一,而国外文献除图情档外还包括物理、医学等领域,跨学科性和跨领域性较为显著;国内作者人数众多,但分布离散、高产作者较少,缺乏深入性和持续性研究;国外作者之间的合作十分密切,作者合作程度较高。此外,国内外发文较多的机构大多为知名度较高和科研能力较强的高等院校及科研机构,但论文在期刊中的分布不均匀,呈现出较为明显的集中与分散现象。
论文的关键词是其内容的浓缩和提炼,频次高的关键词代表一段时间内研究者对该问题的关注热度,关键词的词频越大,表明该关键词的热度越高,因而关键词的使用频次能显示某领域学术研究的重点与热点、发展脉络与方向等[1]。统计发现,“高被引论文”“高影响力论文”“highly cited paper”等阐述高被引论文概念界定的关键词,“作者分布”“统计分析”等反映高被引论文分布特征的关键词,“引文分析”“citation analysis”“citation classics”等反映高被引论文引用规律的关键词,“学术影响力”“影响因子”“impact”“impact factor”等反映高被引论文的科学评价作用的关键词,“文献计量”“研究热点”“bibliometric analysis”“Trend”等表明高被引论文具备反映学科发展演进作用的关键词,出现频率较大,其所代表的研究主题热度较高。这些高频关键词是国内外高被引论文研究领域的代表性术语,表征了该领域的热点主题和发展方向。因此,高被引论文的概念界定、高被引论文的分布特征、高被引论文的引用规律、高被引论文的科学评价作用、高被引论文的反映学科发展演进作用研究等主题,是国内外高被引论文研究领域的重点与热点。
2 高被引论文的概念界定研究
概念的界定是一切理论研究的基础。关于高被引论文的概念,ESI数据库将高被引论文定义为近十年来被引频次排在各学科领域前1%的论文[2]。《中国高被引分析报告2012》将某学科在某一年里被引用过的论文中,按照论文被引频次高低排序,排位在前1%的论文定义为(该年)高被引论文[3]。Moed[4]认为高被引论文是指被引频次相对较高、被引用周期相对较长的学术论文;祝清松等[5]认为高被引论文指在某个统计时间段内,被引用次数排在学科前列的论文,在一定程度上代表了学科的研究进展,具有重要的研究意义。程刚[6]认为高被引论文一般具有3个特征:①在阐述同一主题的论文中,具有一定的理论深度和理论突破;②抓住了本学科研究近期和中期的关键性及本领域普遍关心的问题,对工作实践有较大的指导意义;③在理论上有相对的认识超前性。可见,不同领域、不同时间的出版物和学者基于不同的角度,关于高被引论文内涵的界定和具体表述存在一定的差异,但高被引频次往往是突破性、创新性研究成果的共有特征之一,这是学界的共识[7]。
在高被引论文的选取方面,目前学界在具体确定某一学科或领域的高被引论文时多采用限定被引频次法、百分比法[8]和普赖斯定律法[9]等。上述确定高被引论文的方法显然只考虑论文被引频次的高低,而没有考虑发表时间的先后,把不同年代发表的论文等同对待;且限定被引频次或百分比主观性较强,缺乏理论依据;是否所有学科或领域高被引论文的分布符合普赖斯定律有待验证。事实上,论文的被引频次存在累积效应,论文发表时间的长短对被引频次的高低有直接的影响:发表时间越长,被引用的机会越多,被引频次就会相对提高;但也并非发表时间越长,被引频次就越高,这与论文的研究主题是否属于学科领域的研究热点以及在科学发展中的重要程度有关。已有的研究表明,科研工作者使用的引文大多是近二十年内发表的文献,中文文献被引用的最佳年限一般为出版后的2~5年,外文文献为3~8年,某学科或领域论文的被引篇数和总被引频次的年份分布曲线呈现中间高两极低的正态分布[10-11]。对此,Levitt等[12]给出了一个结合期刊和单篇文献的识别指标“Composite Indicator”,杨国立[13]提出的“年均被引频次”,Thelwall等[14]提出使用期刊影响因子的几何或算数平均数作为高被引论文识别指标等,是对限定被引频次、百分比和普赖斯定律等方法的改进。
3 高被引论文的分布特征研究
文献数量的时序变化是衡量某领域发展的重要指标,绘制相应的分布曲线对文献分布进行历史、全面的统计,对评价该领域所处的阶段、动态,以及预测发展趋势具有重要意义[15]。发文量是评价作者和机构科学影响力的重要指标,通过分析作者及其机构与地区的发文量,在一定程度上可以了解各研究人员、机构和地区在学科领域的研究成果、学术水平和权威程度,了解学科领域研究主体的水平分布及其合作情况。研究论文的期刊和文献类型分布是揭示学科领域的重要期刊情报源的有效方法,也能据此判断论文的整体质量。科学基金是现今科学研究的重要公共资源之一,各主要大国都在科学基金上投入了巨额的经费,科学基金的资助产出成果的定量研究有重要意义。可见,发表时间、研究群体、期刊、文献类型以及基金分布情况等作为学术论文的重要属性特征,对这些属性特征进行统分析,可以从不同的角度诠释该领域的研究现状。
在高被引论文的被引频次分布方面,由于论文的被引频次高峰一般出现在论文发表后的第2~4年,某些论文则被持续引用多年,其被引篇数和总被引频次的年份分布曲线呈现中间高两极低的正态分布[11]。刘晓燕等[16]对高被引论文的类型进行研究,发现相对于一般研究论文,特约综述性的文章尤其是综述特刊上的文章和经过严格挑选的会议论文在高被引论文中占比较大,且高被引论文在特刊上分布较多。另外,论文篇幅越长、自引的增加、放入开放获取文档有利于论文的被引[17]。在高被引论文的基金分布方面,苏林伟等[18]对16个国家/地区的10个学科高被引基金论文进行了实证研究,发现各国家/地区的高被引论文科学基金资助率在不同学科存在结构差异;陈琼等[19]对护理核心期刊刊载的临床护理类高被引基金论文的研究发现,高被引论文以省级、市级、院级资助为主,部队资助论文受到关注。针对高被引论文地区差异的研究发现,我国图书馆学研究发展不均衡,高水平成果主要来源于少数经济、文化发达的地区,高校是我国图书馆学研究的重要机构[20]。虽然上述学者的研究得出了较为一致的结论,但Seglen[21]和Larivière等[22]经过对大量数据的分析指出,期刊的影响因子与其刊载的单篇文献的被引用频次之间是弱相关的关系;Persson[23]通过对比国内外的高被引论文的国际合作情况,发现国际合作不是论文高被引的决定因素;王知津等[24]的研究发现,作者的影响力大小与文章被引用数量之间没有明显的关系,署名单位没有表现出明显的向某些研究单位集聚的特征,且高校层次与论文影响力的关系并未存在明显的关联特征,是否属于基金项目产出的文章与高被引论文的形成没有必然联系。
4 高被引论文的引用规律研究
文献间的引用性质主要分为正面引用、中性引用和负面引用。高被引论文的引用行为中正面引用和深度引用占绝大比例,但也存在一定的负面引用和浅度引用,中性引用和中度引用占有相当比例,引文中占多数的正面引用和深度引用对论文质量具有评价作用[25]。在具体文章类型的分析上,张磊[26]针对档案学的研究发现,引用情感类型以正面引用为主,综述性和实践性的文章多是中性引用,而具有商榷性和争鸣性的负面引用文章很少。
对高被引文献施引规律的探究可以在一定程度上探析高被引论文的理论基础和知识构成,科学认识论文高被引与参考文献的关系以及丰富二者关系研究的学科特性具有重要意义,因而也得到了学者们的关注。Webster等[27]认为参考文献的数量与被引频次相关,高被引论文的参考文献数量明显比一般论文多。但梁春慧等[28]的研究表明并非越是高被引论文,其参考文献数量越多。同时,高水平的研究更多建立在高水平的研究基础之上,高被引论文比一般论文更倾向于引用声望值和影响因子高的期刊论文,而不是基于中等引用的论文[28]。但随着被引频次的降低,其引用的高被引论文所占的比例也在下降[29]。而姜磊等[30]研究表明,参考文献与被引频次之间的相关性不明显,参考文献可以作为一个独立于被引频次的论文评价指标。在高被引论文的下载使用方面,Jahandideh等[31]对Science Direct的论文下载频次与被引次数报告进行时间序列分析,指出一篇论文在某个时间段的高下载量,很有可能是该文献高被引的预兆;Harnad等[32]通过对英国医学期刊的文献进行统计分析,发现文献下载量与被引频次呈强相关关系。
引文曲线是用来描述论文被引次数随时间变化规律的一种曲线,绘制并进行引文曲线形状特征分析、特征差异分析、分布状态分析和引文网络特征分析有利于不同研究者找到研究同行、挖掘学科研究前沿、推进学科发展,对此学界也进行了深入的研究。随着科学的“睡美人”等被各国学者相继提出[33],王海燕等[34]对高被引论文、“睡美人”论文的10~20年被引用数据进行对比分析,发现高被引论文呈现持续增长型、显峰型、双峰型、振荡型,“睡美人”论文则呈现持续增长型、显峰型、双峰型、振荡型、稳定型的被引曲线模式,高被引论文与“睡美人”论文的持续增长曲线表现出近乎一致的增长速率和增长模式,但高被引论文平均早于“睡美人”论文4年达到引用峰值,领域发展趋势与“睡美人”论文被引曲线的走势一致。屈文建等[35]的研究发现对于不同研究主题、不同作者的高被引论文引文曲线特征存在差异,并认为高被引论文引文曲线特征可以用来识别不同的研究方向和不同的研究团队。
5 高被引论文的科学评价作用研究
已有的研究表明,高品质论文不是最高被引论文,但被引频次都高于学科平均被引;最高被引的论文品质虽然不能肯定最优,但一般具有广泛的影响力[36]。高被引论文对期刊影响力、影响因子有重要影响是学界的共识:对作者而言,高被引论文意味着高学术影响力;对期刊而言,高被引论文是期刊高质量、高水平的主要贡献者,对期刊引证指标也有重要贡献;对机构而言,高被引论文是评价其研究状况、学科研究特点和学术影响力的客观指标之一。
目前,国内外期刊评价的理论和实践都经历了长期的不断探索与实践的过程,目前已经逐渐形成一套比较成熟的理论方法和评价体系,如JCR、《中文核心期刊要目总览》、《中国学术期刊评价研究报告(武大版)》等。上述国内外较为成熟的期刊评价指标体系均将总被引次数视为评价论文学术质量与期刊学术水平的关键标准,反映了期刊及其刊载论文的学术影响力,体现了期刊刊载论文受关注的程度。档案学期刊的一项研究表明,高被引论文对影响因子贡献度较高,前5%的高被引论文对影响因子贡献最大达20.85%,最高达59.86%,平均达37.32%[37]。可见,高被引论文的质量决定了期刊学术影响力的深度,高被引论文的数量决定了期刊学术影响力的范围,高被引论文构成了期刊学术影响力的核心,挖掘高被引论文有利于提高期刊的学术影响力[38]。
对高被引论文的多形式多层面的统计与探析,可以为全面深入了解某机构的研究方向、成果、水平、成员等科研综合实力提供客观真实依据,这对建设自身机构、分析他方机构都颇有益处。在国际重要刊物上发表科研论文的情况是评估一所研究型大学学术水平的重要指标之一,高被引论文产出数量反映了该学校的科研是否具有较强的科研竞争力,高被引论文在科研绩效评价[39]、科研影响力比较[40]和大学评价研究[41]中有广泛的应用。朱星等[42]以北京大学历年来被SCI数据库收录的科学论文为基础,着重分析了发表论文的被引频次,进而深入分析北京大学理科各院系和研究人员的学术成就,为大学的学术评估和科研发展战略的制订提供了重要的参考依据;袁心亿等[43]对以浙江大学图书馆为第一作者单位并在该数据库内高被引论文进行了统计,以探析其科研实力;周晓鸥等[44]对东华大学高被引用论文进行多角度的统计和分析,客观评价其研究状况、学科研究特点和学术影响力,展现东华大学的优势学科及论文科研成果的影响力,以期为学校的学科建设规划以及人才引进提供借鉴。
6 高被引论文的反映学科发展演进作用研究
高被引用论文具有较高的学术参考价值与引领作用,通常会在某研究领域内得到研究者的高度关注和有效利用。文献高被引现象的形成说明研究者对被引文献观点和结论的高度认同,高被引论文集合了领域的核心研究内容,分析、总结具有广泛学术影响力的高被引论文的学术特征与共同特点,可以较为客观地反映学科或领域的研究动态和关注热点,为研究人员把握研究方向以及期刊编辑的选题组稿提供参考。因此,基于高被引论文的研究热点识别、反映学科发展演进已经得到越来越多的关注和运用,成为重要的研究方向和内容。
Small等[45]证实了文献被引数量对于评价学术影响力的可靠性,并认为同被引聚类分析可以用来表示某一学科或专题的研究结构和状况,对某学科和专题的高被引论文的连续同被引聚类分析应该可以动态地表示该学科和专题的变化情况。受Small启发,国内学者崔雷[46-47]也开展了相关的研究,认为连续、动态的高频被引论文的同被引聚类分析能够反映某一专题研究的结构及这些结构的发展过程,不同年代高被引论文的连续同被引聚类分析不仅能反映这一主题客观上的变化,同时也反映了不同时间里研究人员对该题目的认识过程,当年高被引论文的主题词链聚类分析可以用于预测某一学科研究的热点。秦卫平等[48]对高被引论文与研究热点是否具有显著相关关系进行了初步探讨,认为高被引论文具有学科导航作用,对相关学科和领域也有一定的辐射功能,揭示着学科研究方向,体现了学科研究热点。Martínez等[49]利用H-Classics对高被引论文在社会网络中的特征进行分析,指出高被引论文与其所在的学科属性和学科演化有关。莫富传等[50]从高被引论文的广泛影响力、高被引论文与引证文献的主题相关性、引证文献之间的主题相关性、高被引论文有较大引文网络4个方面论证基于高被引论文研究热点识别的理论依据。
在具体应用上,徐剑等[51]通过对新媒体研究领域高被引论文的分析,追溯新媒体研究在中国近十年来发展的历史脉络及其主题转换;高耀明等[52]运用内容分析法对高等教育专题高被引论文所使用的研究方法进行分析,显示我国高等教育研究方法论正从单一的思辨研究趋向多样化,但思辨研究仍是主要方法;高燕等[53]通过对《新闻记者》高被引论文的聚焦,来观察新闻传播学专业期刊自改革开放以来的学术发展与变迁;陆晓曦[54]选取图书馆学基础理论研究领域所发表的被引频率高、具有代表性的重要作品进行梳理和分析,勾勒出了10年间我国图书馆学基础理论研究的状况及发展脉络;季丹等[55]通过对中国网络舆情领域高被引论文数据的描述性分析,发现中国网络舆情领域的研究越来越体现出学术化、规范化的发展趋势。闫娟等[56]对国内期刊编辑工作主题的高被引频次文章信息进行提炼并汇总这些文章的主要内容,分析目前关于该主题的研究现状及相关信息。
7 高被引论文研究的评析与展望
7.1 研究评析
纵观高被引论文的相关研究成果,可从学科领域、研究内容、研究方法方面总结归纳出现有研究的特点。从学科领域上看,不同学科的研究者从不同研究视角对高被引论文展开了不同层面问题的探讨,形成了各具特色的研究成果。除图书情报与档案管理领域的文献计量、科学研究管理领域的科学评价、出版领域的编辑选题组稿等优势领域外,计算机、医学、生物、教育等众多学科领域的学者也针对本领域的高被引论文展开了具有学科特色的研究。不同学科从不同视角开展了多维度的研究,为我们开阔眼界的同时也提供了丰富的成果借鉴。从研究内容上看,目前国内外学者对高被引论文不同层面的问题均进行了深入探讨。研究内容包括高被引论文的概念界定与选取,高被引论文在发表时间、研究群体、期刊以及基金与学科等分布特征的统计和分析,高被引论文的引用性质、施引规律和引证规律的探究,高被引论文的学术影响力及其在期刊质量与机构科研实力评价上的作用,高被引论文在揭示学科发展演进、识别前沿研究热点的应用等。从研究方法上看,词频统计与共现聚类分析法、数理统计分析法、引文分析法、内容分析法、知识图谱可视化分析法、社会网络分析法和多维尺度分析运用较多,不同的研究方法在高被引论文研究中存在明显交融趋势。
7.2 研究展望
综上所述,目前国内外对高被引论文的研究已经取得了突出的研究成果,形成较为完善的理论体系。但同时,通过对现有研究的综述,发现国内外高被引论文的研究还存在一些不足之处,突破这些不足是继续推进高被引研究的关键。首先,虽然现有研究从多个角度对高被引论文的分布特征进行了统计分析,对引用规律及其表现也进行了揭示,但尚未深入地分析高被引论文的分布特征和引用规律的产生机理,未来研究应进一步加深研究深度,加强对高被引论文特征背后的机理研究。其次,高被引论文分析法已广泛应用于学科领域研究热点与前沿的识别与分析,但对高被引论文与研究热点是否具有显著相关关系这一问题尚未进行过系统的实例论证,今后应加强对高被引论文分析法的可行性分析,重点探讨高被引论文分析法应用于研究热点识别的理论依据研究、主题识别方法研究和研究热点热度评价研究。最后,以往学者多是基于文献计量或自身科学领域的研究视角探讨高被引论文的某些特征和应用,但由于高被引论文作为科学活动中普遍存在的一种必然现象,既涉及文献计量学理论知识,又在关于科学发展的科学学理论中有所体现,是一个交叉研究领域,涉及的理论知识面较广,未来研究应该进一步进行多学科的交叉研究,在研究视角和研究方法方面进行进一步的创新。