科技论文引文的相关性、因果性与引文评价
2021-01-05程启厚
程启厚
(中国药科大学期刊编辑部 江苏南京 210009)
学术评价是以学术标准为尺度对学术活动效果作出价值判断的过程[1],其对于考核学术质量、评价学术价值、鉴定学术成果、引导学术方向具有重要意义,同时它还影响职称评定、基金申请、奖项获取、基地评审、研究资源再分配[2]及期刊资料的采购和订 阅[3]等诸多方面。因此,科学合理的学术评价体系对于促进科学研究的良性发展具有重要意义。以期刊影响因子为核心的科学引文评价自产生以来,就伴随着各种质疑和批判。2015年4月,英国《自然》杂志发表了Hicks等撰写的文章——莱顿宣言,指出滥用文献计量学对于学术评价结果的扭曲。同期,众多科学组织、科学家和知名学术出版机构先后签署《旧金山科研评估宣言》(DORA),倡导科研评估不要再过度依赖文献计量学指标,呼吁改用更加全面的科研评估模式。这种抵制潮流使传统引文评价的应用价值遭受到前所未有的挑战。
在引文实践中,除去错误引用等极端情况,施引与被引都是基于文献内容之间的某种相关关系。温科勒[4]通过调查研究表明,引文都是与研究内容的某个特殊点有关系、相关联的,可以说80%以上的引用都是出于专业的原因。但文献的相关性不能直接证明引用关系完全体现知识增长的累积性[5],这是引文评价的理论缺陷。在实践中,缺乏客观数据有效性以及错把数据相关当成因果关系等往往会导致统计陷阱的出现[6]。因此,以文献相关性为基础的传统引文评价结果无法真实反映评价对象的学术质量和影响力。借鉴大数据研究的数据挖掘思路[7],将引文分为因果性引文和非因果性引文,并利用因果性引文数据进行学术评价是一种潜在合理的评价方法。它能客观反映被引文献对后续研究的支撑作用,消除引用行为和引文相关关系差异对于评价结果的影响,有利于促进良好的科技评价和学术出版生态的构建。
1 引文的相关性及传统引文评价的不合理性
1.1 引文的相关性
科技论文是在科学研究、实验的基础上,运用概念、判断、推理、证明、反驳等逻辑思维手段对自然科学和专业技术领域里的某些现象或者问题进行专题研究、分析和阐述,揭示出这些现象和问题的本质及规律性而撰写的文章[8]。由于科研工作的继承性和关联性以及学科之间的交叉性和渗透性,几乎所有研究成果的取得都在不同程度上依赖已有的相关研究文献资料。因此,参考文献的引用和著录是学术论文不可或缺的重要有机组成部分[9]。引文的相关性体现在诸多方面,如相同或相近的研究主题(对象)、研究思路和方法的借鉴,以及相近或相反的研究结果及结论等。
1.2 引用行为对引文选择的影响
论文撰写实践中,通常只有部分相关文献会被引用,因此引文选择决定了文献引用结果。排除文献可得性和语种、专业背景及学术规范要求等客观因素影响,引文选择还受作者(编辑和审稿人)的引用习 惯[10]和利益选择[11]等因素影响。Tahamtan等[12]认为,文献的内容、作者和发表期刊都会影响引文选择。此外,主题是否社会热点、载体传播途径与文章可读性等因素也会对引文选择产生影响。群体性的引文偏好会对引文结果产生很大影响,如引文中长期存在的马太效应会使期刊强者恒强。但更值得关注的是,广泛存在的利益因素对引文选择的影响,即个体可能会通过调整引用行为来获得现实利益,例如作者刻意引用拟投稿期刊文献以提高录用机会,审稿人要求作者修改时引用自己的文献,期刊非自然自引或者互引,科研者操纵个人的h指数[13]等。显然,部分个体的利益选择行为无疑会放大传统引文评价方法的弊端,使评价结果偏离内容的学术质量并最终极大削弱了传统引文评价方法的价值。相较于群体性的引文偏好,利益选择对传统引文评价带来更大的负面效应,也是其被抵制的重要原因。
1.3 引文相关的多样性及应用于学术评价的复杂性
由于引文相关关系具备多样性且其在评价中并未得到体现,以传统的引文指标为主的评价方式无法真正评价学术期刊质量[14]。因此,对引文关系进行分类研究对于探讨引文评价合理性非常必要,国内外学者也对此进行了一系列研究。朱大明[15]将引文评价分为肯定型、否定型和商榷型,认为无论哪种引用都不能否定被引文献的学术价值;刘雪立[16]则将文献引用分为继承性引用、指示性引用和批判性引用,并认为在统计引证次数时应该剔除批判性引用的次数。他们的研究都基于施引文献作者对被引文献内容的评价是否正面,但他们对否定性和批判性引用是否应该计入统计数据持不同看法。这种对被引文献具体科学意义、局限性的评判类似于同行评议,忽视了被引文献对施引文献的学术支撑作用,也未必能反映文献背后科学研究之间的继承性。因此,利用这种引文关系的区分方式无法对传统引文评价进行改进。李冲[17]则将引文分为实质性、程序性和形式性引用,提出3种类型引文施引文献知识创新的作用程度不同,实质性引文最高,程序性居中,形式性引文最低,并提出对各种类型引文进行区分能提高引文分析指标用于个体学术评价的可靠性[18]。虽然笔者并不认同程序性引文的知识创新作用一定低于实质性引文,但这种分类方法以文献知识创新作用为切入点,突出了被引文献对施引文献的价值贡献,排除了施引作者主观因素或者利益对引文数据结果的影响,这为引文按对施引文献的价值分类并科学应用于学术评价提供了可能,也与国外学者将文献的引用功能分为5个等级和10个类别的结论[19-20]类似。
2 因果性引文与引文评价
在传统引文评价长期的应用实践中,曾出现过一些数据处理方法和思路,如剔除自引、引文加权值[21]等。前者的理论依据不足,因为自引也可能是正当合理的引用,尤其在一些新兴交叉学科或者特定细分研究领域自引广泛存在,剔除自引后的评价结果可能会严重失真。另外,剔除自引只能一定程度上解决恶意自引问题,但无法解决利益诱导下的互引等问题。引文加权值能反映不同引文对施引文献作用的不同,但需要专业人士逐条甄别赋值,操作难度大,且使引文评价失去便捷性的优点而不具备操作性。
大数据分析是近期的研究热点,目前已有在情报研究相关领域的应用[22]。大数据具备数据规模大、数据种类多、数据要求处理快、数据价值密度低的共同特征[7],引文数据也基本符合这些特征。在大数据的具体应用时,需针对特定的应用分析数据使之转化成有用的结果,海量的数据才能发挥具体作用[7]。引文评价作为一种定量评价方法,具体引文中施引文献和被引文献之间不仅普遍具备相关性,整体的引文数据也具备大数据的特征。因此,引文数据应用于学术评价时也应通过数据分类挖掘,对文献的相关关系进行区分,评价结果才可能具备合理性。鉴于此,基于是否对施引文献知识创新具有支撑作用将引文分为因果性引文和非因果性引文,并以因果性引文数据作为基础进行定量评价是一个潜在的合理方法。
2.1 因果性引文与非因果性引文的内涵
因果关系是现代科学建立的基石,科学研究也以探寻事物的因果关系为根本任务[23]。将因果关系引入引文分类中,将普遍存在相关性的引文分为因果性引文和非因果性引文。因果性引文是指对施引文献知识创新产生科学性和逻辑性支撑作用的文献,是施引文献产生和存在的前提,引用内容对于施引文献具备不可或缺性,是施引文献内容的一部分。因果性引文对施引文献的支撑作用主要体现在以下方面:①对具体选题或研究思路的启发,如试药的发现是试药性质研究的前提,新的科学假设会启发新的研究方向;②研究方法的参考,新的技术手段是某些具体科研的支撑手段,是获得具体科学发现的前提;③结论的理论或数据支撑等。而非因果性引文内容对于施引文献内容的科学性和逻辑性没有影响,一般是用于构成研究相关主题要素的知识谱系,反映科学研究之间的一般关联关系,非因果性引文内容的缺失并不对施引文献的科学性、逻辑性和完整性造成影响,但可能会影响读者评判具体研究意义和潜在应用价值。
2.2 因果性引文与非因果性引文的差别
从引文的动机和功能角度来看,因果性引文的引用目的是为了向同行读者,尤其是编辑和审稿人证实研究的可靠性,引用体现了科学研究的继承性。被引内容的主要功能是支撑施引文献的科学性和逻辑性,是施引文献内容的有机组成部分,其对于施引文献不可或缺。而非因果性引文的引用目的主要是为了表述相关主题的研究现状、本研究的潜在应用价值等,引用体现了学科的关联度和交叉性,被引内容的功能是向读者提供研究主题的更多信息以定位本研究的知识谱系,相关内容的缺失可能会影响文章的可读性,但不对结果或结论的学术价值产生影响。由于因果性引文内容对于施引文献的重大价值,施引作者对其内容会有更加深入的了解,对其科学性必然认同,其引用行为符合“认可论”[5];非因果性引文由于其内容对于施引文献的价值较低,作者对其内容并不一定会深入了解,而是按照学术共同体的撰文规范进行形式性[17]引用,其引用行为符合“说服论”[5]。从引用原则的角度来看,因果性引文应引用最初的原始文献,这不仅体现了对被引文献原创内容的认可,也有利于知识的准确传播并方便同行进行验证;而对于非因果性引文,一般引用最新的相关文献,以便让同行读者了解相关研究最新进展和准确评估其潜在应用价值。非因果性引文的选择有较大的弹性和不确定性,通常受作者专业背景、引用习惯和利益因素等影响。另外,从文献的传播效应[24]角度来看,被引反映的是文献学术成果的传承和传播,因果性引文契合了文献的传承效应,而非因果性引文体现了文献的信息传播作用。
2.3 基于人工智能技术的因果性引文评价方法构建
学术评价作为学术活动的一部分,应该由广泛的学术共同体来完成[25]。同行评议作为一种定性的评价方法,评价行为一般由学术共同体中的少数代表来完成;而文献施引是学术共同体的群体自发行为,施引过程中的引文选择行为会受到诸多因素影响且引用的目的并不等同于评价,这是导致引文评价不合理的主要原因。学术共同体不仅可以评判论文的学术价值和引文的合理性,对于引文的因果性也能进行明确判断。因此从理论上看,如果学术管理机构可以组织科研院所和大型学术团体进行广泛讨论并制定统一引文原则,引导科研人员按因果性与否对引文进行区分并分别著录,在学术评价时只采用因果性引文数据,则其结果能反映被引文献对后续相关研究的支撑,或者是后续相关研究者对被引文献内容创新性的认同,使得评价结果与内容质量更具备一致性。这一方法从理论上可行,但操作难度极大,不仅需要制定适合各个学科领域的引文原则,还要对广大作者、编辑和审稿人进行教育引导,实际上赋予引文加权值[21]一样不具备可操作性。
近年来,人工智能技术的发展日新月异,其不仅在常规的信息文献检索[26]和各种可视化的知识图谱生成[27]等方面开始应用,而且开始涉足评价引文的参考价值[28]。2016年,位于华盛顿西雅图的艾伦人工智能研究所(Allen Institute of Artificial Intelligence)启动了一项名为Sematic Scholar(语义学术)的服务,旨在通过文献研究衡量科学家或科学组织对后续研究的影响。通过建立深度学习模型,理解和分析一系列因素,包括某篇论文在施引文献中被引次数、每次被引时的位置及上下文背景等,判断作者对所引用文献的态度并辨别引用的价值,并因此建立了一个新的引文指标——高影响力引用次数(Highly Influential Citations)[28]。虽然这一指标是基于人工智能算法的不断学习建立的,但其与因果性引文的思路基本一致,都是基于被引文献对于施引文献的价值贡献。如果该算法得到公认,将其引入到其他学术引文数据库及搜索引擎中,则使基于引文分析的学术影响力评价体系更为客观。Sematic Scholar项目从计算机研究领域开始,逐步向神经科学领域等拓展。此外,还有其他一些公司介入了人工智能应用于信息检索领域,从不同的学科文献入手推出了类似产品和服务,如微软公司的Microsoft Academic Search和Digital Science科技公司创建的Dimensions等。这些人工智能产品以其便捷、准确的特点而得到迅速的商业化,为因果性引文评价的应用创造了现实条件。
3 结语
学术评价的内涵是基于内容来评价学术成果,是在科学性的基础上对学术成果的创新性进行评估。传统引文评价利用引文数据来定量评价学术成果,其本质上是一种基于“流量”的评价体系,这种体系既忽视了不同相关引文的功能差别,在现实中也可能会诱导参与者对引文数据进行干预,使科学研究、科技管理和出版行为偏离正轨,影响科研和科技出版的学术生态,也会诱导科技期刊调整编辑出版方针。因此,近年来我国学术评价体系中逐步淡化引文评价方法,如近期出台的《国家科学技术奖励条例(修订草案)》,取消了填写论文期刊影响因子并鼓励以发表在国内期刊的论文作为代表作。但是,对于期刊学术质量这种整体的评价,并没有便捷的评价方法,基于相关性的传统引文评价还会在一定时期内存在并发挥影响,如在“中国科技期刊卓越行动计划”的考核中,总被引和影响因子仍然是极其重要的指标,并对我国科技期刊出版生态带来较大影响。
作为一种量化评价方法,引文评价不是一个科学理论,而是一种应用社会研究。如果学术研究的客观性足以抵消人的主观性影响,量化模式应用于自然科学研究仍然具备合理性[29]。借鉴大数据分析中的数据挖掘思路,将因果关系这种客观性引入到引文评价中,既能使评价结果客观地反映被引内容对施引文献知识创新的价值,又能遏制评价对象恶意钻空子。人工智能的快速发展及其在文献检索及文献作用评价中的广泛应用,则为构建基于因果性的引文评价体系创造了技术和现实条件,也对恢复良好的科技期刊编辑出版生态具有重要意义。