科研质量评价：一个基于影响力的多层次量化模型及其实例

2018-07-07涂阳军王娟娟徐上

大学教育科学 2018年3期

涂阳军　王娟娟　徐上

摘要：科研影响力是科研质量评价中最重要的核心指标之一。围绕科研影响力这一核心指标，研究首先分析了科研影响力的四个层次，包括研究者及其所代表的学术团体、期刊人员及其所代表的学术团体、学术共同体研究者、社会大众和政府等广泛的利益相关群体，进而建构了一个以科研影响力为核心的多层次量化评价模型。基于此理论模型，研究以2017～2018年版CSSCI收录的50本教育学期刊论文被引数为分析对象，给出了如何对科研影响力进行评价的实例，结果表明该模型使用极为便利，能够用于对研究者、学术团体及科研机构的科研质量进行评价。

关键词：科研质量；科研影响力；量化模型；论文被引数；CSSCI教育学

中图分类号： G640

文献标识码：A

文章编号：1672-0717（2018）03-0057-07

收稿日期：2018-02-15

作者简介：涂阳军（1980 - ），男，湖南华容人，理学博士，湖南大学教育科学研究院副教授，主要从事心理学及教育量化研究；王娟娟，湖南大学教育科学研究院硕士研究生；徐上，湖南大学教育科学研究院硕士研究生。

2017年9月，浙江大学颁布了《浙江大学优秀网络文化成果认定实施办法（试行）》（下称《办法》）。据此规定：不少于1000字且符合主流价值观的优秀原创性文章和视频、动漫等作品，如果被不少于10家主流媒体刊发和转载，或者在微信公众号文章阅读量不少于10万次，或者头条号刊发的作品阅读量不少于40万，就可以被认定为一级学术期刊刊发文章。该《办法》在网上引起了热议，影响力作为科研论文质量评价指标一下被推到了风口浪尖上。

一般认为，科研质量是指高校科研条件满足高校科研活动顺利实施的程度，满足社会相关方面需求的程度及其促进人才培养、科技进步和社会经济发展的程度。它包括科研质量评價指标体系和科研质量评价指标权集两部分[1]。其中科研质量评价指标体系包含非常宽泛的内容，既包括论著和专利成果，还包括获奖以及应用推广效益等内容[2]，但在实际测量中研究者往往以排名系统公布的一系列科研指标作为量化研究的数据源[3]。尽管此类量化指标极多，但科研论文一直都处于最重要的核心地位。科研论文不仅是职称晋升中的“规定动作”，而且贯穿于整个科研过程的始终。它既是申报课题中前期的必要准备工作，也是课题结项的基本条件[4]。一直以来，科研质量评价中对科研论文指标的考查都具有“数篇数”的基本特征，即进行科研质量评价时，很多科研机构会过分注重被某数据库（CSSCI/SSCI/SCIE/CSCD/北大核心/人大转载等）收录的论文数量，但是该取向从根本上忽略了对科研论文影响力的考查。譬如，发表于同一期刊的两篇论文，尽管其在页数、期数、期刊所处位置等方面都基本相同，但两篇论文的被引数可能差别极大，这也间接体现了该两篇论文在内容质量上的差异。针对此现象，在教育部第四轮学科评估中，人文社科“A类期刊”的提出体现了引导科研论文由数量评价向质量评价转变的基本思想，这必将在相当长的时间内促使各科研机构由数篇数向看质量转变。但是，不论是从“A类期刊”的遴选，亦或是从评价科研论文质量各指标的具体内容来看，论文被引数都已经成为评价科研论文质量最关键的核心指标。在此大背景下，一些高校已经针对各自学科布局特征及学术质量特征，出台了一系列旨在提升科研论文影响力的政策，并且制定了以进入ESI高被引论文行列为标准的奖励政策[5]。

鉴于以上分析，本研究围绕科研影响力这一核心概念，通过对科研论文不同层次影响力的分析，建构了一个基于影响力的多层次量化评价模型，并根据此模型，以教育学学科50本重要期刊为例，对各主要科研机构及其科研论文的质量进行了分析。

一、科研影响力的内涵与层次

1. 科研影响力的内涵

科研影响力与学术影响力是两个极易混淆的概念，但科研影响力具有包含学术影响力在内的广泛内涵。一般认为，学术影响力是指一个机构随着其科研论文的发表与传播，影响并改变其他机构或个人在科学各领域中的研究方向和发展速度的能力[6]。它包括深度与广度两个方面的内涵，深度直接表现为被引量的多少等，而广度直接表现为学术成果的合作国家数量等[7]。一个机构在某学科领域内被引次数越多，则该机构在此学科领域的学术影响力就越大。学术影响力最早被用于对期刊加以甄别或识别学者的学术声望，被引数是操作性量化后的学术影响力，其对象既可为期刊，也可为学者。对期刊而言，其学术影响力即为期刊的影响因子。该指标最早由加菲尔德（Garfield）于1955年提出，具体是指某期刊论文的被引数或被引指数。基于此指数，加菲尔德后来创立了美国信息科学研究所（Institute for Scientific Information， ISI）以及最早的科学引文索引库（Science Citation Index， SCI）。最近二十多年来，期刊影响因子慢慢发展成为衡量单篇论文（某种意义上也是针对单个研究者以及作者所在单位）预期被引频率（expected citation frequencies）的指标，在科研绩效考评中，单位或教育管理部门往往以某篇论文所发期刊的影响因子来预测该论文未来可能的被引数。

最明确的关于科研影响力（research impact）的界定来自英国科研委员会（Research Councils UK， RCUK）[8]，其将科研影响力定义为优异的研究对社会和经济所作出的突出贡献，进而将科研影响力划分为学术影响力（Academic impact）和社会经济影响力（Economic and Societal impact）两个方面。前者是指学科内或跨学科的优秀研究在促进人们理解并提升科学知识、科学方法、科学理论和科研应用方面的突出贡献，而后者是指优异的研究对社会和经济作出的突出贡献，以及它给个人、组织和国家带来的福祉。但有学者指出：对科研影响力的界定应充分考虑到该概念的多变性以及在实际评价时可能存在的不同目标，也应考虑到组织和利益相关者对科研影响力特定方面的关切[9]。范皓腾等也认为科研影响力主要来自同行对科研学术论著等成果的评价，科研主体学术影响的深度与广度主要取决于其研究成果被他人重视、认可和引用的情况[10]。很显然，这只是科研影响力的学术层面。实际上，基于不同利益主体或对象，亦可将科研影响力划分成许多不同的层面，其中最为重要的对象是学术共同体与社会大众，这两者分别形成科研影响力的学术影响力和社会影响力两个层面。但除此之外，根据学术成果形成的整个过程，还可区分为对研究者及其所代表学术团体的影响力、对期刊人员及其所代表学术团体的影响力。而且，在科研论文对社会大众的影响中，政府等利益相关群体也具有十分重要的地位。

2. 科研影响力的层次

研究者通过对理论（科研影响力的内涵）与实践（浙江大学将科研成果社会影响力纳入科研质量评价体系）的反思，从科研成果的形成、投稿、评审、发表直至最终被各大数据库收录的过程出发，以整个过程中阅读或审查科研成果的个体及其所代表的学术团体为对象，基于科研成果的影响力这一核心概念，建构了一个基于影响力的多层次量化模型，并通过实例探讨了高等教育质量评价中如何量化评价科研质量的问题。

（1）对研究者及其所代表学术团体的影响力。一篇科研论文在写作之初就会内化下述三点要求：其一为写作者自身的要求，写作者对学术的严谨态度本身就会外化为论文写作中的质量标准；其二为作者所受到的论文写作训练，一个出自严谨学术氛围的学者，会内化导师及其他老师的学术标准、学术风格，进而外显为自己写作论文时的质量标准；其三为写作者预期投稿的期刊的学术标准。在此过程中，作者的论文如果能达到上述标准，则实现了研究者对论文的内在要求与外在标准的统一。反过来讲，一篇能够达到上述标准的论文，也会影响到与内在标准相关的各个群体。譬如，达到此标准的论文至少征服了研究者本人，首先表现为对研究者自己的影响，其次还反映着研究者所在的学术团队，尤其是导师所在的学术大团队或研究者所在单位的学术大团队的学术标准。这也意味着，论文写作的整个过程中，科研影响力所及的对象是研究者本人及其所代表的学术团队。待论文投稿至期刊社之后，其影响对象进一步扩大，涵盖了期刊编辑、主编和外审专家及其代表学术团队的广泛对象。

（2）对期刊人员及其所代表学术团体的影响力。根据目前国内各期刊一般的审稿模式，编辑部收到某篇新的投稿后，所负责的编辑会就论文的学术创新程度、论文认证的完备程度、论文的社会价值以及论文的难易程度、论文的学术价值或实用价值、论文工作反映出投稿者掌握基础理论和专门知识的情况、论文工作的严谨性及寫作水平等各个方面加以初步评价。通过了编辑的初步评价意味着该篇论文至少达到了编辑所认可的最低质量标准，反过来讲，该篇论文也影响了责任编辑，获得了其认可。从影响力的角度来看，其影响对象扩展至编辑老师。待该论文送外审之后，外审专家会根据一定标准，譬如选题与综述、创新性及应用价值、基础知识、研究方法与实践能力以及论文规范性等多个方面对此论文进行评价，会对论文的基本观点和基本结论表达其自身的看法，如认可、保留、否定等。论文一旦通过外审，即意味着得到了外审专家的认可，反过来讲，也意味着该篇论文影响了外审专家，考虑到期刊一般不会将论文送至具有完全相同学术背景的两位专家手中，因此，得到外审专家的普通认可也潜在暗示该论文不但影响了外审专家，还影响了外审专家所代表的学术大团体。通过外审的论文会接受主编和编委会成员进一步的审视，这表明该篇论文的影响力进一步扩大至期刊主编、编委会成员及其所代表的学术大团体。

（3）对学术共同体研究者的影响力。待论文发表之后，论文会在各类索引库中被学者查阅，并可能进一步得到引用。下载阅读或被引用，意味着该篇论文获得了更广泛学术群体的关注。论文被引，无论研究者对内容是认同还是批判，在一定程度上都体现了论文的学术和研究价值。值得注意的是，论文被引不再是论文质量全面且直接的反映，被引往往只是表征论文质量的一个方面[11]。有学者指出，被引次数多不能完全代表论文的学术质量高，因为同一期刊上发表年代越早的论文，其被引用的总次数相对较多[12]。尽管如此，被某数据库收录的论文，如果能够被学术共同体成员下载阅读，并可能加以引用，至少意味着该论文对此学术共同体成员有价值，从侧面来讲，这也意味着该论文影响了学术共同体相关成员。这是目前基于被引数来考查科研影响力最直接的体现，也是论文科研影响力原初的学术内涵。

（4）对社会大众与政府等利益相关群体的影响力。论文发表之后，除被研究者群体引用外，还会引起社会大众的关注，或者被社会媒体关注并转引。无论哪种情况，论文的转载与被引在很大程度上表明该论文的研究发现满足了大众的需求和价值需求，或者满足了媒体自身特定的需求和价值需求。但论文的社会影响力与其学术影响力须明确区分开来，因为大众或媒体可能在关切中因各种原因忽视论文本身的学术价值，从而在根本上混淆了论文学术影响力与论文社会影响力。譬如，日本福岛核泄漏之后的一篇关于核泄漏的论文备受人们关注，但仔细分析其被引量之后，其学术影响力很一般[13]。社会大众对论文的关切点可能与学术共同体审视论文的角度不同，因此，由大众媒体或网络转载而引起的被引变化与论文质量的分离可能会更明显，这也是社会大众或学术共同体对浙江大学《办法》中相关规定的争议之所在。这非常类似于世界大学排行榜，社会大众可能更关心排名结果对子女择校的指导作用而并不关心该排名本身的科学性与学术性问题。因此，媒体转载引起的社会影响与大学排名相关的学术影响似乎与研究成果本身的科学性并不等同。但不论怎样，一篇科研论文的研究发现得到社会大众的关注，其本身也意味着对社会大众产生了影响，其影响力进一步扩展至社会大众。而获得广泛社会关注的科研成果，也即易获得政策决策部门领导层的关注，进而获得认可并可能形成政府政策的具体内容。因此，一项科研成果获得政府奖励或获得政府有关部门背书（或采纳或批示），也意味着该论文的影响力进一步扩展至政府部门，影响了相关部门的决策层。

基于以上分析，本研究建构了一个以科研影响力为核心，根据不同影响对象而区分不同层次的科研质量量化评价模型，此模型中的每一层次均对应相应的量化指标，详见图1。

图1中，研究者及其所代表的学术团体会受到其发表论文的影响，而影响的结果是自引（自己引用自己已经发表的论文）或其代表的学术大团队引用该论文。一篇论文对期刊人员及其所代表学术团队的影响，直接表现为论文通过评审而得以发表，最直观的量化指标是发表于该期刊的论文篇数。另外，期刊外审专家（一般为同一大类学科领域）也可能在研究中引用该论文，因此，其量化指标也表现为被引数。对学术共同体研究者的影响则主要表现为得到引用，其主要指标为论文被引数。对社会大众的影响主要体现在各大媒体的转载数，但各大媒体的转载仍然来自于最初对该论文的下载及阅读，鉴于无法获取到某篇论文被各大媒体转载的数量，本研究以论文下载数来替代此指标。对政府决策部门而言，一篇论文的影响意味着被采纳，但各科研单位论文成果被采纳往往分散于政府各个职能部门，既没有一个统一的发布平台，又受限于政府部门的层级较多，而且同一级别的政府部门也较多，因此无法获取与采纳数指标相关的数据，在本研究中仅将此指标作理论考量而不纳入实际分析。鉴于以上分析，研究得到了一个基于影响力的多层次量化模型，其可用公式表示为：科研影响力（Y）=W1×X1+W2×X2+W3×X3+W4×X4

其中，X1、X2、X3、X4分别为篇数、被引数、下载数和采纳数，W1、W2、W3、W4分别为篇数、被引数、下载数和采纳数的权重，因采纳数数据无法获取到，实际分析的变量仅有X1、X2、X3。鉴于各变量权重的变动性，另考虑到权重赋予的主观性，研究假设存在三种不同的权重模式。第一种权重模式重篇数，轻被引数与下载数。该模式注重期刊人员对论文价值的评定，侧重从期刊人员和期刊本身影响层次的角度来理解科研影响力。研究假设此模式下W1、W2、W3的权重系数分别为0.50、0.25和0.25，将此量化模型命名为重篇数模型1。第二种权重模式重被引数，轻篇数与下载数。该模式注重学术共同体成员对论文价值与质量的評审，侧重从学术共同体的角度来理解科研影响力。研究假设此模式下W1、W2、W3的权重系数分别为0.25、0.50和0.25，将此量化模型命名为重被引数模型2。第三种权重模式重下载数，轻篇数与被引数。该模式注重社会大众对论文价值的评判，侧重从社会大众关注并接受的角度来理解科研影响力。研究假设此模式下W1、W2、W3的权重系数分别为0.25、0.25和0.50，将此量化模型命名为重社会影响模型3。鉴于各单位在第四轮学科评估中开始重视学术影响力（主要由被引数来表征）的导向，因此，本研究实例仅报告了重被引数模型2的结果。

二、科研质量评价的实例

根据重被引数模型2，研究实例以教育学学科为研究对象，将2017～2018年CSSCI收录的教育学期刊共50本（含《扩展版》收录的13本教育学期刊①）作为分析对象，这些期刊分属教育学综合、高等教育、普通教育学、教育技术学和其他各类教育共五个大类。实例从单位科研质量的视角来报告基于影响力的评价结果。数据收集时间为2017年9月，全部数据均来自知网，时间限定为2017年，通过人工手动查重、初步核查并删除无作者和无单位的数据形成最终数据②，通过SPSS统计分析软件中的汇总命令得到最终结果。各期刊基本情况见表1，按期刊名拼音首字母排序。

根据重被引数模型2计算得到各单位教育学学科科研质量评价结果，见表2。因篇幅所限，此处仅列出得分居前10的单位，表中结果为各校权重加总分。

在CSSCI五个大类中，北京师范大学和华东师范大学均居前10，且两者在3个大类和其他各类教育中均居前2，这也与国家“双一流”建设中教育学学科高校名单相同（教育学一流学科建设高校为北师大和华东师大），此两所大学均为一流教育学学科建设高校。另外，华中科技大学和厦门大学居高等教育大类前五，其中浙江大学和清华大学仅次于华中科技大学，但超过了厦门大学。西南大学在教育学综合和普通教育两个大类中均居前三。

三、结论与启示

在科研质量评价的诸多指标中，科研影响力是最关键的核心指标之一。它既包含了科研机构或研究者个人的学术影响力，同时也体现了科研成果的社会影响力。本研究通过对科研影响力内涵的分析，从科研成果影响的不同对象出发，将其划分为四个层面，分别为对研究者及其所代表学术团体的影响力、对期刊人员及其所代表学术团体的影响力、对学术共同体研究者的影响力、对社会大众与政府等利益相关群体的影响力，进而建构了一个基于影响力的多层次科研质量量化评价模型。在此基础上，研究以CSSCI教育学学科为例，通过对2017年数据的收集、整理与分析，对中国各科研单位教育学学科的科研质量进行了初步评价，研究结果表明该量化模型可用于对科研机构（或单个研究者）某学科科研质量进行评估。

因数据不可得，本研究以科研成果下载数作为社会影响的替代指标。但国外一些研究已经开始对社交媒体和文献软件中科研成果的分享与转载进行了分析。譬如，对Twitter[14]和Mendeley[15]中分享科研成果的分析。有学者还对SwePub数据库中人文学科25个子领域的情况进行了分析，其数据源涵盖了各大主流社交媒体与博客，结果发现涵盖期刊论文的数据源依次为Google Scholar（61.6%）、Mendeley（61.3%）、Twitter（20.6%）、Cite U Like（5.2%）、Facebook（2.9%）和Blogs（2.2%）。另外，涵盖著作的数据源依次为Twitter（25%）、Google Scholar（24%）、Library Thing（14%）和Mendeley（4%）[16]。基于社交媒体对科研成果影响力的分析有着传统正式科研成果数据库无法比拟的优势，包括渠道更加多样、获取数据更迅速、数据源开放且基本免费、能够补充除了学术共同体所形成的科研影响力之外的社会影响力。有研究发现：科研成果在Twitter上被转引的次数（自该科研成果发表后第三天）能够预测该论文是否会被高被引[17]。未来研究可考虑以社交媒体中真实的分享与转载数据来运算该模型，目前中国最主要的社交媒体分享平台为微信与微博（尤其是新浪微博），未来可考虑实时监测并统计在此两种主流社交媒体中与科研成果相关的分享与转载数，以此作为科研成果社会影响的计量量化指标。就此点来看，浙江大学等已经走在了最前列。

科研成果被采纳或被重要领导批示引起了各科研机构的广泛关注，并逐步将其作为科研质量评价的重要指标之一。批示和采纳的政府部门的级别越高，被批示或采纳的这项科研成果往往越受重视，一些科研机构还会在其单位网站主页对此予以突出报道。少数大学还制定了有关成果采纳的详细规定。譬如，根据《四川理工学院科研目标任务与考核奖励办法（征求意见稿）》中的相关规定，依成果采纳部门的级别分别对成果采纳给予不同的科研奖励系数，如国务院及国家有关部委系数为50、省政府系数为10，市政府系数为1。被政府部门采纳是学术成果社会影响力的集中体现，因为其可能形成影响民生大计的政策。但目前各科研机构在统计此指标时，均根据有无政府明确盖章的采纳报告来认定，但该数据既不公开，也非常分散，未来有必要统筹建立统一的学术成果采纳数数据库。

本研究还存在下述局限或不足。首先，本研究仅关注科研质量评价中的科研成果指标，尤其是论文指标。但实际上对科研质量进行评价的指标还有很多。譬如，对社会科学而言，著作也是非常重要的一项评价指标，而对人文学科而言，艺术作品也是极为重要的评价指标。但这些指标所涉及的数据因未形成统一的数据库且统计格式差异极大，所以少有研究者将其纳入分析中。纵有对极少数著作与艺术作品进行分析的研究，其数据来源范围也非常有限。其次，科研成果的质量与科研影响力不能完全等同，被引数、篇数等从不同角度体现了论文的影响力，但引文数量只能在一定程度上反映科研成果的學术质量。最后，本研究所提出的多层次量化模型中各指标的权重具有一定的灵活性，这一方面带来了运算的方便性，另一方面也给确定权重带来了困难。如果针对单位进行评价，建议以单位目前的实际科研成果状况来灵活拟定权重值，而对单个研究者的评价，则应特别注意不同学科间的差异。

参考文献

[1] 陈承，刘在洲，徐红.高校科研质量评价指标体系研究[J].科技管理研究，2015（8）：57-61.

[2] 刘贵华，柳劲松.教育科研质量标准：总体框架与内涵表达[J].教育研究与实验，2013（5）：1-6.

[3] 胡凌玲，唐文进.高校科研融资结构对教学、科研质量的影响分析[J].大学教育科学，2007（4）：43-46.

[4] 伍光良.高校科研质量问题研究[J].江苏高教，2009（5）：29-31.

[5] 刘芳，陈芳，朱沙.ESI学科建设奖励政策调查研究[J].高等教育研究学报，2016（4）：74-81.

[6] 王婷，刘敏娟.中国农业科学院科研产出及学术影响力评价：基于论文、专利产出的分析[M].北京：中国农业科学技术出版社，2014：2.

[7] 姚乐野，王阿陶.中国人文社会科学国际学术影响力发展报告[M].北京：中国社会科学出社，2015：6-7.

[8] RCUK，What is impact？[EB/OL].http：//www.esrc.ac.uk/research/impact-toolkit/what-is-impact，2017-10-06.

[9] Penfield T.Baker M J ，Scoble R ，et al.Assessment，evaluations，and definitions of research impact： A review[J].Research Evaluation，2014.23（1）：21-32.

[10] Van Houten，B A，Phelps J Barnes M，et al.Evaluating scientific impact[J].Environmental Health Perspectives，2000（9）：392-393.

[11] 段志光，章娟，张妍.诺贝尔生理学或医学奖获得者科学论文质量的计量分析[J].科学技术哲学研究，2010（1）：86-91.

[12] 程郁缀，刘曙光.论文质量、期刊质量与期刊影响力[J].陕西师范大学学报（哲学社会科学版），2010（5）：64-69.

[13] 高志，张志强.个人学术影响力定量评价方法研究综述[J].情报理论与实践，2016（1）：133-138.

[14] Holmberg K，Thel wall M.Disciplinary differences in Twitter scholarly communication[J].Scientometrics，2014（2）：1027-1042.

[15] Mohammadi E，Thel wall M.Mendeley readership altmetrics for the social sciences and humanities： Research evaluation and knowledge flows[J].Journal of the Association for Information Science & Technology，2014（8）：1627-1638.

[16] Hammarfelt B.Using altmetrics for assessing research impact in the humanities[J]，Scientometrics.2014（2）：1419-1430.

[17] Eysenbach G.Can Tweets Predict Citations？ Metrics of Social Impact Based on Twitter and Correlation with Traditional Metrics of Scientific Impact[J].Journal of Medical Internet Research.2011（4）：e123.

（责任编辑黄建新）

大学教育科学

2018年3期

科研质量评价：一个基于影响力的多层次量化模型及其实例

杂志排行

大学教育科学的其它文章