全面画像，而非简单指标<br/>——利用可视化手段全面揭示单点指标的蕴含信息

全面画像，而非简单指标
——利用可视化手段全面揭示单点指标的蕴含信息

2020-09-03何薇王琳

世界科技研究与发展 2020年1期

何薇王琳

（科睿唯安学术研究事业部，北京100086）

1964年，科学引文索引（Science Citation Index，SCI）的推出为全球科研人员提供了一种新的论文检索方法——引文检索［1］。其提出者加菲尔德博士在后续研究中发现，引文数据除了可用于论文检索外，还可以揭示科学活动本身，包括科学的结构、科学随时间的变迁以及文献作者之间的联系［2-4］。在此基础上，无论是科学计量学界的学者还是政府或研究机构的科研管理人员对该领域作了进一步探索性研究，而且不同程度上将定量分析结果与定性评估相结合［5-7］。科研产出的影响力是多方面的，如学术影响力、技术影响力、经济影响力及社会影响力等。基于引文的文献计量学指标在合理应用前提下可以揭示其学术影响力［8］。使用引文数据进行定量分析的优势在于：通过提供全面、客观的数据，能有效避免主观判断的片面性，有助于使用者做出更符合科学实际的决策。因此，全球很多国家和地区都在应用文献计量学对科研活动进行定量分析，其中包括美国国家科学基金会（National Science Foundation）［9］、欧盟委员会（European Commission）［10］以及日本文部科学省（Ministry of Education，Culture，Sports，Science and Technology）［11］等。

尽管定量分析为科研评估提供了重要的参考，其作为同行评议的一种补充［12］，无法凌驾或替代后者。另一方面，随着科学研究的规模、专业细分度和学科交叉程度与日俱增，简单使用已有定量数据指标对科学活动和科研机构进行评价往往有失偏颇。事实上，当代科学研究并非一维性事物，其过程日趋复杂。另外，需要考虑到研究机构通常需兼顾教学、科研双重任务，且科研任务跨越多个学科。因此，使用定量数据对科研人员、科研机构进行分析和评价时，简单地将数据压缩成若干单一指标或排名将导致信息严重丢失。近几年，国际学术界提出“莱顿宣言”［13］和“旧金山宣言”［14］，以此来纠偏“量化至上”和现有定量分析方法的不当之处。D.Pendlebury在《如何运用文献计量学分析工具进行科研绩效评价》［15］白皮书中也提出十大实用准则来探究如何更恰当地使用定量分析。因此，如何正确合理地使用定量数据进行科研绩效分析成为了一个广受关注的重要问题。

针对该问题，2019年科睿唯安旗下科学信息研究所发表了一系列全球研究报告。该系列的第一篇报告——《全面画像，而非简单指标》［16］指出：尽管受到资深分析专家的反对，通过简单分析来评估论文、科研人员和机构表现的研究仍然存在，单点指标和线性排名等简单分析手段仍被广泛采用。实际上，单点指标虽然在某些类型的科研绩效比较中具有价值，但如果用单点指标替代全面的科研管理，例如在缺乏补充信息的情况下进行学术评估，甚至将单点指标视为招聘标准，那么，这类信息就具有局限性。此外，单个（或孤立）指标可能会被误用，进一步导致分析错误。报告还指出，每一个被过度简化或误用的指标，可以寻求更优的信息表达方式。其中一种方式是基于详尽准确的数据，以多个维度互补的图表形式进行数据可视化，同时通过展开数据，将指标置于具体案例背景下，通过挖掘新的特征来展示更全面的科研绩效信息。

本文基于《全面画像，而非简单指标》提出的理念，从科研管理最常见的三种分析对象——机构、学科和个人展开分析并结合案例进行详细说明。第一节将介绍如何利用影响力全貌分析研究机构的整体科研绩效，第二节通过优劣势的分析方法来综合分析某个机构的学科发展态势，第三节将介绍如何利用射束图来分析科研人员产出的影响力。

1 研究机构：篇均引文影响力与影响力全貌

利用单点指标对研究团队或机构进行分析时，其局限性尤为突出。ISI的报告中列举了两所从事生物医学研究的机构过去5年的学术产出，其中A机构发表论文845篇，B机构发表论文403篇。将论文的被引次数针对学科、出版年份、文献类型的世界平均值进行“规范化”，可得出每篇论文的“学科规范化引文影响力”（Category Normalized Citation Index，CNCI）值。若 CNCI值大于1，说明这篇论文的被引频次超过了全球同类论文的平均引用水平，若CNCI小于1，说明这篇论文的被引频次不及全球同类论文的平均引用水平。A机构所有论文的平均CNCI为1.86，B机构则为2.55。虽然这两个平均后的CNCI值不具有统计功效，但在管理实践中通常可以“假设”体量小的B机构具有更高的“影响力”。

机构的CNCI平均值是由数篇文章各自的CNCI通过简单算数平均计算得到。然而，该平均影响力指标可能具有一定的欺骗性。其原因在于被引次数一般都具有偏斜分布的特性，即样本集拥有众多低值和若干高值［17］，而非正态分布的数据不适合用平均数来描述数据集。为避免该问题，报告以CNCI的全球平均值为基准，对被引次数进行分类，以显示高被引和低被引论文的真实分布［18］。据此，可以发现上述两个机构的影响力全貌并没有实质性差异。而导致B机构CNCI值高的原因，通过回顾原始数据可知B机构曾发表一篇综述性论文，被权威期刊高频引用，最终拉升了该机构整体的平均影响力。

上述方法所生成的研究机构科研画像提供了远比单点指标CNCI总平均值更加丰富的信息，本文称之为影响力全貌（Impact Profile）。它可以“定位”每个机构的整体平均值，并检查其科研产出高出或低于该平均值的比例。影响力全貌除用于机构对标分析，亦可应用于机构国际合作论文、影响力随时间进展、小规模机构影响力全貌揭示等分析角度。本节将就这三个方面展开阐述。

1.1 基于Impact Profile的机构国际合作论文影响力分析

一般而言，国际合作论文比国内合作论文更容易获得较高的引用次数［19，20］。利用影响力全貌能够全面揭示国际合作对机构科研产出的学术影响力带来的促进作用。图1通过平滑曲线的方式，列举了A、B两所高校过去10年化学学科通过国内合作（或单独发表）及国际合作论文的产出影响力全貌。其中，A高校来自中国，该学科国际合作论文百分比为14.7%。B高校来自美国，该学科国际合作论文百分比为41.1%。可以看到，A高校国际合作论文零被引论文百分比远低于国内合作（或单独发表）的论文，即更多的国际合作论文获得了其他学者的引用。同时国际合作论文在CNCI位于0.5到1的区间范围内其百分比高于国内合作（或单独发表）的论文，且在CNCI大于1的其它区间内，论文占比也均高于国内合作（或单独发表）的论文。这表明：国际合作论文在高影响力区间中占比更高，国际合作整体提升了A高校论文的引文影响力水平。反观B高校，其国际合作论文与国内合作论文的影响力全貌分布则十分接近。A和B两所高校的影响力全貌对比分析表明，美国高校B在该学科国际合作论文占比较高（41.1%），国际合作论文和国内发表论文影响力表现较为均衡一致，但我国高校A在该学科的国际合作论文占比相对偏低，但高影响力的合作成果更多来自国际合作。

1.2 基于Impact Profile的机构影响力时间进展分析

追踪机构科研产出与影响力随时间的进展是科研管理人员十分关注的分析内容之一。通过分时间段影响力全貌的比较能够反映机构影响力表现的发展与变化。图2展示了某高校在过去10年间，每五年影响力全貌的对比。如图所示，该校在2014—2018年期间，在CNCI大于1的若干区间的论文占比均高于2009—2013年时间段，表明该机构在最近五年内论文影响力有一定程度的提升。此外，在2014—2018年时间段内，该校零被引论文的占比更高，其原因在于近期发表的论文与2009—2013年发表的论文相比，其累计获得引用的时间更短，因此零被引论文的占比相对较高。

图1 两所高校2009—2018年ESI化学学科科研产出影响力全貌图Fig.1 The Impact Profile of Two Universities in the ESIChemistry Field in 2009-2018

1.3 小规模机构影响力全貌分析

数据分析表明：我国若干小规模高校在部分学科中具有较高的平均影响力。例如，某高校过去十年（2009—2018）仅发表319篇工程学学科研究论文，但其平均CNCI高达3.38，而相同数据检索条件下，美国麻省理工学院在十年期间共发表6142篇工程学论文，平均CNCI为1.70。由于该中国高校在工程学学科论文产出数量较少，其高影响力表现可能原因有：1）若干篇高CNCI值论文导致平均CNCI值较高；2）论文总体影响力较高。具体原因，则可以通过图3的影响力全貌来深入分析。如图3所示，在零被引论文占比上，麻省理工学院表现略优于该中国高校，后者有11.6%的论文在发表后未获得引用。两所高校论文占比最高的区间均出现在CNCI大于1小于2的范围内，且麻省理工学院在该区间的论文占比略高于该中国高校。但在CNCI大于8的区间内，该中国高校的论文占比（14.7%）远高于麻省理工学院（2.3%）。通过影响力全貌分析，可以看到该中国高校在极高影响力区间范围内发表了相当占比的论文。进一步分析则显示该中国高校在工程学学科的高CNCI值很大程度上由三位高被引科学家发表的大量高影响力文章所导致。本案例说明，在分析机构影响力表现的实践中，不能只考虑机构的CNCI均值，而是要结合产出和深入的影响力全貌分析才能揭示出数字背后的真实涵义。

图2 某机构2009—2013年时间段及2014—2018年时间段科研产出影响力全貌对比图Fig.2 The Comparison of Impact Profile of an Exemplar University during 2009-2013 and 2014-2018

图3 某中国高校与美国麻省理工学院2009—2018年ESI工程学学科科研产出影响力全貌对比图Fig.3 The Comparison of Impact Profile between a Chinese University and MIT in ESI Engineering Field in 2009-2018

影响力全貌这一分析方法，试图回答科研管理人员诸如本机构在哪一影响力区间的论文最多、机构科研影响力的分布如何、影响力水平高于全球均值的产出占比如何、较高影响力的科研产出占比如何等问题。通过以上举例，可以看到运用这一分析方法，能够更加全面、清晰地展现高校或者科研机构论文影响力分布情况。在科研管理工作中，通过对标分析、国际合作分析、时间趋势等多种维度，结合这一分析方法可以为全面把握本机构的科研成果表现提供更为详细的数据支撑。

2 研究足迹而非大学排名

大学排名以单一位次来反映高校多种多样的校园活动，其压缩损失的信息量远远超过大多数分析指标。相比较而言，研究足迹（Research Footprint）按学科或多个不同指标显示绩效表现，可用于比较两个机构或国家的教学科研水平，也可将一系列的目标机构与相应的基准进行对标，因此比大学排名蕴含更详尽的信息。值得注意的是，研究足迹证明，仅仅通过一个数值对两个复杂研究体系进行比较是不科学的。

以两所英国大学，即帝国理工大学和伦敦政治经济学院为例，其在2018年泰晤士世界大学排名中位次分别为第9名和第26名。然而，17个位次的排名差距是否反映出这两所高校的实际水平？ISI的报告通过与其同类高校进行研究足迹分析（主要从不同学科领域所获得的研究资助金额进行比较），意外地发现伦敦政治经济学院与同类高校（即英国非理工类学院及研究所）相比，其在自然科学尤其是医药生命健康相关的领域中获得的资助表现相对较好。其主要原因在于该校参与了众多以自然科学为基础的项目，特别是政策和社会背景领域的研究。通过这个例子，可以看到对科研机构进行绩效比较时，单个指标很难全面反映真实情况。而研究足迹则是相对全面的一种方法，其通过若干图表从不同的视角展示某个机构和同类机构相比的真实情况。如果希望进一步对机构的学科优劣势分析，则还需要考虑不同学科之间的差异，例如医学类论文的引用次数相对来说普遍比工程类的要高，因此需要利用基准值来分析机构的“研究足迹”。我们可以采用优劣势分析法（Strengths Weaknesses Opportunities Threats，SWOT）来对某一个机构的学科发展情况进行综合分析，并与基准值进行比较。

本节将结合实际例子，从基于SWOT的机构学科分析和机构学科随时间变化动态趋势分析这两个方面来详细展示SWOT的应用场景。

2.1 基于SWOT的机构学科优劣势分析

高校进行学科规划和学科分析时首先需要了解本校学科的现有布局，识别优势学科和潜力学科等。图4展示了某学校的22个ESI学科的SWOT分析：即每个学科相对于全球的优势、劣势、机会和威胁分析。如图所示，图中横坐标为特定学科占本机构所有论文的占比除以全球该学科占全球所有学科论文的比例，该比例大于1，说明对于相应学科，本机构在产出规模上超过全球平均水平；纵坐标为CNCI值，该值大于1，说明对于相应学科，本机构的引文影响力超过全球平均水平。在四个象限中，第一象限为优势学科，即学科的论文产出占比和引文影响力表现均优于全球平均水平。因此，农业科学、药理学与毒理学、植物学与动物学这三个学科是该学校的优势学科。第二象限代表机会学科，其中引文影响力最高的学科是精神病学与心理学，其引文影响力超过全球平均水平的8倍，但是由于该学科产出绝对数量少，仅有2篇，且为高被引论文，导致该学科CNCI值较高，因此其分布结果仅供参考。第三象限代表劣势学科，该区域的学科论文的产出和引文影响力相对较低。通常对于这个区域的学科，学校需要进一步分析出现这种情况背后的原因，再结合专家意见规划未来的发展方向。例如工程学虽然位于该区域，但CNCI值为0.96，非常接近1，相对来说成为机会学科的可能性较大。第四象限代表威胁学科，该区域的学科文献产量占比较高，但引文影响力较低。地球科学、微生物学、化学、生物学与生物化学、分子生物学与遗传学和环境与生态学这6个学科位于威胁区域，说明这些学科在产出占比超过了全球平均水平，但引文影响力还不及全球平均水平，需要引起学校的关注和重视。

需要特别注意的是，图4对学科的判定仅基于文献产量占比和CNCI值这两个指标。高校在依据SWOT分析结果具体规划时还应着眼于本校实际情况和发展目标来制定科学的发展策略。

2.2 基于SWOT的学科动态趋势变化分析

高校学科的发展是动态变化的，因此需要定期地对学科的表现进行跟踪和监测，来了解学科的发展变化，并基于客观数据来进行学科规划。图5展示了某中国高校的ESI学科在2016—2018年期间的表现变化分析。图中的横纵坐标的含义与2.1节的图4一致，横坐标为特定学科占本机构所有论文的占比除以全球该学科占全球所有学科论文的比例，纵坐标为CNCI值。

通过图5观察得知，在学科发展表现上，该校经济与商学、计算机科学、工程学和社会科学4个学科连续3年保持在优势学科区域，其产出和引文影响力的表现超过全球的平均水平；材料科学在2016年位于机会学科，2017年体量有所提升但影响力相对低，进入威胁学科区域，2018年无论体量还是引文影响力均超过全球平均水平，提升至优势学科区域，图5完整展现材料科学每一年的发展与变化。从学科的引文影响力变化来看，该校的物理学从2016年的劣势学科到2017年接近机会学科区域到2018年提升至机会学科，环境与生态学从2016年的机会学科到2017年提升至优势学科并且2018年稳定在优势学科，显示该校在这两个学科上科研产出的引文影响力有所提升。

图4 某高校ESI学科相对于全球的优势、劣势、机会和威胁分析图Fig.4 Analysis of Strengths，Weaknesses，Opportunities and Threats by ESICategories，Relative toWorld Average Output and Performance of One Exemplar University

综上所述，基于SWOT的分析方法可以更加科学合理地分析学科的优劣势。在科研管理工作中，结合时间趋势和对标分析等多种维度进行SWOT分析，可为回答本机构的学科表现和如何发展提供更为详细的数据支撑。

3 科研人员绩效分析：h指数v.s.射束图

h指数是一种广泛应用于刻画科研人员论文和引文影响力的指标，其由物理学家Jorge Hirsch于2005年提出［21］。它通过如下方式将科研人员的论文及其被引次数缩减为单个数值：一个具有指数h的研究人员至少已发表了h篇论文，并且每篇论文至少已被引用了h次。h指数与科研人员的科研生涯和所属学科非常相关。因为不同的科研生涯，不同的研究领域，其被引次数的积累速度差异较大。因此，h指数不适用于对科研人员进行精确的比较。此外，h指数通常不涵盖非期刊出版物，且从数学的角度看也不具有一致性［22］。为解决 h指数的缺陷，德国马普学会的Lutz Bornmann和Robin Haunschild提出了另一种衡量方法［23］。具体来说，该方法将每篇论文的被引次数按与其具有相同学科和出版年份的期刊的平均值进行“规范化”，并将该值转换为百分位数，利用射束图这一可视化方式来展现。例如，百分位数为90意味着该论文位于引用率较高的前10%之列，另外90%则是引文影响力低于它的论文。相比于平均值，这种方法因为引用分布偏斜度很大，从而能更准确地衡量集中趋势。射束图可用于开展公平的、有意义的评估，比h指数表征的信息更加全面。

图5 某高校2016—2018年ESI学科SWOT动态趋势分析图Fig.5 Dynamic SWOT Analysis during the Period of 2016-2018

射束图是显示研究人员发文量和影响力的“画像”，可显示研究人员的发文量和引文影响力随时间的动态变化。其同时考虑论文所属学科以及论文发表时间，并使用百分位数，因此其反映的引文影响力是高度偏斜分布的［24］。将射束图与h指数同时使用，能较为全面而正确地进行科研分析。本节将通过两个具体的案例，展示射束图在分析单个和多个科研人员的绩效中的应用。

3.1 基于射束图的科研人员引进前后产出对比分析

在高校“双一流”建设中，人才引进起着十分重要的作用。一般而言，高校管理人员希望可以定期地跟踪引进人才的科研产出和学术影响力表现，来客观呈现人才的引进对学科建设所起到的实际作用。射束图可以对人才引进前后的学术影响力对比提供可靠的数据支撑。

图6展示了某科研人员在2009—2019年近十年期间论文产出的射束图。如图所示，射束图将每篇文章与对应年份和学科的基准值进行了比较，并用百分位来呈现。图中的紫色点代表每篇论文的百分位，绿色点代表该年度论文的中位数，中间的纵向虚线则代表该研究人员所有论文的百分位平均值（请注意此处的百分位计算方式是将同出版年、同学科和同文献类型的所有论文的被引频次降序排列后得到的，如果一篇文章的百分位值为1，说明全球与这篇文章同学科、同出版年、同文献类型的论文中99%的论文的引文数都低于该论文，与《全面画像，而非简单指标》白皮书中的定义相反）。通过射束图，可以更深入地了解该科研人员的科研表现以及引入前后的产出变化。具体地，该科研人员于2014年被引进到国内某高校。观察可知，2014年后尤其是2015、2016和2017年，该科研人员发表的论文被引表现非常出色，引用排名在前10%的论文数量，超过了引进前（2014年）的表现。这表明其在被引进后仍然保持着高影响力的科研产出。从产出的论文数量来看，其在2014年之后也保持着稳步增长的态势，说明在引进之后该科研人员仍保持着活跃的科研产出。

图6 某科研人员在2009—2019年期间发表论文的射束图Fig.6 A Beam-plot of a Research's Publications in the Period of 2009-2019

3.2 多个科研人员的射束图比较分析

科研人员分析场景通常由多个科研人员或者多个团队的比较分析构成。本节将选择某高校不同院系3位科研人员作为范例来分析其科研影响力表现。图7展示了3位科研人员论文成果的射束图。从首次发表时间来看，科研人员3的职业生涯开始最早，于2005年发表第一篇论文。科研人员2职业生涯开始最晚，其第一篇论文发表于2009年。从科研产出量的年度趋势来看，科研人员2每年的发文量高于其他两位学者。科研人员3的发文量高峰集中在2014和2015年，之后的发文量相对较少。科研人员1虽然发文数量不及科研人员2，但整体呈现出上升趋势。从2018年这一年发表的论文表现来看，相比科研人员3，科研人员1和2发表的论文量相对较多。从百分位的分布来看，科研人员1有2篇论文百分位值低，说明这2篇论文的引文影响力排名靠前受到了同行的广泛关注，而科研人员3发表的论文百分位值相对来说比较高，说明其引文影响力相对1和2来说比较低。

图7 某院系3位科研人员的科研成果射束图表现Fig.7 Beam Plots of Three Researchers'Publications

通过射束图科研管理人员可以更加清晰地了解科研人员的成果表现，全面地把握该学者的学术产出发展态势，为后续的人员绩效分析提供更为充实的信息和强有力的支撑。

综上所述，射束图的分析方法可以提供与科研人员的科研成果相关的丰富信息，包括科研生涯中的首次发表时间、科研成果发表的连续性和发展趋势、引文影响力在同学科的相对位置等，为科研管理活动引进人才和绩效分析的工作提供详实的数据支撑，可为同行专家的评估作为参考。

4 思考

同行评议仍然是在分配科学资源时进行研究项目评估和决策的标准方式。然而，随着科学问题越来越复杂，如何合理调配有限的资源就成为一个非常棘手的问题。因此，政策制定者、研究资金的提供者和高校的科研管理人员等开始对科学研究进行定量分析，结合同行评议以期能够做出更优的决策。

利用文献计量学对科研绩效进行分析的目标是为了更好、更清晰地揭示科学研究的进展。在同行专家意见的基础上，辅助文献计量学的深入分析，才可以更好地对科研绩效评估提供更客观、更全面的信息［25，26］。但是需要清楚地认识是，如果不能准确地了解定量分析能提供什么以及不能提供什么，或者仅仅依靠统计数字的话，就违背了定量分析的真正目的。例如，期刊影响因子的初衷是为了帮助图书馆评估和遴选订购何种期刊［17］，但是现在影响因子却被误用为评价个人和研究机构的水平和贡献。正如科学信息研究所报告［16］及本文中所讨论的，单点指标（如h指数、期刊影响因子、篇均引文影响力等）和大学排名都能提供一定信息，但都存在被普遍误解和误用的现象。因此，需要对教学科研活动进行“全面画像”，也即可视化这种直观的分析手段来替代简单指标。

本文针对科研管理活动中普遍关注的三类问题，机构的科研成果表现，学科发展的优劣势和科研人员的绩效表现，基于“全面画像”的可视化分析方法，通过多个案例来详细展开说明。具体来说，第一节在对机构整体进行科研成果的表现分析时，通过影响力全貌的分析方法，可以全面展现在不同的论文引用基线的分布情况，帮助科研管理人员更加明晰机构在哪个区间的论文表现更为出色，哪些地方还存在不足，在出现奇异值的地方，需要进一步通过分析数据背后论文的实际情况来做更为深入的研究，从而为科研决策的制定提供更为丰富的数据支撑。第二节通过SWOT的优劣势分析方法可以从论文产出相对占比和引文影响力两方面呈现某个机构的学科发展态势，辅助学科分析人员把握哪些学科处于优势的区间，哪些是机会学科。再结合时间趋势的分析，可以发现哪些学科的国际引文影响力有所提升，哪些学科的产出规模有所变化。当然需要特别注意，SWOT的优劣势仅是根据指标来定义的，学校在制定学科发展计划时，需要结合本校未来的发展目标和专家的意见。第三节利用射束图来分析科研人员产出论文的引文影响力，来多角度展现科研活动的状态。射束图可以告诉大家一个科研人员科研生涯中的首次发表时间、科研成果发表的连续性和发展趋势、引文影响力在同学科的相对位置等，为机构在人才引进和人才评估的工作提供更加详实的信息，作为同行专家评估的参考资料。相比机构和学科，人员的颗粒度更小，所以在进行数据分析时需要特别小心，如何完整和准确的检索每位科研人员的论文成果是非常重要的，因为有的时候遗漏或者误判一篇文章会影响到数据的分析结果，进而影响科研人员的表现。总体来说，相比于单一指标，全面画像制作相对简单，可展示更多有价值的信息，能有力支撑科学的科研管理，但在具体操作时，需要注意数据的准确性和方法的合理性。科学合理的数据结果才能为专家提供有价值和有意义的参考。

致谢本文成文过程中，科睿唯安岳卫平老师提供了宝贵的意见，尤其在背景介绍、案例解读和文末的思考章节给予了指导，在此表示衷心的感谢！