未入围学术机构ESI被引次数推算方法研究<br/>——基于WOS平台引文分析功能

未入围学术机构ESI被引次数推算方法研究
——基于WOS平台引文分析功能

2020-04-09杨红梅王正为

图书馆学刊 2020年2期

杨红梅王正为

（北方工业大学图书馆，北京 100144）

2015年10 月，国务院印发《统筹推进世界一流大学和一流学科建设总体方案》，将建设一流大学和一流学科摆在重要的战略位置。方案中提出了以一流为目标、以学科为基础、以绩效为杠杆、以改革为动力的建设原则[1]。在此背景下，利用权威的科研绩效评价工具，了解学科在世界所处位置以及学科发展趋势，对于高校培育优势学科有着重要意义。

ESI（Essential Science Indicators，基本科学指标）[2]是科睿唯安（原汤森路透知识产权与科技事业部）推出的一个衡量科学研究绩效、跟踪学科发展趋势的分析评价工具。国际上普遍认为进入ESI 前1%的学科属于世界领先学科[3]。近年来国内各级教育主管部门也已将ESI 作为衡量高校学科发展的重要指标，如我国教育部学位与研究生教育发展中心在第四轮学科评估中把各高校进入ESI全球前1%学科数、ESI高被引论文数作为重要指标[4]；教育部、财政部在“高等学校创新能力提升计划”实施方案中提出，申报面向科学前沿的协同创新中心，“牵头高校以及主要参与高校，依托的主体学科原则上应进入ESI学科排名前1%”[5]。这都显示了国内教育主管部门对ESI 学科评价的认可。在此背景下，各高校也纷纷将ESI学科建设列入事关学校发展的重大事项，力争使更多学科入围ESI全球前1%甚至前1‰，以此推进学科步入国际先进水平[6]。

利用 ESI、InCites[7]、WOS[8]数据库对有可能入围ESI前1%的学科进行预测，是图书馆服务ESI学科建设的重要内容之一，在为学校的学科发展规划和政策制定提供支持的同时，也能有效提升自身在学校的地位和影响力，因而越来越受到图书馆界的关注。ESI 以“被引次数”排名作为判断机构入围的唯一标准，被引次数这一指标也就成为在潜力学科识别以及入围时间预测分析中最直观和最重要的指标。由于ESI只公布学科排名前1%的机构的统计数据，尚未进入ESI的机构无法直接获取其被计入ESI 学科的被引次数以及在ESI 中排名的具体位置，已有研究往往是在WOS或在In-Cites数据库中模拟ESI检索，得到机构模拟ESI的被引次数CWI据此来推断该机构在ESI中的被引次数CESI。一般有两类推断方法：第一类是直接用CWI代替CESI，如管翠中[9]等运用曲线拟合模型预测法对清华大学药学与毒理学学科入围时间进行预测时，采用的就是这种方法；第二类方法是针对某一学科，选取若干家入围机构为样本，计算出样本机构在ESI 中的被引次数与模拟ESI 检索出的被引次数的比值，取其平均值作为误差修正因子，然后对于未入围机构，令即可。如程建萍[10]等针对22个ESI学科，选取各学科入围机构中被引次数最低的100家机构作为样本，计算相应的误差修正因子，并针对9所大陆高校的计算机学科进行了实证分析，推测其未来入围的可能性；王雪[11]引入了被引转换比值，即样本机构在WOS中模拟ESI 检索的被引次数与ESI 中的被引次数比值的平均值，利用生物与生物化学学科的被引转换比值，将南京工业大学、北京化工大学的生物与生物化学学科在WOS平台模拟ESI检索的被引次数转换为ESI的被引次数，并在此基础上对以上机构入围时间进行了预测，该方法与文献[10]的原理相同。第一类方法有效的前提条件是，即yi≈1，这是显而易见的；第二类方法有效的前提条件是所讨论的学科中各机构的被引次数比值yi差别不大，其平均值具有较好的整体代表性。

对于机构被引次数的比值yi远小于1，且各机构之间的yi差异较大，即平均值的代表性较差的学科，情况如何呢？笔者对ESI 工程学已入围机构的数据进行观测，发现工程学即是属于这种情况，不同机构在两个数据库中的被引数据以及排名数据的差异性表现不尽相同。以2018年11 月入围ESI 工程学的机构为例，排名在1393和1394 的两家机构，其在ESI 中的被引次数分别为 2374 和 2372，在 InCites 中排名分别为 1139 和1507，被引次数分别为3904 和2522，两家机构在ESI中的排名仅相差1名，被引次数仅相差2次，但是在InCites 中的排名以及被引次数却相去甚远，且此种现象并非个别现象。分别计算入围的末50家机构在ESI 中的被引次数与在InCites 中的被引次数比值，发现比值数据未集中在工程学的误差修正因子0.829 附近，而是分散在0.61-0.97 之间。连续追踪多期数据，得到相似的结果。可以推断未入围机构的该比值数据也会在这一较大的范围内波动。因此，在推断未入围机构ESI 被引次数时，需要考虑各机构的特殊性，而不是仅仅用平均值yi作为误差修正因子乘以CWI。

笔者的创新之处在于利用WOS平台的引文分析功能，引入反映施引文献来源特点的“施引文献量比值”这一可观测特征变量来推断未入围机构在ESI 中的被引次数。文章主要包括三部分内容。第一部分是方案设计，阐述基于WOS 平台引文分析功能推断未入围机构ESI 被引次数的思路。第二部分是实证研究，以ESI 工程学学科为例，利用线性回归方法推演ESI 被引次数计算公式。第三部分是针对具体未入围机构的应用举例。

1 方案设计

无论是在InCites 还是在WOS 数据库中模拟ESI 检索，引用数据均来自WOS 七大核心合集，而其中只有来自SCI/SSCI/A&HCI 数据库（以下简称三库）的引用才会被计入ESI被引次数的统计。由于检索功能的限制，无法将不属于ESI统计范围的被引次数去除，这是模拟ESI检索时被引次数偏差的主要来源。对于工程学、计算机科学等学科，由于会议论文较多，被引数据来自于CPCI 也相对较多，从学科整体情况来看，模拟检索的被引次数虚高现象更为突出。本方案以ESI 工程学为研究对象，尝试通过WOS 数据库平台上强大的引文分析功能来找到问题的解决方案。

在WOS 中模拟ESI 检索，采用的是“机构扩展+期刊名/ISSN 号”的策略，考虑到ESI 工程学的期刊有800余种[12]，且综合交叉性期刊还未考虑在内，检索式不易编辑。而在InCites 中模拟ESI 检索，无需构建复杂的检索式，只要通过对检索条件进行限定即可完成。因此本研究首先在InCites中模拟ESI 检索，再将检索出的论文导入到WOS 平台上进行引文分析。机构论文在导入WOS 之后，通过引文分析报告可以观测到论文集合的施引文献，对施引文献按照其来源做进一步精炼，即可获得来自三库的施引文献，令，其中“总施引文献量”是指来自WOS七大核心合集的施引文献总量，“三库施引文献量”是指来自SCI/SSCI/A&HCI数据库的施引文献量。

对于同属于一个ESI学科，作者来自于同一个机构的论文集合，其中不乏有主题相关的论文，它们很可能同时被引用，即成为同被引文献。从施引文献的角度来说，一篇施引文献有可能贡献了两次及以上的被引次数，因而施引文献量并不等同于被引次数。施引文献既可能来自三库，也可能来自WOS 核心合集中其它数据库，施引文献对被引次数的贡献度主要与机构论文集合的主题相关度有关，而与其所来源的数据库关系不大。因此，对于机构来说，来自三库和来自WOS七大核心合集的施引文献量比值x与被引次数比值y高度相关。

针对ESI 工程学学科，选取若干家入围ESI 前1%的机构作为样本，采集样本机构的施引文献量和被引次数数据，运用回归方法考察施引文献量比值x与被引次数比值y之间的关系，据此根据未入围机构的施引文献量比值x推断其被引次数比值y，进而得到未入围机构的ESI被引次数。

2 实证研究

2.1 数据采集

考虑到排名末位的机构与未入围机构的情况相对接近，笔者选取2018 年11 月入围ESI 工程学前1%的机构中被引次数最低的50 家机构作为训练样本，用以拟合线性回归模型；综合考虑被引次数与机构性质（尽量为中国高校）这两个因素，选择另外15 家入围机构作为检验样本，用以检验模型的应用效果。

2.1.1 ESI被引次数与InCites被引次数

ESI统计的数据范围是近10到11年内的WOS数据，每两个月更新一次，每次更新增加两个月数据；InCites 统计的 WOS 数据是从 1980 年开始，到目前已累积有近40年的数据，每月更新一次，每次更新增加一个月数据。基于以上原因，即便在In-Cites 中按照ESI 当前的数据年限设定检索时间跨度，也可能因两个数据库涵盖的WOS 数据范围的不同，导致模拟检出的论文数与ESI真实值之间的差异。因此要特别注意两个数据库帮助文档中关于所涵盖的WOS数据时间范围的提示[13-14]，选择合适的模拟检索时间。

以本文的数据采集为例，在2018 年11 月初，InCites 更新，涵盖的 WOS 数据范围到 2018 年 8 月31 日，而此时的 ESI 还是 2018 年第 5 期的数据，涵盖WOS的数据范围到2018年6月30日，在InCites中检索时按照ESI的年代范围限定检索时间跨度：2008—2018，检索结果也比ESI 多出了两个月的WOS 数据。而在 2018 年 11 月中下旬，在 ESI 更新到第6 期数据，而InCites 还尚未更新时，两个数据库涵盖的WOS数据都截至2018年8月31日，所以应该选择此时在InCites 中模拟ESI 检索并采集数据。

尽管模拟检索时已尽可能接近ESI 的真实情形（检索时间跨度：2008—2018，文献类型限定为article 与review，研究领域选择ESI 学科分类体系下的工程学），但是由于两个数据库由不同的部门开发，在数据统计上存在差异，模拟检索出的机构论文数与ESI 真实值依然会有不一致的情况。如果机构在两个数据库中论文数差别过大，应将其作为异常数据去除，补充新的机构数据。记录最终选取的65家样本机构在InCites 中模拟ESI检索出的被引次数以及在ESI 中的被引次数。因篇幅所限，仅列出其中20家训练样本机构的数据（见表1）和全部15家检验样本机构的数据（见表2），机构名称采用InCites 帮助文档[14]中提供的机构缩写形式。

2.1.2 总施引文献量与三库施引文献量

以某机构为例，将模拟ESI检索得到的机构论文从InCites 中导出，利用论文的入藏号在WOS 中检索，由检索结果页面上的“创建引文报告”链接转至引文报告页面，查看综合引文统计（如图1 所示），其中2900即为本例中机构论文集合的总施引文献量。

图1 综合引文统计

在图1 中，虽然有总被引频次的统计（3406），却无从获得究竟有多少被引次数来自于三库。但是可以对施引文献做进一步的分析：点击图1中“施引文献”链接，在“精炼检索结果”面板的多个精炼选项中选择Web of Science 索引，进而选中三库的复选框进行精炼（见图2），运行的结果数为2454 篇（自动去重），即是本例中三库施引文献量。

图2 精炼施引文献

依此方法分别获取65家机构的施引文献量数据，部分训练样本机构的数据见表1，检验样本机构的数据见后面的表2。

表1 部分训练样本机构的统计数据

续表1

由于WOS 平台上的数据是每天更新的，图1中的引文数据已不再是样本机构在InCites中检索时截至到2018年8月31日的WOS数据，而是随着WOS 平台更新到了数据导入时的2018 年11 月。笔者在不同时间将同一家机构的论文导入WOS平台进行分析，发现尽管被引次数、总施引文献量随着时间的推移有所增加，但是三库施引文献量与总施引文献量的比值，即x值变化不大，间隔时间越短，差别越小，因此可以将x值看作是反映机构在某一时间段内ESI 论文的施引文献来源特点的指标。

2.2 ESI被引次数推算

利用50 家训练样本机构的两组比值数据（x，y）作散点图，见图3。

图3 （x，y）散点图

从散点图可以看出，样本点基本都在一条直线附近，说明二者之间可能存在较强的线性关系。进一步拟合线性回归方程如下：

拟合度R2=0.940。修正的R2=0.939。这说明线性回归方程对比值数据（x，y）拟合得很好。另外，根据回归系数显著性检验，对x前面系数进行t检验的 p 值为 2e-16，接近于 0，说明x对y的线性影响非常显著。

根据未入围机构的施引文献量比值x，代入线性回归方程（1）式即得到被引次数比值，y的估计值。于是，

图4为本方法流程图。

图4 推算ESI被引次数方法流程图

2.3 被引次数误差率比较

为考察本文所提出的方法的有效性，针对15家入围机构所组成的检验样本，由公式（2）推算出各机构ESI被引次数，再采用文献[9]的方法。

表2 用于检验的样本机构被引次数误差率比较

（InCites被引次数乘以ESI工程学误差修正因子0.829），得到各机构均值修正法的ESI 被引次数，最后利用公式（3）分别计算两种方法推测出的各机构被引次数的误差率，并进行分析比较（相关数据见表2）。

本方法的误差率平均值为1.87%，且由表2可见，各机构误差率均不超过5%。而基于均值修正法的误差率平均值为9.02%，且有5家机构的误差率超过10%。由此可见笔者所提出的方法因引入了施引文献量比值这一机构特征变量，亦即考虑到了机构间的差异性，从而使得推测出的ESI被引次数误差率明显减小。

3 应用举例

以北方工业大学ESI 工程学为例，推算其在ESI 中的被引次数。于2018 年11 月中下旬，在In-Cites数据库中模拟ESI检索，检出该机构工程学论文 279 篇，被引次数 2613 次，利用 279 篇论文的WOS入藏号在WOS数据库中检索，查看论文集合的引文报告。引文统计结果显示施引文献2263篇，进一步精炼结果，得到来自三库的施引文献1589 篇。利用公式（2）由InCites 中的被引次数推算出机构在ESI中的被引次数为1908。与本期In-Cites 数据相对应的ESI 工程学机构阈值为2370，该机构在InCites中模拟检索的被引次数达到阈值的110%（=2613/2370），经本方法推算出的被引次数仅为阈值的80%（=1908/2370）。单纯某一期的数据不能说明问题，需要连续跟踪机构的被引数据以及与之对应的机构阈值数据，采用一定的数据分析方法来判断其未来入围的可能性以及预测入围时间，笔者对此不再展开讨论。

4 结语

对潜力学科的识别以及对潜力学科入围ESI时间的预测分析是为满足高校决策的实际需求而提出的研究主题，有助于高校制定科学合理的学科发展规划，优化资源配置，聚焦工作重心，从而实现优势学科的重点突破[15]。

模拟ESI 检索得到的机构论文被引次数存在“水分”，不将这一水分去除会直接影响到机构入围ESI 预测分析的准确性。三库施引文献量与总施引文献量的比值x可以被看作是度量机构被引次数“水分”的个性化指标（比值越小，水分越大）。以此为基础而非以入围样本机构的平均表现为基础的被引次数推算方法，更具针对性地将模拟检索出的被引次数水分去除，有效减少模拟检索产生的偏差，从而提高预测入围分析的准确性，且可操作性和普适性强，计算方法亦并不复杂，希望能为同行在进行机构入围ESI预测分析时提供参考。