基于超效率DEA的科学家学术影响力分析

2019-05-24陈清文郭强刘建国

软件导刊 2019年5期

陈清文郭强刘建国

摘要：评估科学家学术影响力的传统方法只考虑科学家的产出（论文数量、引用总数等）而不考虑科学家的投入。提出一种基于超效率DEA的科学家学术影响力模型，将合作科学家数量和合作机构数量作为产出要素，论文总数和引用总数作为投入要素。在APS数据集上的实验结果表明，诺贝尔奖科学家的学术影响力比非诺贝尔奖科学家的学术影响力高，超效率DEA模型计算出的AUC值为0.795 6，比传统指标中最高总引用量指标提高了8.75%，对评价科学家的学术影响力有十分重要的借鉴意义。

关键词：学术影响力；H指数；总引用量；超效率DEA

DOI：10. 11907/rjdk. 182555

中图分类号：TP319 文献标识码：A 文章编号：1672-7800（2019）005-0155-03

Abstract： The current methods of quantifying and assessing academic Influence Analysis of scientists only take into account the outputs of scientists， regardless the fact that the input factors are different for each scientist. In this paper， taking into account the input and output factors measured by the number of cooperating scientists， the number of cooperating institutions， total number of papers and total number of citations， we present a model to evaluate the performance of scientists. The method on the APS dataset can more accurately identified Nobel Prize-winning scientists than the published articles， total citations， I10 index， and H index. The AUC value of this model was 0. 7956， which was 8.75% higher than total number of citations.The work of this paper is of great significance for quantifying the academic influence of scientists.

Key Words： Academic influence； H index； total citations； super efficiency DEA

0 引言

评价科学家的学术影响力，对科学家的职称评定、科研奖励具有重要指导意义。计量科学家学术影响力有许多方法[1-2]，如发表论文数[3]、引用量[4]等。2001年，学术信息出版机构美国科技信息所（ISI）提出一种衡量科学家、学术机构、国家/地区科研水平及影响力的重要评价方法——ESI[5-6]。2005年，Hirsch教授[7]提出了基于科学家引用论文和数量引用的H指数。2006年，Egghe[8]在H指数上进行改进，提出了G指数。2011年，谷歌提出了I10指数，I10指数表示科学家超过10次被引用的文章数量[9]。然而上述方法仅考虑科学家的产出，通常无法准确计量科研背景不同、投入资源不同的科学家。本文提出一种基于超效率DEA的科学家学术影响力模型，通过合作科学家数量、合作机构数量、论文总数和引用总数评估科学家的学术影响力。首先计算每个科学家的投入（科学家数量、合作机构数量）和产出（发表论文数和引用量），然后利用超效率DEA模型计算每个科学家的学术影响力。本文采用美国物理学会（American Physical Society，APS）的数据，以获得诺贝尔奖的科学家为测试数据集，以非诺贝尔奖的科学家为非测试数据集，用AUC值表示算法的准确性。在APS数据集上的实验结果表明，诺贝尔奖科学家的学术影响力比非诺贝尔奖科学家的学术影响力高，超效率DEA模型计算的AUC值为0.795 6，比传统指标中最高的总引用量指标提高了8.75%。

1 科学家学术影响力模型

1.1 模型构建

3 数值实验

3.1 数据集

本文采用美国物理学会（APS）的数据。APS数据包括美国物理学会1893-2009年248 738名科学家发表的463 348篇论文，其中包括35名获诺贝尔物理学奖的科学家。数据集包含唯一的文章编号、文章标题、出版日期（年-月-日），科学家姓名和每位科学家的隶属机构，另一个数据集利用文章编号提供了超过470万条引用关系。

3.2 实验结果

本文将科学家排名结果与传统的科学家学术影响力指标排名结果进行对比分析，以验证基于超效率DEA的学术影响力模型能更准确地从248 738名科学家中识别出获得諾贝尔奖的35名科学家[20]，结果如图2所示。横坐标表示排名靠前的[n]名科学家，纵坐标表示前[n]名科学家中获诺贝尔奖的科学家数目，如前10 000名科学家中，发表文章数指标、I10指标、H指数指标、总引用量指标、学术影响力指标分别包含了25位、30位、31位、35位获诺贝尔奖的科学家。从图2可以看出，本文提出的超效率DEA模型对科学家排名的准确性比传统指标高。

本文采用AUC（the area under a receiver operating characteristic curve）评价指标评价超效率DEA模型的准确性。将数据集中所有科学家分为两类：测试集合和非测试集合，其中测试集合是获得诺贝尔奖的科学家。从测试集合和非测试集合中分别随机选取一位科学家，计算他们的学术影响力值。[n]次比较之后，从测试集合中取出学术影响力值高于非测试集合中科学家的学术影响力值，将其次数记为[n1]，从测试集合中取出科学家的学术影响力值和非测试集合中科学家的学术影响力值次数相同的记为[n2]，AUC值计算公式如下：

[AUC=n1+0.5×n2n] （3）

当AUC=1时，说明计算得到的所有测试集合中取出的科学家学术影响力值高于非测试集合中取出的科学家学术影响力值，当AUC=0.5则说明计算得到的科学家学术影响力是随机的，AUC值越接近1说明计算得到的科学家学术影响力越准确。在AUC值计算中，参数[n]的值越大，AUC值越准确稳定。实证数据取[n=105]计算结果如表1所示，超效率DEA模型计算的AUC值为0.795 6，比传统指标中最高的总引用量指标提高了8.75%。

4 结语

本文提出一种基于超效率DEA的科学家学术影响力模型，该模型以科学家合作人数和合作机构数作为投入要素，以发表论文数和文章引用次数作为产出要素。综合考虑投入和产出，对科学家的绩效进行评价和排名。在APS数据集上的实验结果表明，获诺贝尔奖的科学家学术影响力比非诺贝尔奖科学家的学术影响力高，超效率DEA模型计算的AUC值为0.795 6，比传统指标中最高的总引用量指标提高了8.75%。

尽管本文提出的模型实证结果较引用量等指標有所提升，但仍存在不足。由于APS数据集的学科领域局限性，本文提出的方法只在物理学领域得到验证，未在其它科学领域验证。此外，基于超效率DEA的科学家学术影响力模型取决于投入要素和产出要素的选取，还需研究更多投入要素，使科学家排名更为准确。在未来工作要考虑加入主题进行科学家学术影响力研究。

参考文献：

[1] 曹志梅，刘伟辉，杨光. 高校 ESI 潜势学科排名提升策略探讨[J]. 情报探索， 2017 （4）： 44-47.

[2] 王露，郭强，刘建国. 基于加权方法的节点重要性度量[J]. 计算机应用研究， 2018（5）：1426-1428.

[3] PETERSEN A M， WANG F， STANLEY H E. Methods for measuring the citations and productivity of scientists across time and discipline[J]. Physical Review E， 2010， 81（3）： 36-114.

[4] 杨帅，潘云涛，王海燕，等. 引用次数、相对影响力和社会网络在论文评价中的应用[J]. 中华医学图书情报杂志， 2016， 25（7）：1-9.

[5] FITZPATRICK R B. Essential science indicators.[J]. Medical Reference Services Quarterly， 2005， 24（4）： 67-68.

[6] 曹志梅，刘伟辉，杨光. 高校 ESI 潜势学科排名提升策略探讨[J]. 情报探索，2017 （4）： 44-47.

[7] HIRSCH J E. An index to quantify an individual's scientific research output[J].Proceedings of the National academy of Sciences of the United States of America， 2005， 102（46）： 65-69.

[8] EGGHE L. Theory and practise of the g-index[J]. Scientometrics， 2006， 69（1）： 131-152.

[9] 曹丽江. 基于Altmetrics的学者影响力综合评价研究[D]. 苏州：苏州大学， 2017.

[10] CHARNES A， COOPER W W， RHODES E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research， 1978， 2（6）： 429-444.

[11] 马占新. 数据包络分析方法的研究进展[J]. 系统工程与电子技术， 2002， 24（3）：42-46.

[12] 马璐，高李昊. 带负值的Hybrid DEA模型研究及其应用[J]. 中国管理科学， 2016， 24（3）：149-158.

[13] 魏权龄. 评价相对有效性的数据包络分析模型：DEA和网络DEA[M]. 北京：中国人民大学出版社， 2012.

[14] 李倩. 基于超效率DEA模型的高等教育效率评价[J]. 黑龙江高教研究， 2015， 36（9）：153-156.

[15] 王文娟. 论文合作的效率——从合作者数量与论文发表速度角度研究[D]. 济南：山东大学， 2016.

[16] 苏芳荔. 科研合作对期刊论文被引频次的影响[J]. 图书情报工作， 2011， 55（10）： 144-148.

[17] 李文聪. 国际科研合作的网络演变及其对科研产出的影响研究[D]. 北京：中国科学院大学， 2016.

[18] 王文平. 基于科学计量的中国国际科技合作模式及影响研究[D]. 北京：北京理工大学， 2014.

[19] 张冬玲. 中国科学论文产出与合作状况的计量研究[D]. 大连：大连理工大学， 2009.

[20] SHEN H W，BARABáSI A L. Collective credit allocation in science[J]. Proceedings of the National Academy of Sciences，2014，111（34）：12325-12330.

（责任编辑：杜能钢）

软件导刊

2019年5期

基于超效率DEA的科学家学术影响力分析

杂志排行

软件导刊的其它文章