基于因子分析法的中国高校临床医学科研竞争力评价研究
2019-07-25刘玉婷
刘玉婷 黄 芳
(首都医科大学图书馆, 北京 100069)
随着大数据技术的迅猛发展,对海量数据的处理已经成为计算机科学方面的重要任务,同时应用到各个专业的研究。其中,数据挖掘在大数据技术的发展中得到广泛的发展。数据挖掘是指从数据中发现有效的、新颖的、潜在的、有用的、最终被理解的模式和知识的过程[1]。数据挖掘在高校学科建设工作中的任务是描述与预测,具体可以理解为从学科建设的数据集合中找到各个学科数据的规则和关系,这些规则可以用来评估学科的发展情况、与其他学校的数据进行对比、预测学科的发展趋势等。
国务院2015年11月5日对外发布的《统筹推进世界一流大学和一流学科建设总体方案》[2],自2016年起针对大学以及学科建设明确提出了“双一流”的任务要求,并分三个阶段制定了时间表为我国建成高等教育强国明确了任务路径。因此高等学校的学科建设是学校的重点工作,要对学科的发展进行评价,必须从基础的数据开始分析。
文献计量学指标是评价一个学校学科发展的客观依据,没有任何一个单一的文献计量学指标能够全面地评价科研绩效[3],因此笔者选择多个文献计量学指标。大学的科研竞争力[4-6]应该由科研生产力、科研影响力、科研创新力、科研发展力这四个部分构成。这四个部分可以分别对应多个文献计量学指标。本文应用因子分析法把一些具有错综复杂关系的变量归结为少数几个综合因子,对复杂的文献计量学指标进行分析和解释,从而对中国高校临床医学科研竞争力进行评价研究。
1 材料与方法
1.1 数据来源
本研究选取2012年教育部学位与研究生教育发展中心(简称学位中心)第三次学科评估临床医学参评高校50所。其中全国具有“博士一级”授权的高校共35所;具有“博士二级”授权和硕士授权的15所。在科睿唯安的InCites平台,检索这50所高校临床学科的学科数据,文献类型选择Article和Reviews,同时检索F1000数据库中被推荐的论文数,数据检索日期为2019年2月25日,检索年限为2014年到2018年,从这些数据来分析各高校近5年的科研竞争力发展情况。
1.2 研究方法
因子分析法[7-9]是从研究变量内部相关的依赖关系出发,把一些复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
1.3 数据的整理与预处理
InCites数据库对机构的文献计量指标总共有48个,去除一些不能量化及许多高校没有数据的指标,以及一些可以通过计算替代的指标,综合F1000数据库中推荐论文数指标, F1000数据库基于同行评议对科研竞争力水平做客观评价[7-12],共统计10个指标,具体数据详见表1。对大学的科研竞争力一般由这些客观指标来计算。其中学科规范化引文影响力( category normalized citation impact,CNCI)是按学科、出版年和文献类型统计的规范化的引文影响力(引文影响力指论文篇均被引频次);热门论文百分比是入选基本科学指标数据库(esseatial science indicaters,ESI)热门论文(按领域和时间段统计的被引频次排名0.1%)的出版论文百分比;H指数是机构或学者发表的N篇论文中有h篇每篇至少被引h次;国际合作论文数指含一位或多位国际共同作者的论文数。
1.4 适合度检验
把表1的数据用SPSS 19进行分析。在进行因子分析之前,用KMO与Bartlett球形度检验进行适合度检验。KMO值为0.837,Bartlett 的球形度检验近似卡方值为742.584,自由度为45,显著性小于0.05,拒绝相关系数为0的假设,显示这些指标变量适合进行因子分析,并且它们之间有相关性。
1.5 提取主成分因子
应用主成分分析法提取公共因子,根据原始特征值大于1的原则,提取2个公共因子,其特征值分别为6.443和1.696,方差贡献度分别为64.431%和16.962%;累积贡献率达到81.393%,表明这2个因子包含了10 个变量的绝大部分信息,能够反映指标的内容,可以有效地反映各个医学院校的科研竞争力,详见表2。
1.6 因子的含义
根据旋转成分矩阵(表3),可以看出,第一个公共因子F1在国际合作论文数、Web of Science论文数、被引频次、F1000论文数、H指数五个指标上因子载荷较大,这些指标都和论文的总数量、被引频次有关,尤其是国际合作论文数对F1的贡献最大,其次是Web of Science论文数,因此把F1归结为生产力规模量因子。第二个公共因子F2在CNCI、被引次数排名前 10% 的论文百分比、被引次数排名前 1% 的论文百分比、论文被引百分比四个指标上因子载荷较大,这些指标都是论文高影响力的指标,尤其是高水平论文的占比,因此把F2归结为高影响力因子。这两个公共因子从各高校论文的生产力规模量,高影响力两个方面反映了高校的科研竞争力。
2 结果
2.1 因子得分
记X1*~X2*为表1原始数据标准化后的数值,应用SPSS软件的回归法得到成分得分系数矩阵(表4),根据该矩阵进一步得到50所高校因子得分表达式,其中aij表示第j个指标在第i个公因子上的得分系数Fi。
表1 各院校文献计量学数据(部分)Tab.1 Bibliometric data of universities (Part)
CNCI: category normalized citation impact.
表2 因子分析的总方差Tab.2 Total variance of factor analysis
以旋转后各因子的方差贡献率占两个因子总方差贡献率的比重作为权重进行加权汇总,得到各个学校的综合得分F,这个综合得分可以看作各高校科研竞争力的得分,即F=(44.362*F1+37.031*F2)/81.393。
各学校各个因子得分见表5。
表3 旋转成分矩阵Tab.3 Rotating component matrix
CNCI: category normalized citation impact.
表4 成分得分系数矩阵Tab.4 Component score coefficient matrix
CNCI: category normalized citation impact.
表5 各高校因子得分表(部分)Tab.5 Factor scores of universities (part)
以F1因子得分为x轴,以F2因子得分为y轴,以综合得分F为气泡大小,使用EXCEL画出各个高校的科研竞争力气泡图,如图1所示。
2.2 结果分析
结合各个高校在两个公共因子上的得分和综合得分,可以对中国高等院校临床医学学科2014年到2018年科研竞争力的发展水平进行评价。
从图1可看出,在第一象限的有上海交通大学、北京大学、复旦大学、中山大学、北京协和医学院、南京医科大学、华中科技大学、中南大学、天津医科大学和中山大学,这十所大学的科研生产力规模量与科研高影响力这两个公共因子都超过了0,具有很强的科研竞争力。在这7所高校中,只有协和医学院和南京医科大学是专门的医科大学,其他高校都是合并了医学院或者医科大学之后的综合性高校。
在第二象限的有同济大学、第二军医大学、西安交通大学、哈尔滨医科大学、广州医科大学、南京大学、武汉大学、大连医科大学、江苏大学、新疆医科大学、南京中医药大学、宁波大学等。这些学校在科研生产力规模量上的得分低于0,但是科研高影响力上的得分大于0。这些学校是独立的医科大学较多,虽然科研生产力规模量不高,但是科研高影响力得分相对较高。
图1 中国高校临床医学科研竞争力气泡图Fig.1 Bubble diagram of competitiveness of clinical medical research in chinese universities
Xaxis: F1;Yaxis:F2; bubble size: F.
在第三象限的有重庆医科大学、广西医科大学、徐州医学院、大连医科大学、兰州大学、山西医科大学、锦州医科大学、石河子大学等,这些学校科研生产力规模量和科研高影响力因子得分都不高,得分低于0。这些学校都是地方性大学,发展比较受限制,因此科研竞争力得分也不高。
在第四象限的有首都医科大学、浙江大学、四川大学、山东大学、中国医科大学、吉林大学、郑州大学等。这些学校的科研生产力规模量因子分数超过了0,但是科研高影响力因子得分低于0。
从科研生产力规模量因子来看,前三位的学校是上海交通大学、北京大学、和复旦大学,从科研高影响力因子来看,排在前三位的是南京大学、宁波大学、南京中医药大学,这些院校的“被引次数排名前 1% 的论文百分比”与“被引次数排名前 10% 的论文百分比”上的表现比较突出。从综合性的科研竞争力来看,排在前十位的院校是上海交通大学、北京大学、复旦大学、中山大学、北京协和医学院、首都医科大学、南京医科大学、南京大学、中南大学、浙江大学,这些大学除了北京协和医学院、首都医科大学、南京医科大学之外都是综合性的学校,说明这些学校的科研竞争力比独立的医科大学科研竞争力要强。
3 讨论
用文献计量学指标来评价高校的科研竞争力是客观的方法,虽然有一定的局限性,但是也客观反映了高校科研发展的状况。当前已有一系列评价方法与指标体系[13-15],本文通过多源数据库检索,得到高校多个文献计量学指标,然后通过降维的因子分析法,把这些复杂的指标归结为两个公共因子,限于数据本身情况,得到两个公因子累积贡献率达到81.393%,并不能完全替代原指标,但可以解释大部分内容。本文通过因子分析方法将评价指标降维得出科研产出的规模量和高水平论文的比重是两个重要影响因素,对于各个高校来说,为了进一步提高科研竞争力,加强学科建设,可以加大科研投入,增强创新力度,提高高校的科研创新力。对于科研生产力规模量比较高的学校,如首都医科大学、浙江大学、四川大学、山东大学、中国医科大学等,需要注意提高论文的质量,提高产出论文的影响力水平,尤其是要提高被引频次排名前10%、前1%高水平论文的产出。科研影响力相对较高的学校,如南开大学、武汉大学、南京中医药大学、同济大学、第二军医大学等,要注意提高论文发表的数量,鼓励研究者多发研究论文,提高科研生产力。中国高校加强国际合作交流,建立健全国际合作交流的机制,从人才引进、国际合作项目、派出人员学习等各个方面制定制度,完善相关的人才激励和考核政策,调动科研人员和教师开展国际合作交流积极性,从而提高人员的国际影响力[16],进而提高机构的科研影响力和竞争力。