“双一流”建设背景下我国医药类高校ESI潜力学科识别及预测方法实践
2020-05-14王雅棋丁佐奇郝海平
王雅棋,丁佐奇,2*,郝海平
1中国药科大学理学院;2《中国天然药物》编辑部;3中国药科大学药学院 (南京 210009)
自2015年11月5日国务院印发《统筹推进世界一流大学和一流学科建设总体方案》(简称《总体方案》)以来,一流大学和一流学科建设成为我国当前的政策热点。同时,“双一流”开始取代“985工程”“211工程”高水平大学建设的“单一流”,学科的重要性进一步得到凸显[1]。学科不仅仅是一流大学建设的基础,更是一流大学其特色和优势的呈现。因此近年来,针对国内高校学科建设的评估备受重视,教育部官方最新的第四轮学科评估结果于2017年12月公布后受到热议,与2017年9月公布的首轮“双一流”学科名单存在一些出入。
目前,较为普遍的学科评估方法为利用权威的科学引文数据库对学科的科研产出进行评价。基本科学指标数据库(Essential Science Indicators,简称ESI)已成为国际上权威的衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具,在国内外被广泛用于科学计量和学科评价。在我国“双一流”建设背景下,越来越多高校开始借助ESI数据库进行学科发展趋势的追踪和评价,ESI数据库无疑已成为我国促进“双一流”建设的权威工具。ESI仅统计进入全球排名前1%的学科数据,入围ESI学科排名的高校学科标志着其具有一定的国际影响力,因此,及时追踪ESI数据库学科排名情况可了解学科在全球所有高校和机构中所处的位置,各高校在确保已入围学科稳步增长的同时,发掘有望入围的潜力学科,把握入围ESI的差距,从而合理制定学科规划方案,促进各潜力学科发展。由于ESI数据库根据各高校和机构的学科在一定时间内所发表论文的总被引频次这一指标进行排名,所以利用各种统计方法对潜力学科入围ESI排名进行预测逐渐成为研究热点。笔者通过知网以“ESI潜力学科”作为关键词进行文献检索,发现关于我国高校ESI潜力学科的分析研究最早可追溯至2014年6月发表的一篇论文,甚至早于《总体方案》的发布,即夏琬钧等学者通过InCites和ESI对西南交通大学自身优势学科及有发展潜力学科等方面进行统计分析[2],这在一个方面说明ESI数据库对推动我国高校学科发展的作用早已存在。尤其在2015年“双一流”学科建设在我国拉开序幕后,这一研究课题受到越来越多学者的关注,各种各样的预测和统计方法层出不穷。
本研究选取在首轮“双一流”名单中入选一流医药类学科的高校,共21所(北京大学、复旦大学、上海交通大学、浙江大学、郑州大学、武汉大学、华中科技大学、中山大学、暨南大学、四川大学、北京协和医学院、北京中医药大学、天津医科大学、天津中医药大学、上海中医药大学、南京中医药大学、中国药科大学、广州中医药大学、成都中医药大学、海军军医大学和空军军医大学),另外加入中国历史最悠久的药科院校沈阳药科大学,以及6所江苏省有名的综合类和医药类院校(南京大学、东南大学、南京医科大学、苏州大学、徐州医科大学和南通大学),以上述28所院校作为研究对象,笔者利用ESI和Incites数据库通过高校未入围学科的总被引频次与ESI学科总被引频次阈值的比值筛选出各高校在未入围ESI学科中的潜力学科,并通过拟合最佳回归模型的方法对潜力学科入围ESI排名的时间进行预测,并以中国药科大学为例进行具体的实例解析,以期为各高校把握学科国际地位以及进行学科规划方案调整提供参考。
1 潜力学科的识别
1.1 潜力值Q的计算
ESI数据库中仅展示全球前1%研究机构的学科情况,尚未进入排名的学科的ESI总被引频次则是不可见的,有学者将其定义为“暗数据”范畴[3]。通常人们认为未入围ESI排名的学科的潜力值即为该“暗数据”与ESI学科入围阈值的比值,因此首要问题是该类“暗数据”的可视化,前人研究中的解决方案大致分为两类。由于ESI仅对SCI-E(Science Citation Index Expanded)和SSCI(Social Sciences Citation Index)中article和review类型的论文进行统计,且被SCI-E、SSCI收录的每种期刊对应一个ESI学科,管翠中等[4]在Web of Science(WoS)核心合集数据库中,按照ESI当前数据年限设定时间间隔、论文类型、扩展作者机构以及文献来源期刊,模拟检索学科的总被引频次;汤莹[5]则利用Incites数据库根据ESI学科、ESI年限和论文类型设限模拟检索各机构的学科总被引频次。以上两种模拟检索方法不可避免存在的误差在于数据库与ESI数据库统计来源和更新频率不完全相同,针对这一问题许多学者尝试进行精准校对,王雪[6]以WoS作为模拟ESI统计的数据源时引入被引转换比值,并提出时间节点错位比较,减弱两个平台的统计差异;程建萍等[7]针对22个ESI学科在ESI数据库和InCites数据库的数据偏差进行统计分析,计算出22个学科误差修正因子。
笔者认为,识别潜力学科的意义是从各机构自身出发,找到机构中5年或10年内有望入围ESI排名的学科,从而调整机构为期5年或10年的学科规划方案,以最精准的资源投入获取最大的边际效益。再退一步,除了潜力值,潜力学科的识别还取决于主观决定的潜力阈值,本身就存在一定误差,没必要对模拟检索的结果进行精确校准。因此,本研究选取模拟检索较简单直接的Incites数据库,将得到的学科模拟ESI总被引频次记为C1,ESI学科排名阈值记为C0,则未入围学科的潜力值Q为:Q=C1/C0。当潜力值Q≥0.8时,该学科则被认为短期内有望入围ESI学科排名,被识别为该机构的潜力学科。
1.2 数据来源与获取
ESI数据库对全球所有高校及科研机构近11年的论文数据进行统计,每2个月更新一次统计数据,而Incites数据库每月更新一次,统计截至上一个月末的所有数据。笔者于2019年11月ESI数据更新后记录了22个ESI学科的入围阈值C0,即排名最后一位的总被引频次,以及28所高校的未入围学科名单,当前ESI学科排名统计的论文数据的时间跨度为2009年1月1日至2019年8月31日。同时,笔者在Incites数据库中对28所高校的未入围学科一一进行模拟检索,具体步骤为:登录Incites数据库,进入分析模块,选择研究数据类型为“机构”,将检索时间段设为2009年至2019年,文献类型设为“article”和“review”,研究领域设为相应的ESI学科,记录检索结果中各高校每个未入围学科的总被引频次。
1.3 28所高校潜力值与潜力学科
根据潜力值的计算方法,得到28所高校未入围学科的潜力值Q,将Q≥0.8的学科确定为该高校的潜力学科。本研究以中国药科大学为例进行详细的解析,表1中可见中国药科大学未入围学科共18个,其中空间科学学科无发文,材料科学学科的潜力值为1.066>0.8,被识别为潜力学科。需要说明的是,由于ESI数据库中论文数来源为SCI-E和SSCI,被引数据来源为SCI-E、SSCI和A&HCI三个数据库,而Incites数据库的论文数和被引数据均来自SCI-E、SSCI、A&HCI、CPCI-S、CPCI-SS&H、BKCI-S、BKCISSH七个数据库,这导致学科的Incites总被引频次必定略大于ESI总被引频次,即可能出现未入围学科Incites总被引频次甚至高于ESI阈值,潜力值Q大于1的情况。如表2所示,28所高校中共有8个学科的潜力值大于1,另外明显可见,28所高校中有17所高校共识别出24个潜力学科,4所高校识别出不止1个潜力学科,暨南大学和海军军医大学甚至分别识别出4个和3个潜力学科,说明如果相关院校学科建设规划部署得当,有关学科其综合实力有可能短期内得到较大提高。
表1 中国药科大学未入围学科潜力值
注:标“∕”符号的表示中国药科大学该学科未有论文被InCites收录
表2 28所高校潜力学科
注:标“∕”符号的表示该院校未识别出潜力学科
2 潜力学科入围时间的预测
在我国全面开展“双一流”建设背景下,为了进一步推动高校学科的建设和发展,在对机构进行潜力学科识别的基础上,相关研究人员还可以运用各种统计工具定量地对潜力学科入围ESI排名的时间进行预测,以更精确地为机构和高校提供制定学科建设规划和资源分配方案的参考。近年来,国内学者广泛将各种统计方法运用于潜力学科入围时间预测,王雪[6]基于ESI统计数据的滚动周期性,引入时间序列预测模型对两所高校的潜力学科预测进行实证研究;戴莹[8]和秦萍等[9]利用ESI和InCites数据库,以灰色系统理论GM(1,1)模型的原理和方法为基础,运用MATLAB软件对高校潜力学科的发展趋势作出预测;汤莹[4]通过回归分析得到总被引频次与总论文数之间的回归方程,进而通过利用时间序列预测方法预测机构未来的发文量及未来的学科总被引频次;管翠中等[4]运用曲线拟合模型方法对高校潜力学科入围时间进行预测;陈颖瑜等[3]联用SWOT分析法、文献调研法和回归分析法等,通过构建潜力学科入围所需论文篇数的线性预测公式和入围预测的指标数据模型,尝试对ESI潜力学科进行趋势预测。
总之,进行入围时间预测的方法主要分为两大类:回归分析和时间序列预测。每种预测方法都有其适用条件和范围,而预测结果的准确性在很大程度上取决于假设条件的满足程度[10]。而时间序列和回归分析的主要区别在于对数据的假设,回归分析假设每个数据都是独立的,而时间序列则是利用数据之间的相关性进行预测,即以老的样本量预测新的样本量,是一种自回归[11]。学科的各期ESI总被引频次数据之间相对来说独立性高于相关性,本研究选取拟合回归曲线的方法对28所高校的潜力学科进行预测。
2.1 学科线、阈值线的设定与数据获取
在进行潜力学科预测时,本研究将学科线设定为自该潜力学科有论文被InCites数据库收录的年份起至2018年,每一年的年度拟ESI总被引频次Cin;考虑到由于ESI数据库和Incites数据库更新时间不一致以及统计来源的不同,为提高定量预测潜力学科入围时间的准确性,本文将阈值线设定为ESI阈值机构对应的InCites年度拟ESI总被引频次,此处的ESI阈值机构设定为2019年11月ESI数据库每个学科入围的末10名机构,取这些机构的年度拟ESI总被引频次的均值作为年度阈值,这不仅可避免选取一个末位机构时的偶然性,还能减轻末10名机构个体差异的影响。
数据获取主要分为两步:首先于2019年11月笔者记录所有高校潜力学科的ESI排名末十位的机构名,同时在InCites数据库中找出潜力学科首次有论文被InCites收录的年份,确定学科线和阈值线的起始年份,由于中国药科大学图书馆购买了InCites数据库自1980年来的数据,本研究所检索的潜力学科的Cin年份最早可至1991年。第二步在Incites数据库中检索每所高校潜力学科的年度拟ESI总被引频次Cin,通过设定起止年份分别为年份的前11年和前1年(比如2010年的Cin即为该学科在1999至2009年发表的论文的总被引频次),文献类型为“article”和“review”进行检索,获得所有高校潜力学科的学科线;以同样方式检索所有潜力学科末十位机构的Cin并取平均值,获得所有潜力学科的阈值线。
以中国药科大学为例,表3中可见其潜力学科材料科学2019年11月ESI排名的末十位机构,由于倒数第10名有两位机构并列,共为11所机构。中国药科大学材料科学学科在1980年至1990年期间就有论文被InCites数据库收录,因此中国药科大学潜力学科材料科学的学科线和阈值线的时间跨度为1991年至2018年,如图1所示,其为该11所机构从1991年至2018年的Incites数据库年度拟ESI总被引频次。从图中可见,11所机构的总被引频次随时间的变化情况各不相同,因此笔者取每年度11所机构的平均值作为阈值线上的数据较为合理。
图1 材料科学ESI排名末十位机构的总被引频次
此外,笔者发现中国药科大学的材料科学学科年度拟ESI总被引频次从1991年至1999年均为10,而2000年为缺失值,自2001年以后从153开始逐渐增长。从InCites数据库统计的学科发文量来看,这是由于该学科在1980年至1990年期间被InCites收录的论文仅一篇,且被引量维持在10次,而1989年至1999年间该学科无论文被InCites收录,2000年重新发表一篇论文被InCites收录,自此开始该学科发文量和被引量稳步增长。为了更好地拟合回归曲线,反映该学科的总被引频次增长情况,笔者将2001年之前的数据除去,使用2001年至2018年的材料科学学科线和阈值线的数据进行回归曲线拟合,如表3所示。同样的方法,本研究获取了其他16所高校潜力学科的学科线与阈值线。
表3 中国药科大学材料科学学科的学科线与阈值线
2.2 28所高校潜力学科入围ESI时间的预测
在获取所有高校潜力学科的学科线与阈值线后,将其作为拟合回归曲线的因变量,本文把自变量设为自获取该学科年度拟ESI总被引频次Cin的年数。例如,1980年至1990年内某潜力学科有论文被InCites收录,则可获得潜力学科1991年的Cin,这时1991年的Cin对应自变量为1,1992年的Cin对应自变量为2,以此类推。本研究运用SPSS 24软件通过分析模块的回归曲线估算功能,可对潜力学科的学科线和阈值线进行拟合回归,可供选择的回归模型有11种:线性模型、二次模型、三次模型、复合模型、增长模型、对数模型、S型曲线模型、指数模型、倒数模型、幂函数模型和Logistic模型,笔者根据给出的模型拟合优度指标决定系数调整后的R2选择最适合的拟合模型,R2的值越接近于1,说明模型曲线的拟合程度越高。这里需要说明的是,在比较R2之前,需要筛除掉预测值有递减趋势的模型,因为当学科线或阈值线呈递减趋势时,潜力学科入围时间的预测是没有意义的,本研究的基本假设为在可预见的短期内,潜力学科的总被引频次和ESI学科的阈值都是逐渐增长的。
以中国药科大学为例,表4列出了其潜力学科材料科学学科线与阈值线回归拟合结果中拟合优度决定系数R2>0.5的模型以及回归拟合方程,学科线模型中R2最大的为三次模型,即选取三次模型对材料科学学科线进行预测;阈值线模型中R2最大的仍是三次模型,但该模型在预测过程中有递减趋势被筛除,因此本研究选取R2第二大的线性模型进行预测。如此,对其他所有高校的潜力学科的学科线与阈值线进行最优拟合回归模型筛选。
表4 中国药科大学材料科学学科线与阈值线的拟合回归模型筛选
如图2所示,为中国药科大学材料科学学科线与阈值线的最优拟合曲线,明显可见,两条曲线相交点,即为材料科学学科入围ESI排名的时间点。从图中可见,两条回归线相交于2019年与2020年之间且极接近2020年的位置,这说明中国药科大学材料科学学科有望于2020年3月(ESI数据库每年3月份刚好统计前11年的论文数据)入围ESI排名。
图2 中国药科大学材料科学学科入围ESI时间预测
笔者用同样的方法对其他所有高校潜力学科的入围时间进行预测,结果见表5,预计除了广州中医药大学的化学学科(2034年3月至2035年3月才可能入围),其他所有潜力学科在2027年3月之前都能够入围ESI学科排名。由于本研究用于时间预测的建模数据截止于2018年,广州中医药大学的化学学科2018年的拟ESI总被引频次Cin为3455,远低于阈值线2018年数据11681.833,实际上该学科被识别为潜力学科是因为2009年至2019年10月31日的总被引频次为6606,比上一年增长近一倍,达到了比较高的潜力值。因此,广州中医药大学化学学科ESI总被引频次在未来的增长速率极可能高于本研究中预测的增长速率,即在2034年之前就可能入围ESI排名。
由表5可见,各潜力学科的学科线的最优拟合回归模型大部分(20/24)为三次模型,这说明近年来潜力学科总被引频次的增长速率越来越快。在这样的基础上,各高校若能够更进一步调整规划方案,对潜力学科加以重视和投入,在七年之内,这些潜力学科都可能成功入围ESI排名,成为全球排名前1%的学科。
表5 17所高校的潜力学科入围ESI时间预测结果
(续表)
3 结语
本研究利用ESI和InCites数据库对我国28所高校进行ESI潜力学科识别,并用拟合回归曲线和模拟检索的方法对潜力学科入围ESI排名的时间进行预测,并以中国药科大学为例详细解析了识别和预测的方法和过程。任何预测模型既然是根据已有的实际资料建立的,就不可避免地存在误差。本文的预测方法也存在其他几乎所有预测方法具有的误差,即用单纯基于数学模型或统计方法进行预测,而未考虑所有动态的难以预料的变化,许多外界因素如论文激励政策的变化、学科前沿学者的流动、国际合作的加强等,都有可能使学科论文产出和绩效偏离原来的增长趋势。尽管学科在国际上的排名受影响的因素太多,但进行潜力学科的识别和预测对推动我国高校“双一流”建设仍具有较大的指导意义并有一定的促进作用。在本文修稿过程中,中国药科大学的材料科学学科已于2020年1月进入ESI排名,在本研究预测的2020年3月这个节点之前,证明预测准确,同时也彰显了中国药科大学近年来在材料学科相关领域的强劲发展势头,也表明药学学科对于材料学科等交叉学科具有重要支撑作用。若每所高校能够集中资源和精力,根据学科历史上的增长趋势进行准确规划,努力实现学科自身的进步和突破,潜力学科进入全球ESI前1%指日可待。