APP下载

ESI与InCites数据库在学科建设中的应用动态研究

2019-03-04

传播与版权 2019年12期
关键词:聚类论文数据库

高 遐

(浙江理工大学图书馆,浙江 杭州 310018)

一、引言

2015年国务院印发了《统筹推进世界一流大学和一流学科建设总体方案》[1],旨在推动我国高校进入世界前列,为我国高等教育建设引领航向。2017年9月,教育部、财政部、国家发展改革委研究并报国务院批准,公布了“双一流”建设高校及建设学科名单[2],其中包括一流大学建设高校42所、一流学科建设高校95所,进一步为我国高校建设做出了明确部署。世界一流大学的建设需要以一流学科建设为基础,因此选择恰切的学科布局及其战略显得尤为关键。

基于国际视野的学科评价无疑是学科建设中的重要环节,而基本科学指标数据库(Essential Science Indicators,ESI)是当前世界范围内普遍用以评价学术机构、国家或地区学术水平及影响力的重要工具。ESI是由美国科睿唯安科技信息集团(原汤森路透公司)推出的基准评价数据库,根据研究主题划分了22个学科领域,其数据来源为近十年Web of Science(WoS)数据库核心合集(SCIE/SSCI)中收录的学术论文(论文类型为Article和Review)[3],主要通过论文被引频次、论文数、篇均被引频次等指标,分别对国家、机构、期刊、研究员的学术水平进行分析。近年来,InCites数据库作为ESI数据库的辅助和补充,也受到了广泛关注和应用。InCites数据库是科睿唯安科技信息集团在汇集和分析WoS数据库(SCIE/SSCI/A&HCI)引文数据基础上建立起来的科研评价工具,能综合各种计量指标,具有全面的数据资源、多元化的指标体系和丰富的可视化效果[4-5]。许多学者都利用ESI与InCites数据库,研究学科分布结构、学科发展模式、学科校际布局等,为高校的学科建设提供理论基础和数据支撑。董政娥等[6]基于ESI和InCites数据库引文分析,引入学科区位商,在跟踪其ESI学科以及高被引论文、热门论文和顶尖论文的基础上,探讨图书馆支持高校学科评价和管理决策等方面的服务模式。王婧等[7]以ESI数据库高水平论文数据为基础,从地区分布、科研竞争力、研究领域、区域合作等多角度对我国各地区的“双一流”及非“双一流”高校进行计量分析,建议高校根据自身特色针对性发展特色学科、差别化建设。邓小茹[8]采用Incites数据库和ESI数据库,通过对国家自然科学基金项目的资助发文情况进行耦合分析,寻找近年的热点研究方向、某机构或某学科的研究优势,挖掘出其最热或最具优势的课题定位,提升“双一流”学科建设中的“暗数据”可视综合情报分析能力。本文对ESI与InCites数据库在学科建设中的研究进展动态进行分析梳理,以期能通过完整、及时、客观、直观的数据分析,揭示其动态和热点,为高校学科建设提供一定的参考。

二、数据获取与研究方法

数据来源的可靠性与可获取性是数据采集的重要因素,因此本文选取中国知网(CNKI)数据库作为数据来源。本文中采用同源数据进行分析,以保证统计过程的针对性、准确性、可比性与累计性。数据检索起止时间段设定为“不限”,通过“主题”与“篇名”两种途径,采用“ESI”“InCites”作为主要检索词,组配“学科”“评估”“评价”“发展”“高校”“大学”“双一流”“科研”“绩效”“竞争力”“影响力”“优势”“高被引”等检索词(组配逻辑为“AND”)的方式进行检索(检索时间为2019年4月23日),经过筛选去除与主题相关性不大的文献,检索得到475条期刊文献信息。

本文利用SATI(Statistical Analysis Toolkit for Informetrics)分析有关我国ESI与InCites数据库在学科建设中的应用的论文的研究主体力量分布,主要包括论文发表核心著者、机构、时序、期刊等。本文利用Citespace对有关我国ESI与InCites数据库在学科建设中的应用的论文进行关键词共现聚类分析,得到可视化知识图谱,采用的软件版本为CiteSpace 5.2.R2,参数设置中时间跨度设置为2003—2019年,时间切片为1年,节点类型选择关键词,阈值选择Top N 50,运行结果采用LLR算法提取聚类标签。

三、论文统计分析

(一)研究趋势分析

论文的发表时间分布可以在一定程度上反映该领域学术研究的理论水平和发展进程[9]。近年间关于ESI与InCites数据库在学科建设中的应用的论文,其发表时间分布情况如图1所示。可见,该领域的研究文献最早出现于2003年,随后进入缓慢的增长阶段,自2011年开始进入了第一个快速增长期,2013年论文数量达到第一个顶峰,而2014年略有下降,这一趋势符合D.普赖斯的Logistic增长模式,第一个高峰过后论文的数量可能会趋于平缓,进入饱和期[10];但自2015年论文数量又恢复了增长,且增幅较大,这主要是由于2015年国务院提出了“双一流”建设,使基于ESI与InCites数据库的学科建设成为新的研究热点,且目前仍处于上升时期。这一变化趋势表明人文社会科学的知识积累呈现出往复式的增长方式[11]。研究论文分布于185种期刊中,其中发表5篇以上文献的期刊有25种,其发表论文数占全部论文的49.89%,呈现出较高的集中趋势。载文量前三的期刊分别为《情报探索》《农业图书情报学刊》《现代情报》,核心刊物的出版主题主要为图书情报与数字图书馆,并涉及出版、高等教育、管理学、基础科学综合等主题。

图1 论文发表趋势分布

(二)研究作者分析

利用SATI按第一作者统计了研究者的发文量,在检索所得文献中共有作者356名,发文量较高的作者(按第一作者统计)分布情况如表1所示。根据情报学家普赖斯的理论,核心作者为在某一研究领域进行持续的研究、且对该领域的研究者产生一定影响的作者[12],从定量的角度,核心作者发文量计算公式为:,其中:M核心作者最少发文篇数;nmax为发文最多的作者论文篇数。计算可知,核心作者发文量M=3.669,即发文量在4篇以上的作者为核心作者。表2中前8位作者为核心作者群,主要分布在高校图书馆、信息管理系、高校发展规划机构与期刊编辑部等。其中,发文量最多的邱均平教授为我国著名情报学家和评价管理专家、文献计量学的主要奠基人之一,成果丰富。

表1 发文量大于等于3篇的作者分布

(三)研究机构分析

利用SATI按照论文中作者的署名机构统计了研究机构的发文量,发文量大于或等于4篇的研究机构分布如表2所示。统计的结果显示,高校图书馆为主要研究机构,机构排名依次为武汉大学中国科学评价研究中心、东华大学图书馆、南京航空航天大学图书馆、大连理工大学图书馆等。其中,邱均平教授所在的武汉大学中国科学评价研究中心在该研究领域的处于领先、权威地位。表2与表1的顺序并不完全一致,主要由于有些机构在该领域的发文量较大,形成了研究团队,但每个作者相关论文较少;或有些作者在多个机构任职,在不同论文中署名的第一机构不完全相同。

表2 发文量大于等于4篇的机构分布

(四)关键词聚类分析

关键词反映了某研究领域在一定时间段内的研究主题,将关键词聚类并可视化,将帮助我们从整体上了解ESI与InCites数据库在学科建设中应用的研究主题分布。利用CiteSpace进行关键词共现聚类分析,采用LLR算法对聚类命名,运行结果如图2所示。CiteSpace依据网络结构和聚类的清晰度,提供了模块值(Modularity Q,Q)和平均轮廓值(Mean Slihouette,S)两个指标[13];模块值为网络模块化评价指标,Q的取值区间为[0,1],当Q>0.3时得到的网络社团结构是显著的;平均轮廓值是用来衡量网络同质性的指标,当S>0.5时聚类结果是合理的,当S值为0.7时,聚类是高效率令人信服的。本次运行结果中,Q=0.4077,S=0.721,可见通过关键词共现聚类获得的知识图谱是合理的。

图2 关键词聚类知识图谱

表3列出频次大于20的关键词信息。CiteSpace根据关键词共现挖掘,可获得的6大聚类,其中聚类标签根据关键词提取,标注数字代表聚类编号(Cluster ID),聚类编号越小,表示该聚类的经典文献数量越多,包含的节点数量越大[14];相似性(Slihouette)表示经典文献之间的相关程度,平均年份[Mean(Year)]可反映聚类中文献的时效性[15]。6大聚类的平均年份分布于2013—2017年,具有较强的时效性,说明有关我国ESI与InCites数据库在学科建设中的应用在近年来得到了广泛的关注。图2显示,6大聚类关系非常紧密,结合阅读文献,可以归纳出机构科研竞争力评价、学科科研绩效分析与发展趋势预测、学科高被引论文计量分析与前沿研究三大研究主题。

表3 高频关键词信息

四、研究热点分析

(一)机构科研竞争力评价

在“双一流”建设背景下,应用ESI及InCites数据库的各项指标对机构科研实力进行剖析,从而为机构发展提供参考是目前研究的一大热点。邱均平教授[16]提出了四个维度的综合指标体系,包括科研生产力、科研影响力、科研创新力与科研发展力,具有权威影响。吴爱芝等[17]以文献计量方法为基础,从多角度、多渠道对数据进行整合分析,开展学科竞争力评价方法的研究,形成一套合理的、可供推广和复用的系统性评价方法和报告模式。许多学者运用ESI及InCites数据库的指标对特定区域或集群高校或单一机构的科研实力进行了分析。例如,徐娟[18]基于InCites数据库,从发文数量、引用率、社会影响力、决策影响力四个角度,分析对比了我国高校科研竞争力在1981—2013年的变化趋势;田稷等[19]选取中国中国大陆九校联盟(China Nine,C9)及世界典型研究型大学联盟为研究对象,基于信息计量学特征的统计与分析,探究世界一流研究型大学及其联盟的整体概况和主要特征,揭示我国一流大学联盟与国外一流大学联盟的差距;闫文轩[20]利用ESI数据库,从地域分布、论文量、被引频次、高被引论文和热点论文以及学科类别等方面,对入围ESI的“985工程”高校学术影响力进行了分析;胡雯[21]基于ESI数据平台建立了科研评价指标体系,以湖北省进入ESI排名的所有高校为研究对象,从各高校的论文产出角度来分析其科研竞争力现状。这些研究成果在国家、地域、学科领域等不同层面,对科研机构的实力进行分析比对,从而为其提供客观的定位和合适的发展策略。

(二)学科科研绩效分析与发展趋势预测

ESI根据研究主题划分了22个学科领域,是否进入ESI世界排名前1%是衡量科研机构学科实力的重要指标。基于ESI及InCites数据库的各项指标识别优势学科,并进行跟踪分析是图书馆学科服务的重点之一。蒋德凤[22]采用Incites数据库的连续数据对广西大学ESI学科进行了动态性评价和持续追踪分析;刘敏[23]以浙江省高校进入ESI全球前1%学科为研究对象,对2017年1月至11月的6期ESI数据进行计量分析,通过ESI指标来展现浙江省高校学科的发展现状及趋势。通过对学科的分析评价,判断学科发展趋势,预测潜力学科进入ESI世界前1%排名的可能性是当前一个重要应用,可为学科培育方案提供参考。例如,侯志江[24]提出一种基于InCites数据库直接获得机构排名信息的方法,绕过了被引频次,获得基于学科发展态势的入围ESI前1%的时间预测方法;董政娥等[25]采用ESI和InCites数据库,在探讨东华大学优势学科特征、高引用率论文、热门论文和顶尖论文与学科发展关系分析的基础上,对后续学科进入ESI世界前1%排名进行了预测;秦萍等[26]应用灰色系统理论,依据InCites数据建立GM(1,1)模型,通过模型的拟合分析,预测未来若干年高校潜力学科高水平论文的发展趋势,并进行了实证研究;苏光耀[27]则对灰色GM(1,1)模型进行改进,形成等维递补GM(1,1)模型,对高校潜势学科的发展进行预测。

(三)学科高被引论文分析与前沿研究

ESI的统计数据两个月滚动更新一次,持续关注某学科领域的ESI高被引论文,有助于揭示该学科的研究现状,跟踪该学科领域的研究热点与前沿,从而为科研人员提供研究方向和参考。周群等[28]提出一种基于学科前沿性的科研机构评测方法,基于ESI中学科研究前沿的共被引关系,构建研究前沿的共被引矩阵,利用VOSviewer生成学科研究前沿的全局知识图谱,并以中国农业大学为例进行实证分析。马倩等[29]采用6期ESI数据,分别从论文年份、学科和引文阈值的角度,分析全球高被引论文的整体动态、新增论文及剔除论文的变化特征,剖析全球高被引论文的动态变化现象和特征。许多学者针对某单一学科的高被引论文进行分析,试图为该学科的发展做出总结与展望。例如,李晓红[30]基于ESI对2002~2012年我国高被引化学类论文进行了分析研究,揭示了我国化学学科的分布及研究状况;刘月雷等[31]利用ESI基本科学指标数据库对2004—2014年地球科学领域的文献进行了计量分析,通过对国家和地区、研究机构、期刊、科学家、高被引论文、热点论文、顶级论文、研究前沿、基线等各项指标统计分析,为我国地球科学领域研究提供参考;雷蕾[32]采用文献计量方法分析了语言学领域的ESI高被引论文,从国际高质量论文的视角,为语言学一流学科建设提供参考;张娜[33]对2006—2016年ESI计算机学科的高被引论文进行文献计量研究,以了解和评价国际计算机学科目前的研究现状、研究热点和发展趋势;李荣等[34]对妇产科学ESI高被引论文的数量特征和内容特征进行分析,探索全球范围内妇产科学研究中最受关注的热点与前沿,为我国妇产科学研究的发展提供借鉴。通过对学科高被引论文与前沿研究的分析,呈现出学科的知识结构与布局,可以在研究领域的层次评价学科的科研竞争力,弥补单纯采用文献计量指标评价机构科研绩效的不足,具有重要的参考作用。

五、结语

大数据时代,合理挖掘和利用ESI和InCites数据库的各项指标与数据,支持一流学科发展、建设一流高校是当前的主流趋势。在高水平学科建设中,针对机构科研竞争力、学科科研绩效与发展趋势、学科高被引论文与研究前沿等,图情部门或发展规划部门进行动态、定期跟踪分析,对学科发展方向进行合理规划,从而制定出合适的科研激励政策是十分必要的,能够有效提高其核心竞争力,也有利于获得更多的政策与财政支持。不可忽视的是,科研活动和学科建设具有复杂性和多样性,在运用ESI和InCites数据库时,需要注意以下问题:(1)针对不同区域、不同类型、不同发展时期的高校,对学科建设标准进行动态调整,有针对性地选择ESI 1%或ESI 1‰作为评价指标;(2)认识到ESI体系在学科分类上的局限性,合理使用包含包括ESI分类、Web of Science分类和中国国务院学位办学科分类SCADC等学科分类体系的InCites数据库,从一定程度上弥补ESI体系的局限性;(3)ESI从引文分析角度对科研绩效进行评价,其数据没有排除自引,导致有机构或学者可能通过增加自引而提高排名;同时ESI数据没有区分论文的第一作者和主要完成机构,对于参与完成研究的作者与机构给予了相同的评价,导致评价结果的偏差,在学科建设中需要仔细甄别此类情况,而不能唯排名论;(4)“高被引”在一定程度上代表了科研成果的影响力,但并不完全等同于“高质量”,对研究成果的评价还需要结合期刊的影响力、同行评议的结果等进行综合评价;(5)在学科建设中,不仅仅要关注学术产出的水平和状态,也需要关注学科组织本体,并将学生满意度、社会贡献度等指标纳入评价体系。综上所述,研究者们需要综合运用各项指标而非单一指标进行解析,注重样本数据完整性、时效性,尽量客观展现学科表现的全貌,进而选择恰切的学科布局及战略。

猜你喜欢

聚类论文数据库
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
数据库
数据库
基于Spark平台的K-means聚类算法改进及并行化实现
数据库
数据库
基于改进的遗传算法的模糊聚类算法
下期论文摘要预登
下期论文摘要预登