ESI高被引论文视角下图情学科的发展与创新
2016-03-22
[作者单位]南京航空航天大学图书馆,江苏 南京 211106
ESI(Essential Science Indicators)是基于SCI和SSCI的衡量科学研究绩效、跟踪科学发展趋势的重要分析评价工具[1-2]。ESI高被引论文是各学科领域被引频次最高的前1%的论文,是国内外公认的高水平研究成果,因此ESI高被引论文数已成为一流学科的重要评估指标之一。本文以ESI高被引论文为切入点,探索近10年来全球范围内图情学科的发展情况,为我国图情学科的发展提供参考。
学术界早已认识到ESI高被引论文的研究价值,并已对材料学[3-4]、医学[5-6]等学科的ESI高被引论文进行了计量分析。目前尚未见有学者对图情学科的ESI高被引论文进行研究。
以往对ESI高被引论文的研究往往是从期刊、机构、作者等文献的外部特征入手,较少深入到论文的内容层面。ESI高被引论文代表着各学科领域的研究热点与前沿,对其内容进行分析无疑对明确学科发展方向有重要意义。因此,本文不仅对图情学科ESI高被引论文的数量特征进行了分析,还对其内容特征进行深入挖掘。
1 数据来源与方法
1.1 数据来源
本文数据来源于Web of Science(WOS)核心合集。首先在WOS核心合集中检索图情领域的研究论文,检索式为WC=“Information Science & Library Science”,共得到405 296篇文献;然后在检索结果页面中选择“ESI精炼”,将检索结果中的高被引论文筛选出来,共得到图情领域的ESI高被引论文356篇。ESI的统计数据以10年为1个周期,每两个月滚动更新一次,本文检索时间为2016年4月20日,检索到的ESI高被引论文时间跨度为2005-2015年。
1.2 分析方法
本文从数量特征和内容特征两个层面对图情学科的ESI高被引论文进行分析。
数量特征分析着眼于ESI高被引论文的被引频次、国家分布和机构分布,并对机构ESI高被引论文数与h指数进行相关分析,为评估我国高校图情学科的发展提供参照。
内容特征分析从构建引文网络入手,提取356篇ESI高被引论文间的引用关系,利用社会网络分析工具Ucinet对引文网络进行可视化,然后用Pajek对引文网络进行主路径分析。主路径分析首先计算每个研究起点(最初发表的文献)指向每个终点(最新发表的文献)的所有途径,然后计算每个节点(文献)或边(引用关系)位于的路径条数。这个数值被称为遍历计数,通过归一化处理后得到相应的权值,称为遍历权值。遍历权值是每条边在引文网络中重要性的体现,其最高的路径即为主路径。通过对大型网络的主路径分析可以实现海量数据的降维处理,从而得到领域演化的基本骨架[7]。董克等人[8]采用主路径分析筛选出了对网络计量学领域发展延续最重要的文献,韩毅[9]利用主路径算法识别出国外知识管理领域发展的脉络。本文通过主路径分析识别ESI高被引论文中的重要文献,进而探索其研究内容发展演化的骨架结构。
2 结果分析
2.1 ESI高被引论文的数量特征
2.1.1 被引频次
对356篇ESI高被引论文的被引频次进行统计,发现其最低被引频次是4次,最高被引频次是964次,平均每篇论文被引126次,50%的论文被引频次不低于93次。图情学科ESI高被引论文的最低被引频次逐年下降,由2005年的142次降低到2015年的4次。
2.1.2 国家分布
对图情学科ESI高被引论文的国家分布的分析结果显示,美国ESI高被引论文共210篇,占总量的近60%,遥遥领先于其他各国;荷兰37篇;英国33篇;加拿大22篇;我国ESI高被引论文数为19篇,数量位居全球第五。将香港和台湾地区的高校排除后,我国大陆地区的高校图情学科仅有7篇ESI高被引论文。
2.1.3 机构分布
通过Incites数据库可获得国内外大学在图情学科的论文数量、总被引频次、h指数和ESI高被引论文数。ESI高被引论文数大于6篇的高校见表1。共有272所大学拥有图情学科的ESI高被引论文,对这272所大学的h指数和ESI高被引论文数进行相关分析,发现二者的Pearson相关系数r=0.671,p<0.01,二者呈显著正相关。ESI高被引论文是机构的高水平研究成果,h指数则反映机构的整体研究水平,二者都是机构科研实力的体现,因而会有较强的相关性。
国内共有280所高校的图情学科论文被WOS(Web of Science)收录,对各高校图情学科的研究水平进行分析,发现有7所高校发表了ESI高被引论文,有9所高校h指数大于10(表2)。
由于ESI高被引论文数和h指数的显著相关性,北京大学、复旦大学等高校h指数较高,在国内处于领先地位,有望在未来实现图情学科ESI高被引论文零的突破。
从表1和表2,可以发现,我国高校无论是ESI高被引论文数、h指数、WOS论文总数还是总被引频次都远远落后于国外顶尖高校,我国图情学科距离世界一流水平还有较远的距离。
表1 图情学科ESI高被引论文>6篇的高校
表2 我国高校发表图情学科ESI高被引论文发表情况
2.2 ESI高被引论文的内容特征
2.2.1 引文网络的构建
提取356篇ESI高被引论文相互间的引用关系,构建引文网络,网络密度为0.004。网络中共有356个节点,其中有79个节点为孤立节点,表示有79篇论文与本数据集其他论文不存在引用或被引关系。删除孤立节点后,共得到3个规模较大的子网,共包含277个节点(图1)。图1中以论文编号、论文作者、发表年份作为节点标签,节点大小与其特征向量中心度成正比,箭头方向从施引文献指向被引文献。
图1 ESI高被引论文间的引用网络
2.2.2 引文网络的主路径分析
对这3个子网分别进行主路径分析,得到3条引文网络主路径(图2),每条主路径都代表着图情学科的一个核心研究方向。
图2 引文网络主路径分析
2.2.2.1 主路径1:h指数及其扩展指标研究
子网1有219篇节点文献,其中12篇构成了该子网的主路径。这一路径由Bornmann、Egghe等专家主导,关键节点文献的内容主要集中于h指数及其扩展指标的研究。
Batista[10]2006年提出了个人h指数,基于篇均作者人数对 h指数进行标准化处理,为不同学科的作者比较提供了新思路。Braun[11]2006年扩展了h指数的应用范围,将h指数应用于对学术期刊影响力的评价。Cronin[12]2006年使用H指数测度了信息科学领域研究人员的学术影响力。Egghe[13]2006年建立了h指数的信息计量模型,提出了g指数[14],并于2010年对h指数的研究与应用进行了回顾[15]。 Bornmann[16]2007年回顾了学术界对h指数效度的研究,总结了h指数的优势和不足;2008年又对h指数做了进一步完善,提出m指数[17]。到2011年,他又对h指数及其37种扩展指标的相关性进行了Meta分析[18]。
Sidiropoulos[19]2007年指出了h指数的几点不足,在h指数的基础上提出了新的引用指标,并验证了其有效性。Harzing[20]2009年提出用Google Scholar作数据源测定期刊h指数,比影响因子更能准确地评估期刊的影响力。Waltman[21]2012年提出h指数不适合用于对科学家的整体学术影响力的评价,并对能替代h指数的指标进行了讨论。
对学术论文、期刊和科研人员的科学评价始终是学术界关注的焦点,h指数及其扩展指标研究是图情学科对学术界的重要贡献,对提高本学科影响力有着重要意义。
2.2.2.2 主路径2:临床决策支持系统研究
子网2有24篇节点文献,其中8篇构成了该子网的主路径,关键节点文献的内容集中于对临床决策支持系统的研究。
Poissant 等人2005年分析了电子病历对医生和护士效率的影响[22]。Shah等人 2006年研究了电子药物处方系统,致力于提高该系统的接受度[23]。Campbell 等人2006年对临床电子医嘱(CPOE)系统带来的负面影响进行了分类,并分析了产生负面影响的原因[24]。Kuperman等人 2007年在文献回顾的基础上,为医疗机构、知识库供应商、政府部门和研究人员有效利用基于CPOE的临床决策支持系统提出了相应的建议[25]。Schedlbauer 等人2009年对电子药物处方系统的有效性进行了研究[26]。Ammenwerth 等人2008年研究了CPOE在减少用药差错和药物不良事件中的作用[27]。Jaspers等人分析了临床决策支持系统对医疗人员效率和病人健康产出的影响[28]。Bell等人研究了基于药物遗传学检测的临床决策支持系统,对该系统的研发、使用和效果评估进行了介绍[29]。
2.2.2.3 主路径3:医学数据挖掘
子网3有20篇节点文献,其中12篇构成了该子网的主路径,关键节点文献的内容集中于医学数据挖掘。值得注意的是,这12篇文献均为2009年及以后发表,是近几年图情学科新兴研究热点与前沿之一。
电子病历(Electronic medical records, EMR)产生于临床治疗过程,包含了大量与患者健康状况密切相关的医疗知识[30],因而对电子病历的临床数据进行分析和挖掘有着重要的应用价值。主路径3的节点文献主要研究对电子病历的数据挖掘,内容可分为两大类,一类是设计面向电子病历的自然语言处理系统和知识挖掘系统,另一类是直接研究医学数据挖掘的算法。
Weber等人[31]2009年提出了卫生研究信息网络标准,为面对建立临床数据中心查询工具的技术、管理和政策的挑战提供参考。Murphy[32]2010年介绍了Informatics for integrating biology and the bedside(i2b2)项目,该项目旨在为研究者提供必要的工具,以整合医疗记录和基因组学临床研究数据。Hripcsak等人[33]2013年对下一代电子病历系统的特征进行了展望。Uzuner[34-35]2010年对面向临床病历药物信息挖掘的自然语言处理系统进行了统计分析,次年又探索了电子病历中医学概念的抽取,以及概念间关系的识别与聚类问题。Savova[36]、Xu Hua等人[37]2010年分别设计了临床文本分析和知识挖掘系统(cTAKES)和自然语言处理系统——MedEx,并对系统的应用情况进行了评估。Nadkarni等人[38]2011年对自然语言处理技术和自然语言处理系统的设计进行了综述,展望了医疗界自然语言处理的未来发展。
Kho等人[39]2012年设计了一种专门的算法,用于对不同的电子病历系统进行数据挖掘,对2型糖尿病进行了全基因组关联研究。Carroll等人[40]2012年提出了一种算法,可从不同电子病历系统中快速识别类风湿性关节炎患者。Newton等人[41]2013年研发、实施并确认了13种电子病历挖掘算法的有效性。Tate等人[42]2014年探索了面向大规模电子病历数据的快速检索算法和直观检索界面。
主路径2和主路径3上的所有节点文献全部发表于JournalofTheAmericanMedicalInformaticsAssociation。在Web of Science的学科分类中,这些文献同时属于医学信息学(Medical Informatics)和图情学科(Information Science & Library Science)。
3 结论与建议
3.1 提高学术影响力,建设世界一流图情学科
我国图情学科的ESI高被引论文数远远落后于美国,大陆地区只有7所高校在图情学科发表了ESI高被引论文(7篇),明显少于国外一流名校,说明我国高校图情学科离世界一流水平还相去甚远。
武汉大学、南京大学等是已经具备较好学科基础的高校,有望在近年产出更多的ESI高被引论文。由于机构h指数和ESI高被引论文成显著正相关,北京大学、复旦大学、中山大学等高校图情学科的h指数均已达到10以上,显示出较高的科研水平,有望较快实现ESI高被引论文零的突破。国内高校应注重增强国际学术影响力,向世界一流学科靠近。
3.2 紧跟国际学术热点与前沿,凝练学科研究方向
本文通过对引文网络的主路径分析得到了图情学科的3个最受全球学者关注的核心研究方向——h指数及其扩展指标的研究、临床决策支持系统研究、医学数据挖掘。这3个研究方向集中了图情学科大量高被引论文,是近10年图情领域最受全球学者关注的研究方向,跟踪其最新发展动态可为国内图情学科进一步凝练研究方向提供依据。Bornmann、Egghe等专家发表的多篇ESI高被引论文,对图情学科各研究领域起着重要的引领作用,因此国内高校应加强与国外顶尖专家的合作交流。
3.3 医学信息学研究推动图情学科的发展与转型
国外图情研究的一个显著特点是用图情的视角研究医学领域的信息问题。与医学信息学的学科交叉研究成效显著,尤其临床决策支持系统、医学数据挖掘等研究方向都是医学信息学与图情学科交叉形成的研究领域,产出了多篇ESI高被引论文。这些交叉学科研究极大地拓展了传统图情研究的范围,预计在今后一段时间内仍会成为图情学科的增长点,为图情学科的创新发展与转型起到重要的推动作用。与国外相比,国内图情学科和医学信息学的交叉融合尚未足够深入,未来有着广阔的发展空间。