Excel在学科服务中的应用
2017-09-13樊利勤曹红兵
樊利勤+曹红兵
[摘 要]以廣西大学工程学学科为例,以SCIE数据库为依据,运用Excel对数据的排序、筛选、分列、替换以及函数统计等统计方法,对SCI论文中的机构、作者、学院等字段进行处理,并借助Excel对作者、地区和机构合作、发表期刊、论文与年代关系、学院贡献等数据进行深入分析,为学校支持学科发展和制定学科建设规划提供参考,同时深化Excel在学科服务的应用,推动文献计量学的普及。
[关键词]Excel;学科服务;广西大学;工程学
[中图分类号]G252[文献标志码]B[文章编号]1005-6041(2017)03-0054-05
1 引 言
教育部2013年工作要点中提出了“推进优势学科创新平台和特色重点学科项目建设,加快建设一流大学和重点大学”的高校建设目标与要求。2015年10月,国务院印发《统筹推进世界一流大学和一流学科建设总体方案》,强调了坚持“以一流为目标、以学科为基础、以绩效为杠杆、以改革为动力”的基本原则,加快建成一批世界一流大学和一流学科[1]。2016年2月,《教育部2016年工作要点》中进一步要求,要“加快世界一流大学和一流学科建设”,制订“双一流”实施办法[2]。在这样的背景下,全国各个高校都非常重视本校的学科建设,纷纷集中建设自己的重点学科,研究合理投入和分配资金,整合和调节学科资源。而这项工作的前提和基础是必须进行学科评估。于是,学科评估工作开始在各高校逐渐受到重视并广泛开展起来。
SCI(Science Citation Index,科学引文索引)论文及其引用是国际通行的一种对自然科学基础研究成果进行评价的客观、定量和易操作的指标,它在衡量国家、科研机构或大学的科研实力,评价科研人员学术水平等方面发挥着重要的作用[3]。一所高校被SCI数据库收录科技论文的数量和质量成为了评价该校科研水平和综合研究能力的重要依据。而SCI论文的统计非常花费时间和精力,往往需要借助比较专业的统计分析工具才能顺利完成。本文以广西大学工程学学科为例,详细介绍Excel对SCI论文中的机构、作者等不同字段的程式化处理方法,并从学科服务角度对工程学学科的作者、地区和机构合作、发表期刊、论文与年代关系、学院贡献等关键数据进行提取和深入分析,有利于学科服务评价工作的开展,也为相关部门支持学科发展和制定学科建设规划提供基础数据。
2 数据与方法
2.1 数据采集
本文数据来源于Web of Science中的SCIE(SCI-Expanded,科学引文索引扩展版)数据库,检索式为:AD =guangxi univ* and SO=“4OR-A Quarterly Journal of Operations Research”or“ACI STRUCTURAL JOURNAL”or……or“tm-Technisches Messen”等ESI工程学学科907种刊物,文献出版年为2005—2015,文献类型为Article、Review和Letter,检出文献381篇。采用Excel对检出文献进行统计,根据作者、通讯作者及地址项,析出第一作者或通讯作者为广西大学的数据。最后,根据广西大学科研管理系统中列出的论文标题,对析出数据进行清洗,归并不同英文表达的第一作者和通讯作者。数据检索日期为2016年1月20日。
在SCIE数据库中,将检索到的文献结果按照被引频次降序方式进行排序,选择文献添加到标记结果列表,然后在标记结果列表中选择输出选项,导出格式采用“保存为其他文件格式——制表符分隔(Mac,UTF-8)”,将结果导入Excel表格中进行统计。
2.2 数据处理和统计方法
2.2.1 文献第一作者的切分处理。将原始数据导入到Excel表格中后,按照下载的文献排序顺序给每篇文献相应的序号,便于后续统计的对应。然后将数据的序号和字段标识为AF的内容复制到新的Excel表格,利用Excel表格中的分列功能,选用分号分隔符将文献的第一作者分开,从而得到文献的第一作者。
2.2.2 广西大学机构的切分处理。将数据的序号和字段标识为C1内容复制到新的Excel表格。以Guangxi Univ为目标机构,首先使用Excel表格中的替换功能,将C1内容中包含有“Guangxi Univ”的检索记录全部替换为“!Guangxi Univ”,再利用Excel表格中的分列功能,选用“!”分隔符将Guangxi Univ机构分开,便可得到包含有Guangxi Univ的目标机构。在处理数据的过程中,添加“!”是为了在分列时区分于原数据中的标点符号,更方便于分列。
2.2.3 广西大学通讯作者切分处理。将数据的序号和字段标识为RP内容复制到新的Excel表格。以Guangxi Univ机构的通讯作者为目标通讯作者。首先使用Excel表格的查找功能,查找RP内容中包含有Guangxi Univ机构的检索记录,并将记录标上颜色做记号,然后使用Excel表格的筛选功能,按颜色筛选出没有标上颜色记号的检索记录,清除内容即可得到包含有Guangxi Univ机构的检索记录,最后再Excel表格的分列功能,分别选用“(”和“)”分隔符号分列,就可以将通讯作者和广西大学机构分开。
2.2.4 广西大学机构第一作者的切分处理。将数据的序号和字段标识为C1内容复制到新的Excel表格。以Guangxi Univ为目标机构,使用Excel表格的分列功能,先选用“[”作为分隔符号对C1内容进行分列,得到2008年以前(含2008年)和2008年以后的分列记录,然后分别对2008年以前(含2008年)和2008年以后的分列数据进行处理。由于Web of Science(SCI、SSCI)数据库中2008年以前(含2008年)C1内容中的机构没有带文献作者,故需要人工添加作者,通过合并和分列功能处理,得到Guangxi Univ目标机构。对2008年以后的分列数据进行处理,则是对切分出来的2008年以后数据的前三列数据,首先使用Excel表格的查找功能,查找2008年以后的分列数据中包含有Guangxi Univ机构的检索记录,并标上颜色做记号,然后使用Excel表格的筛选功能,按颜色筛选出没有标上颜色记号的检索记录,清除内容即可得到包含有Guangxi Univ机构的检索记录,再利用合并和分列功能将作者和机构分列,对作者进行分列,选择分列后的第一列作者即是Guangxi Univ目标机构2008年以后数据的第一作者。最后把2008年以前(含2008年)和2008年以后的作者、机构按照序号的对应合并,并与文献第一作者进行比对,就是Guangxi Univ目标机构第一作者。endprint
2.2.5 通讯作者被引频次和发文量的统计方法。将下载的原始数据字段标识为TC的内容复制到切分好的通讯作者结果中,然后使用Excel表格的排序功能,按照通讯作者升序或降序排序,将排序后的通讯作者复制粘贴在同一Excel表格中,使用Excel表格的删除重复项功能去除通讯作者中拼写相同的通讯作者,最后使用sumif函数统计通讯作者的被引频次。通讯作者发文量的统计使用Excel表格的数据透视表功能。
2.2.6 广西大学第一作者被引频次和发文量的统计方法。将下载的原始数据字段标识为TC的内容复制到切分好的目标机构第一作者结果中,使用Excel表格的排序功能,按照目标机构第一作者升序或降序进行排序,统一第一作者中同一作者的不同拼写方式,然后统计目标机构第一作者的被引频次和发文量,统计方法与通讯作者被引频次和发文量的统计方法一样,故不再重复。
3 结果与分析
3.1 高产作者
论文发文量衡量的是科研人员的“学术生产力”[4]。对于从事基础研究的人员,发表论文的数量和质量可以反映其个人对学术界的贡献[5]。表1是广西大学工程学发文数量最多的10位作者,同时统计了署名广西大学第一作者或通讯作者的发文量,有助于了解广西大学自主创新的能力。表中显示,广西大学工程学学科个人发文量在10篇以上的作者有5位,分别是Chen Wuhua、Jian Jinbao、Zhong Xianci、Yang Lufeng、Cui Yaodong。其中发文贡献最大为Chen Wuhua,发文32篇,贡献率为8.40%,其署名第一作者或通讯作者的发文量是22篇。第二是Jian Jinbao,发文20篇,贡献率5.25%,第一作者或通讯作者的发文量是9篇。第三是Zhong Xianci,发文18篇,发文贡献率为4.72%,第一作者或通讯作者的发文量是13篇。再次是Yang Lufeng和Cui Yaodong,发文量分别是17篇和14篇。表明了这些作者是广西大学工程学科研实力最强的作者。
3.2 高影响力作者分析
科技论文的被引情况是衡量其质量和国际影响力的重要标准。对某一研究领域來讲,质量较高的论文一般都具有较高被引频次。一定程度上,科技论文被引用频次的高低不仅揭示论文的学科走向、背景状况和发展轨迹,客观评价论文质量和科研人员的学术水平,还在于其可以评价论文在国际上的影响力[5—7]。广西大学工程学学科在2005—2015年发表了381篇文献,有277篇被引用至少1次以上,被引用率达72.7%。表2是广西大学工程学SCI论文被引频次最多的前10位作者。表中显示,Chen Wuhua对工程学学科的贡献最大,个人总被引频次778次,贡献率为29.68%;其次是Zheng Wei-xing,个人总被引频次526次,贡献率20.07%;再次是Lu Xiaomei,个人总被引频次291次,贡献率11.10%。表明了这些作者为广西大学工程学学科进入ESI学科并一直保持ESI优势学科做了很大的贡献。
3.3 SCI论文合作情况分析
在科学研究中,国家间、地区间、单位间的合作显得越来越重要。2005—2015年10年间,广西大学工程学学科被SCI收录的论文中,合作机构有142个。按照合作论文数量进行统计,合作最为频繁的科研机构是中国科学院和西悉尼大学(17篇),如图1,其次是广西民族大学(15篇)、华中科技大学(15篇)、华南理工大学(10篇)、清华大学(10篇)。前10个合作机构的论文数量是113篇,占全部合作论文总数的30.62%。
广西大学与国际上20个国家或地区合作,合作论文139篇,占工程学学科发文量的36.48%。如图2,其中合作论文数超过20篇的国家有3个,分别是英国32篇,合作论文占比8.40%,澳大利亚27篇,合作论文占比7.09%,美国26篇,合作论文占比6.82%。
3.4 SCI收录广西大学论文期刊的影响因子分析
影响因子是SCI对科学期刊进行统计、评估的一个参数,决定了各期刊在“期刊引证报告(JCR)”中的排序和级次。某一期刊在某年的影响因子是指该年度引用该期刊前两年论文的总次数与前两年该刊物发表的论文总数之比[8]。本文所引用的SCI收录期刊的影响因子依据是2015年美国科学信息研究所公布的数据。2005—2015年广西大学工程学学科SCI论文分布在159种期刊,其中国内刊物8种,共收录22篇,占论文总数的5.77%;国外刊物151种,共收录论文359种,占论文总数的94.23%。期刊影响因子最高的刊物是IEEE TRANSACTIONS ON FUZZY SYSTEMS,影响因子为6.701,发文量1篇,该期刊在工程学学科的期刊影响因子中排名第7位,其次是JOURNAL OF POWER SOURCES,影响因子6.333,发文量7篇,该期刊在工程学学科的期刊影响因子中排名第10位。影响因子最低的刊物为,IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES,影响因子0.236,发文量1篇。名次居前的10种刊物影响因子平均值为5.142(表3)。但影响因子排位靠前的10种刊物中,仅刊载广西大学论文41篇,占SCI论文总数的10.76%。
2005—2015年SCI所收录的广西大学工程学学科381篇论文,其中研究论文379篇,综述2篇。SCI收录广西大学论文数量最多的10种刊物统计(表4),全部为国外刊物。这10种刊物的影响因子平均值为3.452。被SCI收录广西大学论文最多的刊物为“MATHEMATICAL PROBLEMS IN ENGINEERING”和“CHEMICAL ENGINEERING JOURNAL”,论文发文量分别为15篇和13篇;影响因子分别为0.644和5.310。因此,从总体上看SCI收录广西大学论文期刊的影响因子较低,所刊载论文在国际上的影响力也不大。endprint
3.5 SCI论文数量与年代发展关系的统计分析
从论文数量可以发现学校科研论文数量有了较大幅度提高,表明科研原创能力有了一定提高。广西大学工程学学科从2014年进入ESI全球前1%优势学科,至今,继续保持进入世界前1%的行列。图3显示,广西大学工程学学科在2005—2015年10年被SCI所收录的论文数量中,2015年被SCI收录的论文最多,收录了77篇,是2008年被收录论文的8倍多,论文的收录情况与年度发展发生了很大的变化,从2005—2008年,论文收录呈现下降的趋势,到2008—2015年,收录出现增长的趋势,特别是2013-2015年间,论文收录的增幅都比以往大。这与学校从教学型大学转型研究型大学,以及学校承担的各类科研课题数量增多、学校科研水平和实力整体快速发展是密切相关的。
3.6 学院贡献度分析
学科贡献度分析有助于对机构内二级单位学科规划与调整。以广西大学工程学学科为例,分析各二级单位(包含二级学院和国家级重点实验室)对工程学学科的SCI论文贡献度,得到该学科涉及校内15个单位。对工程学学科贡献比较大的单位主要集中7个单位(见表4),其中数学与信息科学学院贡献度最大,其发表论文数量109篇,贡献度占比29.54%,其次是土木建筑工程学院,其发表论文数量60篇,贡献度占比16.26%。
4 总结与讨论
Excel是一种常用的办公软件,方法简单易用,数据呈现直观,深受用户喜欢,且不需要经费购买,为图书馆节约了经费。虽然有文章提到使用Excel对SCI论文及其引用数据进行处理,但操作方法语焉不详。本文通过详细介绍Excel在学科服务统计中的操作步骤和具体应用,对于刚刚开展或即将开展学科服务的大学有一定借鉴意义。通过综合Excel对数据排序、筛选、分列、替换以及函数统计,轻松地把繁琐的SCI论文字段信息按照要求进行切分处理,但在切分处理时要注意以下几点。
(1)按照下载的文献排序顺序添加记录序号,并且每次按要求切分处理时都要跟着序号,这样才能保证论文字段跟切分的字段内容不会错乱,也方便排序。
(2)论文字段内容切分处理时最常用的功能是Excel表格的分列功能,那么在分列时要注意选择相应的分隔符。
(3)在使用Excel表格的筛选功能时,需要做相应的标记,便于把需要的内容筛选出来。
(4)作者统计时,归并同一作者不同的英文表达方式,便于重复项的去除。
Excel在处理SCI论文方面具有独到的优势,如何在学科服务中更好地发挥它的功用,仍需要不断地学习和摸索,今后可以通过研究Excel在共词分析、聚类分析等复杂数据的分析,获取研究热点,同时,还可以通过研究更多的SPSS等常用软件在学科服务中的应用,借此推动文献计量学的普及和应用。
[参考文献]
[1]国务院关于印发统筹推进世界一流大学和一流学科建设总体方案的通知[EB/OL].[2016-11-16].http:∥www.gov.cn/zhengce/content/2015-11/05/content_10269.htm.
[2]中华人民共和国教育部.教育部2016年工作要點[EB/OL].[2016-11-16].http:∥www.moe.edu.cn/jyb_xwfb/moe_164/201602/t20160205_229511.html.
[3]师昌绪,田中卓,黄孝琪,等.科学引文索引(SCI):国际上评定科研成果的一种方法[J].科学通报,1997(8):888—894.
[4]贾 洁.基于SCI的学术研究发展分析[J].情报科学,2009(4):581—587.
[5]董政娥,徐惠华,陈惠兰.基于SCI-E数据库分析东华大学科研发展[J].东华大学学报(自然科学版),2009(5):601—608.
[6]张 羽.1958—2003年SCI(科学引文索引)收录辽宁大学论文统计与分析[J].辽宁大学学报:自然科学版,2005(1):82—85.
[7]邱嘉怡.2000—2006年SCI收录和引用中山大学论文情况分析[J].科技情报开发与经济,2008(3):3—5.
[8]匡登辉,王娟萍.从2007年SCI收录南开大学论文看学科发展[J].图书馆工作与研究,2009(5):74—78.endprint