Incites与ESI在国家自然科学基金选题中的预测分析和探索实践
2018-08-11邓小茹
〔摘 要〕科研课题与学术论文之间存在着互相支撑的紧密关系,为探寻和利用已有的分析工具开展融通创新服务,合理挖掘各学科领域最热或最具优势的科研选题,在今后的实际工作中构建切实可行的定量预测模式,文章以学术论文分析工具对科研项目选题进行探索研究,舍弃现今人们常用的把ESI与Incites数据库对ESI学科和潜力学科分析工作上的固有模式,采用Incites数据库和ESI平台进行耦合关联,以申报国家自然科学基金项目的选题为例,对其近3年的资助发文情况进行统计,以定量分析高水平的SCIE/SSCI研究论文为出发点,结合更深层“暗数据”可视化信息加工方法,为科研课题的适当选题提供思路和借鉴,并为图书情报部门在高水平大学建设中的“暗数据”可视化综合情报分析与优势互补服务能力提升做出探索实践性研究。
〔关键词〕InCites;ESI;“暗数据”可视化;科研选题;文献计量学
DOI:10.3969/j.issn.1008-0821.2018.06.019
〔中图分类号〕G301 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0122-06
〔Abstract〕In this article,the author knew that research topics and academic papers had the close relationship between the support each other.In order to explore and utilize the existing analysis tools to carry out the financing innovation services,reasonable mining hottest interdisciplinary fields or the most advantage of research topics,in the future practice to build a feasible quantitative prediction model,it used the essay analysis tools to explore the research topics,discarding the commonly used inherent patterns of the ESI and Incites databases on the ESI discipline and the potential disciplinary analysis,using Incites database and ESI platform for the coupling relationship.It declared the National Natural Science Foundation of selected topics as an example,the statistics of the past 3 years the fund issued in the quantitative analysis,to study the quantitative analysis of a high-level SCIE/SSCI papers as a starting point,combining with the deeper“dark”data visual information processing method,suitable for scientific research subject topics provided ideas and reference,and books combining with a deeper“dark data”visualization information processing methods,to provide ideas and reference for the appropriate research topics,and for intelligence in the construction of high-level university for“dark data”visualization integrated intelligence analysis and the complementary service ability to ascend to explore practical research.
〔Key words〕InCites;ESI;“dark data”visualization;research topics;bibliometrics
当前,建设世界一流大学和一流学科(简称“双一流”)是国家和地区发展的一项国家级重点建设工程[1]。虽然在2017年9月21日,国家教育部、财政部、发改委首次公布了世界一流大学和一流学科建设高校及建设学科名单[2],但是,也明确指出这次的遴选认定结果不是一劳永逸的,并非“终身制”,这为图书情报机构的创新知识服务指明了方向。因而,各高校的图书情报服务部门几乎都实施了定期地对各类评价指标数据进行收集、整理和分析,以便对建设成效开展动态监测,為“双一流”建设不断积累经验。
作为基础学科研究较为活跃的高等院校,按照国务院2018年1月31日正式发布的《关于全面加强基础科学研究的若干意见》(国发〔2018〕4号文),明确提出“瞄准世界科技前沿,强化基础研究,深化科技体制改革,促进基础研究与应用研究融通创新发展”[3],结合不同领域和学科自身特点,积极开展新时期全链条科技创新工作,切实推进各类科技的创造与转化。根据2018年2月13日国家科技部、财政部联合印发的关于《国家科技资源共享服务平台管理办法》的通知(国科发基〔2018〕48号文)[4],图书情报部门可充分利用现有的信息资源和服务优势,提供专业化的知识服务,打造科技资源全链条服务体系,推动从资源管理向科技资源服务转变,提升服务质量和水平,为实现融通合作和创新发展贡献力量。
1 构建思路
通过国家自然科学基金委员会的科学基金网络信息系统ISIS,可初步完成对过往课题立项资助的信息分析,但仅有题目和学科分类等,除了中标率和成果归属统计等分析外,具体项目的研究深度和广度难以判断;对于已结题验收的课题,虽然增多了主题词和摘要等信息,可信息量还是较少,对于科研研究中很重要的研究过程和具体方法,一般零碎分散或是无法集中呈现。而在申报的前期研究论文中,以及研究中期和后期发表的公开学术论文中,研究的细节、方法和过程等,都有比较详尽的记录,因而,增加对Incites数据库和ESI数据库的融通分析,将更有助于在基金申报过程中找准定位和明确定题。
本文尝试采用Incites数据库和ESI数据库,通过对国家自然科学基金项目(简称“国自然”)近3年的资助发文情况进行耦合分析,从定量的角度结合更深层“暗数据”可视化信息加工方法,寻找国自然课题近年的热点研究方向和本机构/本学科的研究优势,为今后在科研课题申报时,提供挖掘本学科领域最热或最具优势的课题定位,构建充分利用特定工具的融通创新服务手段和预测模式,提升“双一流”学科建设中的“暗数据”可视化综合情报分析与优势互补服务能力做出应用探索。
1.1 InCites数据库的基金资助分析功能优势
众所周知,Incites数据库和ESI数据库是由科睿唯安公司(Clarivate Analytics,原汤森路透知识产权与科技事业部)开发,目前,最常用于“双一流”学科建设中的ESI学科和排名情况的分析中,但其基金资助分析功能几乎尚未被提及或被忽略。笔者查找了中国知网(CNKI)中心站的期刊全文数据库、维普资讯的期刊全文数据库以及万方数据平台的期刊全文数据库,这3个国内知名数据库进行文献调研,在不限定检索年限的情况下,截止到2018年2月10日,尚未发现以Incites数据库和ESI数据库作为主要研究手段,对基金资助项目或课题选题进行预测性研究的相关研究文献。初步分析,在文献报道方面,国内学者对此研究还处于相对混沌的状态。
虽然如此,但Incites数据库在基金资助分析方面具有一定的优势。
1)由于国自然项目在申报的前期、研究的中期和后期均需有一定的SCI/SSCI成果公开发表,Incites数据库与包含SCI/SSCI在内的Web of Science(简称WOS)核心合集均同属于科睿唯安公司,且具备WOS7个索引数据库的数据,对国自然的统计分析,具有接口统一性和较好的兼容性,并拥有一定的可视化效果;
2)对全球5 000多所研究机构的名称信息已进行规范化处理;
3)实现对全球基金资助机构的归并,包括中国国家自然科学基金等在内的59个中国大陆基金资助项目和5个来自中国香港的基金资助项目;
4)在分析出自己关心的高频或热点研究方向后,还可与同属于科睿唯安公司的深度分析型研究工具ESI数据库的全球研究热点Research Fronts进行横向比对,并选取与其中热点词关联的研究论文进行深度阅读和全面揭示。
1.2 “暗数据”可视化分析法的引入
在前期研究方面,笔者曾发表几篇有关“暗数据”及其可视化的学术研究论文,积累了一定的素材和经验。对于“暗数据”的研究,我国学者已经起步但尚未深入,在理论探讨方面,2015年2月22日我国著名学者吴建中先生在其个人博客“建中读书”里,论述了他对暗数据的理解并作出了简要的前景分析,受到了业界高度关注[5]。笔者认为,“暗数据”可以看作是大数据的子集,但无论我们是否觉察或感知其存在,暗数据是曾经投入过人力、物力甚至财力进行收集而来的数据,只是未经处理、分析的存储数据,也许包含未被发现的、重要的价值或见解,但并不是无用的数据。由于存在数量大,潜在价值尚不明确,因而以往对其研究较少。但能预测“暗数据”能对未来产生一定推动或阻碍的可能性,也能为用户提供更多、更广泛的机遇[6]。
科研項目的申报,尤其是国家自然科学基金等代表着国家高水平研究项目,研究眼光已不仅仅是在国内,而是需要放眼全球范围,因而以“暗数据”可视化为主要研究手段,常用Python语言,SQL数据库等数据处理工具,后台需要涉及百万甚至千万级的数据,以便尝试寻找与实际应用更为接近,且具有参考和借鉴意义的创新融通分析方法。
2 应用实践与应对策略
2.1 利用InCites数据库进行数据抓取和初步分析
通过访问https://incites.thomsonreuters.com,输入InCites的账号和密码进行登录,如果是首次访问,个人自行使用邮箱注册后可登录使用。InCites数据库主界面有包括人员分析、机构分析、区域分析、研究方向分析、期刊图书会议录文献分析和基金资助机构等6个主要功能模块,其中最右上角的基金资助机构模块入口,可分析不同基金资助机构的论文资助和研究情况。
选取时间跨度为2015年以来,基金资助机构为“National Natural Science Foundation of China”(中国国家自然科学基金),按照发表WOS论文数量进行排序,可得如图2结果。
图2为自2015年以来,受中国国家自然科学基金资助并已公开出版的WOS论文共有603 358篇,由于考虑到WOS核心合集学科分类共有251个,与国自然项目申报指南中的学科分类相比更精细,有助于提供进一步的研究方向具体信息。故对“研究方向”进行“重新聚焦”,可知这60多万篇WOS论文主要涉及234个学科研究方向,如图3所示。
2.2 数据清洗和词频分析
图3中得到了234个精细的学科分类结果,可根据实际中个人的研究方向,选取其中1个或几个具体方向的论文进行深入研究,可选择发表在Q1或Q2区的论文,或是被引次数排名前1%或10%的论文等,或是限定为Article等较高质量的学术成果,如图4。笔者常用的途径之一,可将其导出其论文清单,去重后,在EXCEL电子文档中。一般来说,论文的数据量比较大,逐一阅读的可行性小,可对这些论文数据的简要信息进行语句的切分,获取反复出现的高频词(常为实词),即为该研究方向近几年来的关注热点词汇。另一种途径,可把以上数据导入到可视化的统计分析工具当中,如与WOS论文数据匹配度比较好的,亦由科睿唯安公司开发的DDA分析软件中,进行数据清洗,如图5,同样能获得与上述途径类似的结果。
通过词频分析,以过去3年的肿瘤学研究项目为例,可发现肿瘤、基因(miRNA/IncRNA/circRNA)、蛋白、(高通量)组学、信号通路等相关论文较多,而特殊细胞类型、特殊细胞器、特殊细胞学现象、特殊修饰等字眼,在近期大量涌现。
2.3 融通比对ESI和热点拓展延伸
ESI(Essential Science Indicators,又名基本科学指标)平台提供“Research Fronts”界面分析各ESI学科的全球研究热点,但其分析的立足点与上述从Incites数据库出发的角度不同。
2.3.1 学科分类体系并不一致
ESI是将SCIE/SSCI收录的期刊粗分为22个学科分类,如表1。对于国自然项目则无法满足其申报过程中对学科分类较精细的要求,这也是一开始没有建议直接使用ESI来获取全球研究热点的主要原因之一。但是,如前所述,Incites数据库可选取共有251个类别的WOS核心合集进行学科分类,比国自然项目申报指南中要求的更精细,也有助于分析具体的研究方向。如之前以肿瘤学作为分析方向,在ESI平台中则没有该学科方向,它可能会被分入临床医学、免疫学、生物与生物化学,或是分子生物与遗传学等ESI学科当中,如图6,分析起来会让研究人员无所适从。但是,在Incites数据库不仅设有该学科方向,还能找到具体的研究热点词汇。
2.3.2 分析视角并不一致
ESI数据是通过全球高水平论文(即高被引论文和热点论文的合集)为出发点,通过共被引关系网络寻找反复出现的高频词汇,从而获得研究热点,并非基于相关的基金支持作为研究的出发点。而本文从Incites数据库出发,起点为针对性和专指性更强的有关基金项目。
2.3.3 影响范围也不一致
ESI平台默认是以滚动10年为统计周期,仅以总被引频次进行排名,只有学科论文总被引频次排名进入前1%才能入围该数据库。我们常常认为ESI平台收录的是“优质”的SCIE/SSCI论文,其高被引论文的持续影响力或是热点论文的近期爆发力都是值得肯定的。相比之下,从Incites数据库分析数据,一般从创新性考虑,往往只是对近3~5年进行分析,其研究定题的可持续性或热度尚未得到验证。
因而,经过清洗后从Incites数据库中得到的数据,通过融通ESI平台中的全球研究热点,能实行相互印证,所得结果有3种情况,如表2。对于目前研究水平和科研投入的个人研究者来说,能够有的放矢的分析出适合本人,且与全球研究水平接轨、更“接地气”的热点选题。
3 讨论与展望
自2016年的第四轮学科评估工作开始,教育部首次明确要求使用ESI作为衡量学术产出水平的重要指标,ESI与Incites数据库成为全球反映学科论文质量、体现学科竞争力和影响力的权威工具,越来越受到政府部门、各大高校、科研机构的关注和重视[7]。目前,在高水平大学建设过程中,ESI与Incites数据库最常用于对ESI学科全球排名、入选学科数量和潜力学科可能性分析等工作上,并在图书情报部门形成动态、定期跟踪分析的工作机制。但这两个工具并不只能做这单一功能,各机构的ESI学科分析工作往往比较宏观,且主要针对研究结论部分的学术论文,而对于微观的个人研究,以及作为研究过程部分的科研立项是否也具有积极的指导意义,是本文的研究起点和关注点。经过上述的尝试和探索,也发现了一些问题,如作为医药类高等院校的研究人员,自身的学科门类和研究侧重点相对比较集中,主要以临床医学、基础医学和生命科学等学科作为实践分析对象,对于计算机科学、物理学等其他学科是否具有普适性,尚有待进一步探讨。
科研課题与学术论文的先后关系,就像是“鸡”和“蛋”的问题一样,到底是先有鸡还是先有蛋,这个看似简单的问题却是长期以来引发我们深思的课题。在申报课题时,往往需要展示学术论文等前期研究成果对其支撑。在获得基金资助后,中期研究或结题研究成果,也常常以学术论文的形式进行展现。无论孰先孰后,我们看到的是它们之间紧密的伴随性关系,因而,本文利用科研课题与学术论文之间的互相支撑关系,以申报国家自然科学基金项目的选题为例,以定量分析高水平的SCIE/SSCI研究论文为出发点,为科研课题的适当选题提供思路和借鉴。
参考文献
[1]董薇,姜宇飞,张明昊,等.图书馆服务高校智库建设的策略——“双一流”高校建设背景下的思考[J].智库理论与实践,2017,2(3):36-43.
[2]人民网.权威发布!“双一流”建设高校及建设学科名单公布[EB/OL].http://edu.people.com.cn/n1/2017/0921/c367001-29549883.html,2018-01-18.
[3]中华人民共和国中央人民政府.国务院关于全面加强基础科学研究的若干意见[EB/OL].http://www.gov.cn/zhengce/content/2018-01/31/content_5262539.htm,2018-02-10.
[4]中华人民共和国科学技术部.科技部 财务部关于印发《国家科技资源共享服务平台管理办法》的通知[EB/OL].http://www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2018/201802/t20180224_138207.htm,2018-02-10.
[5]邓小茹.暗数据可视化在高校图书馆微信移动服务的应用探究[J].图书馆学研究,2017,(23):59-64.
[6]邓小茹,陈颖瑜.管窥“暗数据”可视化的应用前景与隐忧[J].高校图书馆工作,2016,36(3):3-5.
[7]潘卫,杨眉,董珏.支撑高校管理与决策的产品化情报服务[J].大学图书馆学报,2016,34(6):43-50.
(实习编辑:陈 媛)