APP下载

基于CiteSpace可视化分析的材料信息学研究进展和趋势

2021-06-28赵晓慧

现代信息科技 2021年1期
关键词:文献计量知识图谱

摘  要:材料信息学是实现新材料快速研发的重要手段,探明世界范围内材料信息学研究态势可为中国在该领域发展提供参考。以2014—2020年Web of Science核心合集库收录的材料信息学领域文献为研究对象,借助CiteSpace软件绘制知识图谱,从论文数量、地域、合作和被引报告等角度,报告了材料信息学研究现状、前沿热点与演化趋势,进行了材料信息学国际研究态势调查。

关键词:材料信息学;知识图谱;文献计量;研发態势

中图分类号:TP391      文献标识码:A 文章编号:2096-4706(2021)01-0121-04

Research Progress and Trend in Material Informatics Based on

CiteSpace Visual Analysis

ZHAO Xiaohui

(Library of Xian University of Science and Technology,Xian  710054,China)

Abstract:Material informatics is an important means to realize the rapid research and development of new materials. Exploring the research trend of materials informatics in the world can provide reference for the development of China in this field. Taking the literatures in material informatics field included by Web of Science core collection library from 2014 to 2020 as research object,using the CiteSpace software to map knowledge graph,it reports the research status,front hotspot,evolutionary trends of material informatics from the angle of the number of papers,region,cooperation and cited reports,etc,and carries out the investigation of international research trend in materials informatics.

Keywords:material informatics;knowledge graph;bibliometrics;research and development trend

0  引  言

材料在人类历史发展中处于重要地位,它是社会进步的基石。尤其在近现代社会,材料科学研究已跨越了单纯依靠经验和直觉的模式,实现了工艺、成分、结构和性能间关系的模型化。随着计算机技术在近几十年里被引入材料科学研究中,以密度泛函理论(DFT)和分子动力学模拟(MD)为代表的计算方法产生了大量研究成果,但仍然受限于目前计算能力不足,时间成本较大等因素[1,2]。

当前,无论实验方法还是理论计算方法开发新材料速度均跟不上人们对材料性能的需要。尤其在当前,研究方法在面对材料结构与性能间复杂的非线性关系时已趋于瓶颈,亟须开发材料研究的新模式。材料信息学正是在此背景下出现,它将信息学原理与材料科学研究有机结合在一起,通过对各种材料数据快速处理分析,来减少新材料在研发中所需时间和风险。

材料信息学这一概念于2006年首次被公开提出[3],在概念提出后近8年时间(2006—2014年)里该领域发展较慢。这一方面因为材料基础数据库是作为开展材料信息学研究的保障,其体量巨大且结构烦琐,需要较长时间的积累和摸索。另一方面,材料信息学算法不够成熟,难以对复杂的材料数据关系做出准确判断。近年来,随着信息技术在生物、医学、化学等领域的成功应用,为材料信息学的发展提供了启示,其发展正处于快速扩张阶段,但缺乏对其研究概况的理性、全面分析[4]。本文作者长期从事图书信息相关研究工作,致力于国内外新兴研究领域的发展态势研究。文中基于CiteSpace软件[5,6],对材料信息学全球研究现状、热点和前沿进行可视化分析,旨在使我国科研界紧抓材料信息学研究热潮,巩固和壮大我国在该领域研究上的国际地位。

1  资料与方法

本论文研究数据取自Web of Science核心合集数据库,限定检索年限为2014—2020年,检索主题词为“materials informatics”,共计获得836篇该领域的相关文献,选用其中的706篇“Article”作为进一步研究对象。文献记录内容选择“全记录与参考文献”,选用“纯文本”格式导出文献,导出数据中包含标题、关键词和参考文献等相关信息。

使用CiteSpace v5.7.R5版本导入下载的文献文件,对国家、机构、关键词、共被引文献以及突现词进行分析。时间切片设置为1年,选择阈值Top N=50,剪切方式为Prunning pathfinder功能(同时选择Pruning sliced networks和Pruning the merged network)。利用模块值(Q值>0.3)和平均轮廓值(S值>0.5)两个指标来评估知识图谱绘制效果[5]。图谱中颜色深浅反映年代变化;节点圆圈大小与其频次高低呈正相关;连线表示节点之间共现情况。

2  结果与分析

2.1  年发文量和发文国家、机构分析

材料信息学研究在近7年内共发表研究论文706篇,年发文量成线性上升趋势,年均增长速度约22篇/年,如图1所示。可以看到,材料信息学研究仍处于发展的初始阶段。其中2017年发文量有微弱回落,结合突现词分析,可以发现2017年是一个转折年,实现了生物医学应用中较成熟的数据信息技术应用于材料科学中,故2017年后材料信息学主题发文量迅速恢复线性上升趋势。

將国家(地区)与机构合并制作知识图谱,共计形成308个节点与1 094根连线,如图2所示。发文量前三名国家分别为美国(401篇)、中国(80篇)与日本(76篇);中心度前三名国家分别为中国(0.65)、美国(0.38)与瑞典(0.38)。高产机构前三分别依次为日本国立材料研究所(28篇)、美国洛斯阿拉莫斯国家实验室(24篇);佐治亚理工学院(各22篇)。中心度前三名为哈佛大学(0.65)、布列根和妇女医院(0.44)和上海大学(0.43)。

综合国家、机构的发文量和中心度进行分析,可以发现材料信息学的研究在地域上集中在中国、美国、日本和瑞典4个国家。尤其中国在材料信息学的研究上中心度居世界第1、发文量居世界第2,这其中上海大学的贡献较为显著,其于2012年初筹备成立了独立的材料基因组工程研究院。应该看到,我国在该领域的研究仍落后于美国,美国在2014—2020年期间发文量是我国发文量的5倍,且有包括洛斯阿拉莫斯国家实验室、佐治亚理工学院、哈佛大学和布列根和妇女医院等多个机构表现突出,展现出雄厚实力。同时发文量排名第3位的日本与我国之间差距较小,故我国在该领域研究的国际地位并不稳固。

2.2  被引文献和关键词分析

高被引文献和高中介中心性文献是知识基础的核心构架,被认为相关研究领域发展的知识拐点。结合被引文献分析发现,Jain A等[7]于2013年发表在APL Materials杂志上的论文被引用2 564次,标题为“The Materials Project:A materials genome approach to accelerating materials innovation”。Faber等[8]的研究中介中心性最强(0.39),标题为“Crystal structure representations for machine learning models of formation energies”。如图3所示。

关键词使用精炼表达来高度概括和凝练学术研究论文内容和作者观点,它是文献研究内容和核心价值的集中体现,故关键词分析是文献研究的重要组成。关键词分析产生17个聚类,获得252个节点和818条连线,如图4所示。可视化分析结果显示Q值为0.714 4(>0.3),S值为0.913 3(>0.5),表明聚类效果较好。排名前10位的聚类依次为:医学信息学、医学信息学应用、健康信息学、信息论、电子健康纪录、材料信息学、设计、预测、近似、信息学。其中医学信息学和医学信息学应用属于同一类可合并,同样可合并的有健康信息学和电子健康纪录,以及出现了两个材料信息学(materials informatics和material informatics),故实际聚类应为11个。关键词出现频次前十名聚类依次为:材料信息学(109次)、信息学(104次)、设计(65次)、机器学习(60次)、系统(48次)、电子健康纪录(37次)、护理(34次)、医学信息学(41次)、预测(36次)、模型(31次)。

上述分析展示了目前材料信息学研究热点。一是针对材料信息学的模型开发,即材料数据库的构建和扩展。2011年美国加州伯克利大学劳伦斯实验室联合麻省理工学院提出了构建开源数据库Material Project[7],其集合了各类材料的晶体结构和物性参数(能带、弹性模量和压电张量等),并一直处于动态扩充中。由于材料种类繁多且性能参数复杂,且不断有新材料被开发出来,故该数据库完善将会是一个长期且繁杂的工作,在扩充数据库的同时优化数据库结构将在较长一段时间内是本领域的研究热点。

另一个热点是材料信息学研究模型开发和应用。基于生物信息学发展经验,将其移植到材料信息学研究上,这是本领域早期发展的思路。但考虑到材料科学研究的独特性,如何将材料科学原理融入数据模型中,使模型参数具有物理、化学意义,这是当前模型开发的热点。

2.3  突现词分析

突现词是指关键词出现频率变化率高的词,它在一定程度上能表明某个研究领域的前沿,根据突现词的主题与时间跨度可划分为两个阶段,如图5所示。在2016年前,突现词为本体论(ontology)、系统(system)、电子医学记录(electronic medical record)和未来(future),突现词与材料科学间跨度较大;2017年至今,突现词为回归(regression)、合金(alloy)、数据库等(database)等,可以看到材料与数据处理逐步结合起来。

基于突现词结果分析,发现合金(alloy)作为一种具体材料出现在关键词中,表明针对这类较为成熟的材料研究出现了新动向。这一方面可能因为合金材料的结构和物性数据库的完善度较高,利于开展研究;另一方面,使用传统手段研究合金材料难于创新,迫切需要新研究方法来实现突破,以满足国防、生产等对合金材料高性能的要求。使用材料信息学方法研发非晶态金属和高熵合金已获得较多成果。

3  结  论

基于CiteSpace软件对材料信息学相关主题文献的可视化分析,从该领域的国际研究趋势、热点与前沿,给我国的材料信息学发展提供了一定启发。可以看到,材料数据库是发展材料信息学的基石,但当前最大、最全面的材料数据库(Material Project)是由美国科研机构开发的,我国在这方面缺乏原创,基本还处于跟跑阶段,这可能会导致发展后劲不足。另外,当代材料科学家需要拓展思维,有意识地将材料信息学引入其日常研究中,除了提升自身研究实力外,还可将研究结果贡献到材料信息学数据库中,为其发展贡献力量。

尽管近年来材料信息学研究已取得令人瞩目的研究成果,但其仍处于发展初期,其未来发展可能主要依赖于以下几方面的进步。一是材料信息学预测材料的可靠性需进一步提高,这也是科学家们对其期待较高的原因之一。但在实际过程中往往需处理非正常数据,这对当前研究方法提出了更高挑战。二是材料数据库完善和共享,可以看到,材料数据库异常庞大,需要全世界的科学家们长时间共同积累来实现。故其是全世界的财富,全面和未加限制的共享材料数据库是材料信息学发展的重要保障。三是针对材料领域大数据的先进算法开发,这需要具有材料、计算机、通信等多学科专业背景的复合人才来实现。

本研究仅考虑Web of Science数据库的相关论文,且未考虑材料学科与其他学科的交叉领域,如化学信息学、物理信息学等也会部分涉及材料学科。建议今后研究可增加国内数据库进行更为全面的分析,将材料化学信息(如金属有机骨架材料等)和材料物理信息(如基于自旋构型的磁性材料等)等结合到材料信息学的前沿和热点研究分析上,获得更加全面的研究结果。

参考文献:

[1] 孙苏阳,王晓哲.数据与理论共舞:计算材料学推动高效体系化新材料设计——计算材料学分论坛侧记 [J].中国材料进展,2020,39(11):824-825.

[2] ZHENG B,MAURIN G. Mechanical Control of the Kinetic Propylene/Propane Separation by Zeolitic Imidazolate Framework-8 [J].Angewandte Chemie International Edition,2019,58:13734–13738.

[3] RODGERS J R,CEBON D. Materials Informatics [J].MRS Bulletin,2006,31(12):975-977.

[4] 牛程程,李少波,胡建軍,等.机器学习在材料信息学中的应用综述 [J].材料导报,2020,34(23):23100-23108.

[5] 陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能 [J].科学学研究,2015,33(2):242-253.

[6] 胡志刚,陈超美,刘则渊,等.从基于引文到基于引用——一种统计引文总被引次数的新方法 [J].图书情报工作,2013,57(21):5-10.

[7] JAIN A,ONG S P,HAUTIER G,et al. Commentary:The Materials Project:A materials genome approach to accelerating materials innovation [J].APL Materials,2013,1(1):[2020-11-05].https://aip.scitation.org/doi/10.1063/1.4812323.DOI:10.1063/1.4812323.

[8] FABER F,LINDMAA A H G,LILIENFELD A V,et al. Crystal structure representations for machine learning models of formation energies [J].International Journal of Quantum Chemistry,2015,115(16):1094-1101.

作者简介:赵晓慧(1985—),女,汉族,辽宁海城人,图书馆员,研究方向:图书情报学。

猜你喜欢

文献计量知识图谱
基于文献计量的数据素养及其教育领域研究态势分析
国内电子商务学术研究进展分析
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析