机器学习在材料科学中的应用进展
2022-08-19周岳钰黄晓晓吴建岚卫陈龙通信作者
周岳钰,高 静,汪 燕,黄晓晓,吴建岚,王 强,卫陈龙,闻 军(通信作者)
(安庆师范大学 安徽 安庆 246133)
0 引言
材料作为现代社会发展的三大支柱之一,对科学发展和社会进步起着重要作用。高性能材料的开发和应用成为材料研究领域的重要课题。材料的研究方法大体可分为实验法和计算法。实验研究方法主要基于研究者的经验和直觉,但常常面临着制备成本高、研发周期长、效率低下等问题。第一性原理计算、分子动力学、有限元模拟等常用计算模拟方法因其相对精准预测能力,已被广泛用于半导体材料[1]、发光材料[2-3]、新能源材料[4-5]等方面。然而,上述高通量计算方法在运行时间、计算能力等方面还存在诸多限制。
随着以人工智能、大数据等为主导的“第四次工业革命”时代的到来,人工智能的新分支——机器学习已被广泛应用于机器人技术[6]、计算机视觉[7-8]、数据挖掘[9]、生物医学[10-11]等众多领域。机器学习因其高效的计算和预测能力,逐渐被用于材料科学研究领域。基于充分的实验研究和理论计算,人们可以利用机器学习方法,快速完成数据挖掘,学习有用信息,揭示其中所蕴含的信息和规律,准确预测材料性能、筛选目标材料。机器学习方法帮助研究者在更小范围内进行理论计算和实验验证,缩短了材料研发周期。近年来,利用机器学习方法进行材料性质预测和新材料设计的文章数量呈现激增趋势,见图1。
机器学习概念最早在1959 年由Samuel 提出[12],现已发展成为一个涉及计算机科学、统计学等多领域交叉学科。它的基本原理是:机器学习模型不断学习、积累以往的经验或数据,自动优化性能,提高处理未知问题的能力,使之在全新的情境下做出决策和判断。机器学习的完整过程可分为数据输入、机器学习训练以及结果输出等3 部分,见图2。首先根据研究的具体问题收集相关数据,对原始数据进行预处理,再根据目标选择合适的模型以及评估方法,利用训练数据不断优化模型,最终以最优化模型输出预测结果。
1 机器学习算法
算法是机器学习的关键。按照学习方式主要分为监督学习、半监督学习以及无监督学习,其中以监督学习的应用最为广泛。在监督学习中,利用一组带有已知标签的样本,通过调整机器学习模型参数,对训练数据进行学习,并做出准确预测。常用的机器学习算法包括支持向量机、决策树、K-近邻、人工神经网络以及深度学习等。下面简单介绍常用算法。
(1)支持向量机[13]:作为一种二分类模型,支持向量机的基本原理是,求解出能够正确划分训练数据集并且使几何间隔最大的分离超平面。当训练数据集线性可分或近似线性可分时,支持向量机通过学习,生成线性分类器来划分训练数据集。对于输入空间中的非线性分类问题,可以通过核函数替换内积,将低维特征空间中的非线性分类问题映射到高维特征空间中,寻找具有最大间隔的超平面。
(2)决策树[14]:决策树是一种基于树结构的机器学习算法,从一系列带有特征和标签的数据集中提取出决策规则,并以树状图呈现。决策树工作原理是按照某一个准则(信息熵或者基尼系数),从所有数据的根节点开始,根据某一属性值分裂为叶子节点。选择属性和相应的决策边界,使用其他属性从两个子节点继续分离,直到一个节点中的所有实例都属于同一类。决策树算法的核心思想是通过递推方法,选择最优特征来分类或回归。
(3)K-近邻[15]:K-近邻的核心思想是计算空间中样本与每个训练数据之间的距离,取距离最近的K 个训练数据。其大多数类别决定样本的所属类别。K-近邻算法精度高,但计算复杂度高。
(4)人工神经网络[16]:人工神经网络算法模仿人脑神经元的工作方式,建立某些简单的模型,按不同的连接方式组成的复杂信息处理系统,实现类似于人脑的判断和决策。人工神经网络由输入层、隐藏层、输出层3部分组成。其中,输入层接受来自外部的数据,作为中间部分的隐藏层起到了调整神经元权重以及单元间连接强度的作用,并且将处理后的结果输出到输出层。输出层经过激活函数激活后,输出最终结果。
(5)深度学习[17]:深度学习的结构类似于人工神经网络,含有多个隐藏层,结构更加复杂。该算法学习能力强,但计算量更大、对设备要求更高。常见的深度学习算法包括卷积神经网络、循环神经网络以及生成对抗网络等。
2 机器学习在材料科学中的应用
2.1 材料性质预测
近年来,机器学习方法因其泛化能力强、计算速度快等优势,在预测材料性质方面崭露头角。机器学习方法已被成功应用于预测包括带隙、发射/激发波长、玻璃形成能力、抗剪强度、发光热猝灭温度、功函数等在内的材料各类性质[18-22]。下文主要介绍机器学习在预测带隙、荧光粉发射/激发波长、玻璃形成能力以及抗剪强度等性质方面的应用。
2.1.1 带隙
带隙是半导体或绝缘体的导带底与价带顶之间的能量差。带隙大小决定着材料的能带结构,影响其电子结构和光学性质。近年来,一些国内外研究者利用机器学习方法成功预测了各类材料的带隙。游洋等[23]基于密度泛函理论计算的数据,选取电负性、第一电离能以及形成热等物理性质作为特征描述符,分别建立套索回归、支持向量回归、梯度树提升回归等3 种机器学习模型训练数据,成功预测了16 种二维MX2 型材料的带隙。此外,机器学习方法也被应用于预测类金刚石结构热电材料的带隙。徐永林等[24]采用组分替换策略和查重技术产生新材料体系数据集,提出一种高效集成学习模型来带隙预测(第1 层为套索回归+支持向量回归+梯度提升决策树,第2 层为梯度提升决策树),并利用第一性原理高通量计算进行验证。无机化合物中,金属带隙值等于零,而非金属带隙值大于零。针对任意化学组成的无机化合物,其带隙值的大小情况需要分开考虑。Brgoch 等[25]采用机器学习分类方法筛选出带隙值大于零的非金属化合物,利用支持向量回归模型预测出了780 个非金属化合物的带隙,并将其与实验数值进行比较。随后,他们利用已训练模型,预测了11 194个非金属化合物的带隙。综上所述,利用化学组分以及电子结构等信息可以预测带隙。需要指出的是,研究用于带隙预测的特征描述符更具挑战性和实际性。Chaube 等[26]不仅通过机器学习回归方法预测了46 970 个未知无机卤化物钙钛矿的带隙,而且基于随机森林模型对特征重要性进行排序。结果表明,外层电子数、汽化热、Allen 电负性、熔点以及沸点等特征在带隙预测过程中发挥着重要作用。
2.1.2 荧光粉发射/激发波长
荧光粉材料因其在固态照明和显示方面的广泛应用,引起了材料科学家的研究兴趣。特别是,Eu2+掺杂荧光粉具有发射光谱窄、稳定性高以及量子产率高等特点。众所周知,荧光粉的发射波长决定着显示器件颜色的品质。机器学习方法是一种研究Eu2+掺杂荧光粉发射波长的全新手段,有助于新型荧光粉的优化和设计。Nakano 等[27]从文献中收集了288 个Eu2+掺杂荧光粉(包括卤化物、氧化物以及氮化物等)的发射波长。根据荧光粉基质的化学计量信息,他们开发了基于机器学习方法的发射峰值波长预测模型,该模型的预测误差在139 meV 之内。基于此,他们还结合当前发射光谱调谐机制,对该模型进行了理论验证。不同于依靠经验直觉、爱迪生式的传统实验方法,利用数据驱动预测发射波长的机器学习具有快速、准确等特点。Lai 等[28]根据已报道的A3BSi2O7:Eu2+系列荧光粉的实验发射波长,利用回归模型成功预测了R1-xKxLSO:0.01Eu2+(0 ≤x ≤1)系列荧光粉的发射波长,并建立起荧光粉晶体结构与发光性质之间的联系。与此同时,机器学习方法也可预测无机荧光粉的激发波长。例如,Barai 等[29]利用原子性质相关的特征描述符表征激发波长,建立激发波长与特征描述符之间的映射关系,通过套索回归以及人工神经网络等机器学习方法预测激发波长,并与实验数据进行了比较。
2.1.3 玻璃形成能力
大多液体材料在特定情况下都可形成玻璃,但是不同材料形成玻璃的能力有所差异。量化玻璃形成能力对于玻璃材料工业生产和科学研究都具有重要意义。近年来,机器学习方法预测玻璃形成能力是玻璃物理学中一个新的研究方向。其中,人们主要关注非晶态合金的玻璃形成能力。
临界冷却速率是衡量玻璃形成能力的最可靠依据,但凭借传统实验手段往往难以测得,实验人员常使用临界铸造直径(Dmax)来表征块体金属玻璃的玻璃形成能力。例如Liu 等[30]搭建随机森林、K-近邻、梯度提升决策树以及极端梯度提升等四种机器学习方法,分别预测出Dmax,并将其与测量值进行比较。结果表明,极端梯度提升模型的预测性能最好。预测具备良好玻璃形成能力的合金材料,具有重要的实际应用意义。例如,Xiong 等[31]首先根据7种不同机器学习分类方法筛选出Dmax 大于或等于5 mm 的化合物,利用回归方法预测其Dmax。结果表明,极端梯度提升模型预测结果最佳,其交叉验证的决定系数高达0.801。值得注意的是,循序向后逆向选择的特征选择方法被包装在算法中,实现特征选择与机器算法的最佳组合。Su 等[32]采用随机森林算法预测二元金属合金的玻璃形成能力,首次提出机器学习模型性能的二元合金标准化评价指标。上述研究结果表明,机器学习是一种强大的材料性质预测手段,可用于筛选具有良好金属玻璃形成能力的合金材料。
2.1.4 抗剪强度
抗剪强度是指材料发生剪断时的极限强度,是描述材料抵抗剪切滑动能力的重要指标。利用机器学习方法预测材料的抗剪强度,将极大降低试验成本、缩短研究周期,这对工程应用和生产生活具有重要意义[33]。近年来,不少研究者开展了此类研究。例如,Wei 等[34]通过搭建人工神经网络模型,提出一种基于神经网络的点蚀梯形波形钢腹板抗剪强度预测系统。通过适当训练和校正,建立影响变量与抗剪强度之间的非线性映射关系,进而实现不同点蚀参数下的剪切强度的可靠预测。材料的抗剪强度预测一般以钢筋混泥土为研究对象。例如Mohammed 等[35]基于文献报道的有关梁的几何和混凝土性能参数的实验数据,利用支持向量机算法,预测钢筋混凝土梁的抗剪强度。在实际生产生活中,抗剪强度还可能与材料的使用时间有关。基于此,Fu 等[36]开展了相关研究。他们采用梯度提升回归树模型预测任意使用时间下锈蚀钢筋混凝土的抗剪强度,该模型平均决定系数大于0.9,具有良好的预测能力。
2.2 新材料发现
机器学习不仅在材料性质预测上应用广泛,在新材料合成设计方面也同样发挥着重要作用,影响并推动着材料科学的发展。下文将简单介绍机器学习方法在稀土荧光材料、钙钛矿材料以及催化材料等领域的应用情况。
2.2.1 稀土荧光材料
稀土荧光材料因其色彩品质高、光吸收能力强、转换效率高、物理化学性质稳定等优点,在激光、照明、显示、辐射探测等众多领域获得应用。基于数据驱动的机器学习方法在发现稀土发光新材料方面取得多项重要研究结果。例如,Zhuo 等[37]为了寻找高效荧光粉基质材料,利用支持向量回归方法对荧光粉基质材料的德拜温度进行预测。同时,利用高通量密度泛函理论计算方法获得带隙。基于预测的带隙和德拜温度,自动识别出带隙最大、德拜温度最高的荧光粉基质材料是NaBaB9O15。通过合成制备与表征分析,他们发现晶体结构刚性大小取决于[B3O7]5-阴离子骨架。向其中掺入Eu2+离子,获得了416 nm 的蓝紫光窄带发射(半峰宽为34.5 nm),量子产率高达95%。基于材料化学组分、电子结构以及光谱信息,机器学习还可以预测材料的热稳定性、量子效率以及发射带宽等性质。例如,Wang 等[38]比较9 种常见Eu2+掺杂窄带红光氮化物荧光粉的电子结构发现,Eu2+离子两个最高4 f能级之间分裂较大。利用该特征描述符对2 259 种氮化物筛选,成功识别出5种基质。向其中掺入Eu2+离子之后,荧光粉具有化学性质稳定、热稳定性良好、量子效率高、发射带宽窄等特点。总之,采用机器学习或者其他人工智能方法首先识别出高性能稀土发光材料,然后结合第一性原理模拟计算方法进行验证,最后通过实验制备合成,这一套研究方法有望用于高性能稀土发光材料的合成设计。
2.2.2 钙钛矿材料
高性能钙钛矿的开发和应用一直都是材料科学领域的研究热点之一。与传统实验手段和第一性原理计算方法相比,基于充分的实验和理论研究,机器学习在寻找高性能钙钛矿材料方面发挥着重要作用[39-40]。例如,Liu 等[41]基于实验数据,选用容忍因子、八面体因子、电负性等9个主要特征描述符作为机器学习输入变量,利用机器学习分类方法对每条输入数据建模训练,分类准确度达到94.6%,接着采用梯度提升决策树算法从891 条数据中筛选331 种钙钛矿,根据可成形性概率和凸包能筛选出较为稳定的钙钛矿材料。Balachandra 等[42]搭建两个独立机器学习模型,分别用于筛选钙钛矿和其中具有新型立方结构的钙钛矿。他们利用两个分层的机器学习模型成功筛选出了20 个具有新立方型结构的钙钛矿。值得注意的是,近年来,有机-无机杂化钙钛矿(HOIPs)引起了材料科学工作者的广泛关注。Lu 等[43]结合机器学习和高通量计算方法成功预测出HOIPs。根据皮尔逊关系图中14 个最佳材料特征,快速筛选出3 个(C2H5OInBr3、C2H5OSnBr3以及C2H6NSnBr3)带隙合适、室温热稳定性良好的无铅HOIPs,解决HOIPs 的毒性和环境稳定性差等问题。另外,Wang 团队[44]筛选出了686 个带隙合适的HOIPs,同时还结合密度泛函理论计算,验证了132 个稳定无毒的斜菱形HOIPs,为后续实验合成提供了有益信息。
2.2.3 催化材料
催化材料在工业生产中占据重要地位。传统实验研究手段不仅效率较低,而且设备复杂,成本代价高,很难满足不断发展的工业需求。然而,利用机器学习方法,可以快速挖掘催化材料的结构与活性之间的关系,发现新型催化材料[45]。Huang 等[46]利用人工神经网络方法模拟催化剂组分和催化性能之间关系,提出一种混合遗传算法进行全局优化,获得最优的多组分催化剂。这种设计方法已经应用于甲烷氧化偶联反应,最优催化剂的C2 烃产率达到27.78%,实现了当时最高产率。Madaan 等[47]研究丁烷氧化脱氢制1,3-丁二烯反应,利用数据驱动方法建立特征描述符,预测1 711 种混合金属氧化物催化剂的性能,并从中筛选出6 种具有应用前景的双金属混合氧化物,通过实验合成验证该模型的准确性。以上工作表明,相比于繁琐耗时的实验和量子化学计算方法,机器学习方法在发现高性能多相催化材料[48]方面展示出极大优势,提高了产率。值得注意的是,机器学习方法不仅适用于多相催化材料,在均相催化剂方面也占据重要作用。例如,Janet 等[49]开发了预测自旋态有序性等过渡金属复合物的电子性质的机器学习模型。模型研究了不同的机器学习模型,包括人工神经网络、支持向量回归和核岭回归3 种方法。结果表明,人工神经网络模型的预测性能最佳,该模型将为有效筛选过渡金属复合物催化材料提供有力保证。
3 总结与展望
机器学习在材料科学中的应用是计算机科学和材料科学的深度融合。它在研究复杂数据之间的关联性方面具有较高的灵活性、泛化性以及准确性。目前,已被广泛应用于发光材料、催化材料等各类功能材料研究领域。需要指出的是,机器学习方法仍然存在一定的局限性。首先,它是一种基于数据驱动的方法,对数据的依赖程度较高。而在材料科学研究领域,大量数据的获取成本较高且分布不均。利用少量数据训练模型则会导致过拟合问题,这将直接影响模型预测效果。另外,虽然机器学习已被应用于材料性质预测以及新材料发现,但是所预测的结果仍需实验验证,所蕴含的物理化学规律仍需深入研究。虽然,机器学习方法无法替代传统的计算和实验研究,但是随着理论和方法的进一步完善,机器学习方法将会在材料科学领域获得更加广泛和深入的应用,为材料科学研究提供新思路、新方法。