APP下载

面向功能材料属性预测的机器学习方法初探

2019-05-05师小伟郝禹齐

长沙大学学报 2019年2期
关键词:带隙神经网络预测

马 薇,师小伟,郝禹齐

(宁夏大学光伏材料重点实验室,宁夏 银川 750021)

功能材料的开发是工业创新的基石,同时开发具有靶向性的材料一直是前瞻科学研究的热点问题[1-3].其中,基于密度泛函理论(Density-functional theory ,DFT)的高通量计算等技术的出现在一定程度上加速了材料的搜寻过程.钙钛矿是一种用途广泛的功能材料,其中诸如HOIPs是一种极具前景的光电材料,其最显著的优点包括高功率转换效率(Photo-conversion efficiency ,PCE)、易合成以及可调的带隙等.但存在两个关键的不足限制了HOIPs的商业应用,其中之一便是毒性(这也是一个严重的问题),主要是材料中含有铅(Pb)元素,其次是环境稳定性较差.因此,设计具有高PCE且在空气中持续稳定的杂化有机-无机钙钛(Hybrid organic-inorganic perovskites, HOIPs)至关重要.近年来,由于诸如上手功能材料的结构越来越复杂,传统手工方法从成千上万种候选材料中高效筛选出具有价值的体系,这类方法耗时耗力且不能有效应用于工业生产.另外,在非晶合金研究领域,如何设计并开发出具有良好玻璃形成能力的合金,是一个具有重要产业价值的科学问题.过去非晶合金材料新体系的探索主要依据经验性判据的指导,由于其准确性与通用性的限制,非晶新材料的研发速度非常缓慢.如何提高材料设计的效率,寻找具有更优性能的材料,是非晶材料领域非常具有挑战性的问题.

机器学习(Machine Learning, ML)技术[3-5]通过标注数据学习一种对未知数据进行预测和泛化.传统基于机器学习的特征工程方法主要分为两类:基于手工特征提取方法和基于特征学习方法.图像局部不变特征检测方法一般分为角点检测子、斑点检测子、区域检测子,近年来也出现了大量相关方法,代表性的方法有尺度不变特征变换(Scale-invariant feature transform,SIFT)[6],局部二值模式(Local binary pattern ,LBP)[7]和(梯度直方图Histogram of gradients ,HOG)[8]等.基于特征学习诸如深度学习DL[9-10]的方法通过对训练集的学习,总结数据集蕴含的规律,学习视觉特征.基于特征学习的方法因其对数据集更加适应,在视觉感知中取得了更为突出的成绩[11-18].近年来,深度学习(Deep Learning, DL)方法在视觉目标检测与识别领域取得了极为出色的成果.如2012年的ImageNet物体识别竞赛中,基于深度卷积神经网络的AlexNet就取得了最高的准确率[15]. 此后Simonyan和Zisserman为大规模物体识别设计了“非常深”的卷积神经网络[16],Ioffe和Szegedy提出了批正则化加速卷积神经网络的训练[17],He等人设计了深度残差网络使得网络深度可以大幅增加,进一步改进了基于深度学习的视觉目标检测识别方法的性能[18].

机器学习(ML)技术已经在功能材料设计和性能属性预测和分析等方面凸显其强大的功能,相关文献[19-22]指出,其不仅可以快速准确地实现功能材料设计,也可以从大规模材料数据库中挖掘出有效的材料构效关系.美国在2011年提出了材料基因组计划(Materials Genome Initiative),以期加快材料的研发过程.我国怀柔科学城的发展规划中,“材料基因组研究平台”项目已全面开工建设.高通量实验+高性能计算+深度数据分析的研究方式已经成为时代发展的趋势.最近,中国科学院物理研究所凝聚态物理国家实验室汪卫华研究组博士研究生孙奕韬在汪卫华研究员、白海洋研究员的指导下,与人民大学物理系李茂枝教授合作,采用机器学习的方法,对影响二元合金玻璃形成能力的诸多因素进行了系统的研究,建立了合金成分与性能之间的关联,并对可能的新材料进行了预测.研究过程中使用到了支持向量机(Support Vector Machine, SVM)这种方法,通过构建多维空间,并在这个多维空间内对数据进行分割,从而建立输入参量与输出参量之间的关联[21-22].虽然ML技术为设计无机钙钛矿材料提供了思路,但其在有机-无机杂化钙钛矿(HOIPs)领域的应用目前鲜有报道.

论文中通过深入结合传统ML和DL技术提出基于目标驱动的挖掘稳定无铅化HOIP方法和DFT计算方法.所提方法总体流程图如图1所示,结合ML(如GBR统计回归模型)和DFT的材料设计框架用于高效搜寻具有适当带隙的稳定无铅化HOIPs,由已报道过的HOIP数据训练ML模型的材料筛选过程,之后,利用DFT进一步计算这些候选材料的电子性质并评估其稳定性.从212个已报道的HOIPs带隙值中训练ML模型,然后成功地从5158种未开发的潜在HOIPs中筛选出六种具有适当太阳能带隙和室温热稳定性的正交无铅HOIPs,其中两种在可见区域具有直接带隙和优异的环境稳定性.之后,通过ML数据挖掘出了一种HOIPs带隙的紧密性结构-性质关系,发现影响理想HOIPs太阳能电池性能的因素包括容忍因子、八面体因子、金属电负性以及有机分子的极化率.最后,该方法能够快速实现高精度筛选,可广泛应用于功能材料设计.

1 研究方法

由于传统手工筛选可能HOIP结构表现耗时耗力,为有效提升功能材料结构的挖掘过程,提出了基于ML和DL技术的统计模型方法通过优化预测得到一种高精度的HOIP带隙的紧密性结构-性质关系,进而发现影响理想HOIPs太阳能电池性能的因素.这一部分将从总体设计框架、传统ML模型、DL模型以及模型推断和验证介绍.

1.1 总体设计框架

基于传统ML和DL技术的方法框架总体流程图如图1所示,具体而言,总体设计包括三部分:输入HOIPs数据,ML算法以及DFT计算.正如传统ML方法,由于所采集的HOIP数据特征包含大量冗余的特征,因此在训练和预测HOIPs时如何提取和描述其特征表示是ML训练和测试中的核心步骤.当特征被准确选择时,即通过五折交叉验证从中选出最优的超参数搜索HOIPs.随后将训练好的ML模型用于数据预测.最终将DFT计算研究和验证ML模拟的结果.

图1 总体流程图

1.2 传统ML模型

采用ML常用技术手段——梯度boosting回归(Gradient boosting regression, GBR),是一种非参数化的统计机器学习回归模型,该模型用于预测未知的HOIP的带隙参数.该模型核心思想是通过学习一组弱回归器从而单独使用弱回归器的预测性能,该模型在训练过程依次学习每个弱回归器,进而利用求和模型加强模型预测和建模能,其数学表达式如下所示:

(1)

其中m表示训练迭代次数,x表示输入数据,θm表示模型参数向量的分布.整个ML模型共训练M次,每次训练产生一个弱回归函数T.弱分类器的损失函数定义如下:

(2)

其中Fm-1(xi)代表当前模型,GBR用于通过最小经验损失确定下一个弱分类器的参数.采用的传统ML方法基于分析小样本数据计算DFT进而验证ML模型的预测能力.

1.3 DL模型

传统ML(手工特征+线性回归器)方法有两方面不足:1)手工特征性能对于不同域分布的数据表现过于敏感,因此特征工程需要大量的先验知识且耗时耗力;2)传统线性回归函数表达能力有限,故难以直接对原始数据和预测目标属性准确建模.为解决上述问题,DL被研究者通过采用多层神经网络结构有效地对数据和目标标签之间复杂的非线性关系建模.除此之外,由于深度神经网络强大的非线性建模能力,故在大规模数据中基于深度学习的分类识别任务表现尤为突出.综上所述,DL能够被应用于功能材料性能预测任务,并且其优势在于特征工程不再依赖于繁琐的手工设计过程和大量的功能材料专业先验知识.而只是将已有标注数据作为神经网络的输入,并通过优化算法更新网络参数至收敛,最终得到最优的参数解.如图2 所示,基于2.2节所述传统ML框架,式(1)重新定义为

FK(x)=f1°f2°…°fk(σ(WTx+b))

(3)

同时,损失函数式(2)形式化为

(4)

图2 深度神经网络结构示意图

其中f表示单层神经网络,K代表网络层数.W和b分别代表需要更新学习的网络参数权值和偏置.σ(·)表示非线性的激活函数,这样使得多层网络具有复杂强大的非线性表示能力.f1°f2表示网络嵌套,即将f1的网络输出作为f2的输入.优化式(4)中的网络参数,通常采用反向传播(BP)随机梯度下降方法[13-14],进而迭代更新参数W和b,再根据式(4)给出两组更新公式如下所示:

(5)

其中k对应网络第k层参数W和b,ρ为模型优化学习率,即控制整个网络学习收敛速率.

1.4 模型推断和验证

所述ML和DL方法中的关键是选择合适的ML算法.目前,常用预测的ML回归算法包括诸如上述提到的GBR、人工神经网络(Artificial neural networks,ANN)、基于核的岭回归(Kernel ridge regression,KRR).这些回归方法能够提供材料属性预测的DFT 精度.在本节给出了GBR和DL(同ANN)两种基于ML的回归策略用于材料性能预测([7]文中给出多种回归方式:支持向量回归、高斯过程回归、决策树回归以及多层感知器回归).具体而言,在所有数据里选出一部分子集作为训练集,训练好模型之后将该模型用于预测剩余数据从而选择有效统计ML/DL模型.为验证训练模型在测试集上的性能表现,文献[7]同时给出了三种评价预测误差准则:1)决定系数;2)Pearson系数;3)均方差.利用上述三项评价指标验证所采用MLDL统计模型训练收敛性和泛化能力(泛化能力是指统计ML模型在训练集和测试集的性能表现,表现一致表明泛化能力).

2 实验数据集和实验设置

本部分介绍ML模型的数据准备和特征选择的技术策略细节.

2.1 实验数据集

验证数据集包含346种HOIPs,其中所有的HOIP是通过高通量第一性原理计算得到.为保证数据一致和ML预测精度,只选择通过PBE函数计算所得带隙的正交晶结构.所以,该算法中选择212种HOIP复合物.进而,构造一种能够反应出容忍因子和带隙的HOIP,从中将所有数据的80%作为训练集,20%作为测试集,并且整体输入HOIP数据通过选取不同带隙值进而保持一定程度的数据分布平衡.

2.2 特征选择

如第2部分所述,任何ML预测特定属性的方法,关键在于选取特征描述.材料科学不同于模式识别领域,其特征不仅仅只关系到某一种特定材料,同时还与其目标物理化学属性相关.虽然,影响材料目标属性的因素较多,其特征选择仍需合理.一种最优的特征选择策略可避免ML维度灾难,具体而言,控制特征数目应当远小于数据规模维度.文献[7]实验中采用30个初始特征,该特征具体选取离子半径, 容忍因子和电负性从化学空间描述HOIP.为进一步表示特征和目标属性间的关联,首先采用GBR验证初始特征的有效性.紧接着,通过搜索算法去除冗余特征(对于带隙影响轻微的特征).最终14个关键特征被选做作为最终的特征描述进而表示HOIP.文献[7]实验表明通过ML的方法能够降低不同维度特征间的相关性进而去除特征冗余信息,最终有效提升ML统计模型的预测能力.

3 讨论

为提升HOIP材料结构属性预测和筛选策略,通过深入结合现有ML/DL技术以及DFT计算,提出一种快速目标驱动的方法进而挖掘有效的HOIP结构属性,最终通过测试发现5158中HIOP结构.与此同时,通过ML技术在收集的大规模功能材料数据中挖掘HOIP结构-属性映射,并发现影响理想HOIPs太阳能电池性能的因素包括容忍因子、八面体因子、金属电负性以及有机分子的极化率.

由于传统高通量搜索方法作用于整个化学空间DFT层级,所用方法利用ML统计模型与DFT结合的模式,因此整个过程仅限于DFT层级的计算,其搜索空间远远小于传统方法,实现节约计算资源.同时也介绍基于神经网络的DL技术.该技术可直接将功能材料数据作为原始输入,通过标注目标属性,从而自动挖掘具有判别和表达能力的材料特征,进而提高搜索材料结构的精度和效率.特别指出基于DL方法依赖于大规模海量功能材料数据作为训练数据,因此为得到更加优秀的性能需提供足够多高质量数据训练模型.

4 结论

不同于需要在DFT水平上搜寻整个化学空间的高通量筛选方法,目前的ML/DL和DFT组合方案只需在DFT水平上计算最具前景的HOIPs,这样可以极大地节省计算资源.注意,上面提到的筛选非常严格,事实上,其筛选条件可以根据目标进行调整以找到适合实验合成的候选材料.本文提出的靶向驱动法克服了传统试错法的主要障碍,同时,由于这种ML技术采用一种基于GBR算法的“末位淘汰”特征选择程序,因此其不仅可以瞬间达到DFT精度(甚至快于神经网络算法),而且适用于小数据集.这也就意味着可以使用相对较小的数据集来实现准确的预测.如果计算或实验的材料数据足以训练ML模型,本文方法也适用于其他功能材料的设计与发现.另外,如何利用基于图结构的DL技术,通过实现全局优化的材料结构属性预测任务以提升将是一个具有挑战性的开放问题.

猜你喜欢

带隙神经网络预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
神经网络抑制无线通信干扰探究
一种基于BJT工艺的无运放低温度系数的带隙基准源
基于神经网络的中小学生情感分析
一维周期掺杂热子晶体带隙的研究
间距比对双振子局域共振轴纵振带隙的影响
一款高PSRR低温度系数的带隙基准电压源的设计
不必预测未来,只需把握现在