APP下载

吲哚啉染料最大吸收波长的定量结构性质关系研究

2024-04-27刘婉玲梁超杰熊迅宇

化工技术与开发 2024年4期
关键词:描述符吲哚染料

刘婉玲,焦 龙,梁超杰,李 雯,李 栋,薛 丹,熊迅宇

(西安石油大学化学化工学院,陕西 西安 710065)

染料敏化太阳能电池(dye-sensitized solar cells,DSSCs)因低成本和高光电转化效率,一直备受关注[1-2]。吲哚啉的价格便宜,环境友好,结构修改灵活[3],同时具备优秀的电子提供能力和出色的光吸收性能[4],可用作DSSCs 的染料敏化剂。在设计新型吲哚啉染料分子时,需要测定其最大吸收波长λmax,这是衡量吲哚啉染料吸光性质的重要参数。实验测定吲哚啉染料的λmax值是一项步骤繁琐、耗时耗力的工作[5]。定量结构性质关系(quantitative structure property relationship,QSPR)是一种将化合物结构与其物理化学性质联系起来的数学模型[6],能够根据化合物的结构直接预测其化学性质。建立QSPR 模型是一种简单、快速、低成本地预测吲哚啉染料λmax值的方法,已成功应用于预测有机分子的λmax值。Mai 等人[7]使用极限梯度提升算法,建立了预测偶氮染料λmax值的QSPR 模型。Xu 等人[8]使用多元线性回归(multiple linear regression,MLR)建立了70 种染料的最大吸收波长的QSPR 模型。Liu等人[9]使用径向基函数神经网络,建立了69 种黄酮λmax值QSPR 模型。Hernández 等人[10]提出了2 种QSPR 模型,用于预测染料敏化太阳能电池的光电转换效率和有机染料的λmax值。MLR 是一种常用的统计分析方法,用于研究多个自变量与1 个因变量之间的关系,具有简单快速的优点,被广泛应用于QSPR的研究中。

本文采用MLR 方法建立了1 个QSPR 模型,用于预测吲哚啉染料的λmax值,并采用留一交叉验证(leave one out cross validation)和外部测试集验证(external test set validation)这2 种方法[11-12],对模型的有效性进行了验证。

1 材料与方法

1.1 数据与分子描述符计算

用于建模的69 种吲哚啉染料的λmax以及SMILES 结构式均来源于文献[13],使用Python 中的RDKit 库,对69 种吲哚啉染料的SMILES 结构式进行计算,产生了208个结构描述符。

将69 个化合物按照4∶1 的比例随机划分为2组,1 组(Group A)包含52 个样本,用于特征选择和模型创建,另1 组(Group B)包含17 个样本,用于检测模型的预测能力。

1.2 多元线性回归

MLR 是一种常见的统计算法,用于在QSPR 研究中建立1个或多个自变量与单个因变量之间的线性关系模型。MLR模型方程的数学模型见式(1)。

其中,x1、x2、…、xm是特征向量,β1、β2、β3、…、βm为回归系数,用来描述某一自变量的变化引起的因变量的变化程度,ε为随机误差。

现得到n个独立观测数据(yi,xi1,xi2,…,xim),由式(1)可得:

记:

则式(1)可表示为:

1.3 特征筛选

当自变量之间存在高度相关性时,会导致多重共线性问题,进而使得模型的参数估计变得不稳定,即使是微小的样本扰动也可能导致模型参数出现较大的变化。多重共线性会降低模型的解释能力和预测准确性,因此要先使用相关性过滤方法对大量的描述符进行预处理。相关性过滤可以剔除冗余描述符[14],若分子描述符间的相关系数大于0.9,则只保留其中1个。

再使用递归特征消除[15](recursive feature elimination,RFE)对描述符进行进一步的筛选。RFE通过增加或剔除特征变量,获得1 组最适用于模型的变量。RFE 算法利用1 个基模型来进行循环训练,直至筛选出最适用于模型训练的特征集。在训练时,所有的特征变量全部参与模型训练,计算每个特征变量的重要性并进行排序。每完成一轮训练就会剔除重要性差的特征,将余下的特征组成新的特征集,开始新一轮的训练,最终筛选出最优特征集。RFE 方法以及MLR 算法通过Python3.9 的Scikit-learn库实现。

1.4 模型的评价与验证

留一交叉验证是评估模型预测能力的一种常用方法,能够在样本数较少的情况下,对模型的预测能力做出较准确的评估[16]。对n个已知样本,应用留一交叉验证需要进行n次建模预测。每次建模时,选择1 个样本作为测试集,剩下的(n-1)个样本作为训练集,然后用训练集建立模型,并对选定的测试样本进行预测。重复这个过程n次,确保每个样本都被作为测试集进行了1次预测。

对模型的验证主要包括内部验证和外部验证。内部验证选用留一交叉验证的方法,主要检验模型的拟合度和稳定性。外部验证主要用于测定模型的预测能力,1 个合格的模型应具有适当的拟合度、稳健性和预测能力。选用决定系数(R2)、留一交叉验证相关系数(QLOO2)、均方根误差(root mean square error,RMSE)和平均相对误差(mean relative error,MRE)作为模型的评价指标,公式为:

式中,yi、ŷi和yˉi分别表示第i个样本的实验值、预测值和实验值的平均值,n表示样本数量。

2 结果与讨论

2.1 描述符筛选与模型建立

对计算出的208个描述符使用相关性过滤法删除冗余描述符,分析各描述符之间的相关系数,对相关系数大于0.9 的描述符,删除其中的1 个描述符,剩余103个描述符。在Group A上使用RFE方法对描述符做进一步的筛选。特征筛选的具体过程为:将MLR 作为RFE 算法的基模型,使用103 个描述符训练模型,并根据每个描述符的特征重要性进行排序;剔除排名最后一位的描述符,得到1个新的描述符子集,再用新的描述符子集重新训练模型,并更新描述符的重要性排序。重复上述过程,直到参与构建模型的描述符剩下最后1个。最终将QLOO2作为描述符子集的筛选标准。当描述符为NumAromaticHeterocycles、NumHAcceptors、fr_Ar_N、fr_Imine、 fr_alkyl_halide、 fr_aniline、 fr_ketone、fr_pyridine 时,QLOO2的值最高,为0.635。表1 为上述8个描述符之间的线性相关系数。

表1 结构描述符间的相关系数Table 1 The correlation coefficient between the descriptors

以NumAromaticHeterocycles、NumHAcceptors、fr_Ar_N、 fr_Imine、 fr_alkyl_halide、 fr_aniline、fr_ketone、fr_pyridine 这8 个描述符为自变量,吲哚染料λmax值为因变量,将Group A的52个样本作为训练集,使用MLR 方法建立吲哚啉染料λmax值的QSPR模型,再将Group B 作为测试集,对其中17个化合物的λmax值进行预测。

2.2 模型性能验证

利用MLR 算法建立了吲哚啉染料λmax的QSPR模型,模型训练集的RMSE 为31.001,MRE 为3.84%,R2为0.767。应用Group A 的52 个样本进行留一交叉验证,每次选定1个样本作为未知样本,以其余51个样本作为训练集建立回归模型,用所得模型对选定的1 个未知样本进行预测,共进行了52 次预测。全部预测值与实验值间的RMSE、MRE 和QLOO2,分别为38.808、4.65%为0.635。将Group B 作为外部测试集,对其中17 个化合物的λmax值进行预测,全部预测值与实验值间的RMSE、MRE 和R2,分别为31.109,3.84%和0.749。图1 为MLR 算法所构建模型的实验值与预测值的对比图,由图可知,吲哚啉染料λmax的预测值与实验值基本符合。上述结果表明,所建立的模型稳定性良好,对未知样本有较好的预测能力,可用于预测吲哚啉染料的λmax值。

图1 吲哚啉染料λmax值的实验值与预测值的对比图Fig.1 The plot of predicted λmax versus the experimental λmax

3 结论

通过特征筛选,选择NumAromaticHeterocycles、NumHAcceptors、fr_Ar_N、fr_Imine、fr_alkyl_halide、fr_aniline、fr_ketone、fr_pyridine 这8 个描述符为自变量,吲哚啉染料λmax值为因变量,应用MLR 算法建立了预测吲哚啉染料λmax值的QSPR 模型。由留一交叉验证及外部测试集的验证结果可知,所得模型具有良好的拟合能力和较高的预测能力,能够用来预测吲哚啉染料的λmax值。模型中所用的描述符能够方便地通过RDKit 库计算得到,MLR 模型的建立是一个简单快速的过程。因此,基于分子结构描述符,应用MLR方法建立吲哚啉染料λmax值的QSPR模型,是一种简单快速、有很好应用前景的预测吲哚啉染料λmax值的方法。

猜你喜欢

描述符吲哚染料
基于结构信息的异源遥感图像局部特征描述符研究
新染料可提高电动汽车安全性
吲哚美辛肠溶Eudragit L 100-55聚合物纳米粒的制备
中国染料作物栽培史
HPV16E6与吲哚胺2,3-二氧化酶在宫颈病变组织中的表达
基于AKAZE的BOLD掩码描述符的匹配算法的研究
氧代吲哚啉在天然产物合成中的应用
吲哚胺2,3-双加氧酶在结核病诊断和治疗中的作用
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习