香水百合香气成分的气相色谱保留指数三维定量构效关系研究
2020-03-31邰文亮刘焕焕薛志伟王彦昭
焦 龙, 王 媛, 邰文亮, 刘焕焕, 薛志伟, 王彦昭
(1. 西安石油大学化学化工学院, 陕西 西安 710065; 2. 核工业二〇三研究所, 陕西 咸阳 712000)
香水百合(Liliumspp)是百合属(Lilium)的一种,又称卡萨布兰卡、天上百合,原产地为喜马拉雅区、澳洲等地。香气是衡量花卉的重要指标[1,2],花卉的香气取决于其化学组成。香水百合中香气的化学成分复杂且多数化合物含量非常少,色谱是研究这些化学成分的重要手段[3]。色谱保留指数(retention index, RI),又称科瓦茨指数(Kovats index),能够反映物质在色谱固定相上的保留特性,是一种常用的色谱分析参数,也是进行香水百合香气成分色谱分析的重要参数[4-7]。实验测定香水百合香气成分的色谱保留指数过程复杂,对设备要求高,耗费人力财力较多[8-10]。有必要建立其他能够得到香水百合香气成分色谱保留指数值的高效简便方法。
定量构效关系(quantitative structure-activity relationship, QSAR)是通过建立已知化合物分子结构与生物活性之间的数学模型,然后对未知同系列化合物的生物活性进行预测的一类化学计量学方法的总称,已经广泛应用于药物化学、植物学、毒理学、环境风险评价等领域[11-14]。三维定量构效关系(three-dimensional quantitative structure-activity relationship, 3D-QSAR)是一类新兴的QSAR方法,相比于传统的2D-QSAR方法,3D-QSAR是通过分子三维空间构型计算各种场的作用以建立QSAR模型,无需计算大量描述符,操作简单,一般模型预测准确度更高,且更为稳定。迄今为止,很少有有关香水百合香气成分色谱保留指数3D-QSAR研究的报道。因此,本研究采用3D-QSAR中常用的比较分子场分析(comparative molecular field analysis, CoMFA)和比较分子相似性指数分析(comparative molecular similarity index, CoMSIA)这两种方法,针对来自香水百合的38种香气成分化合物,建立化合物的分子结构与色谱保留指数之间的QSAR模型,分析香水百合香气成分的分子结构对其RI值的影响。
1 实验与方法
1.1 数据集
38种被研究化合物的气相色谱保留指数数据来自于文献[2,14]。将这38个化合物随机分为两组:第Ⅰ组(Group Ⅰ)包含30个化合物;第Ⅱ组(Group Ⅱ)包含8个化合物。
用均方根相对误差(RMSRE)、交叉验证均方根误差(RMSECV)、预测均方根误差(RMSEP)评价模型的预测能力,其定义分别见式(1)、(2)、(3)[15]。
(1)
(2)
(3)
1.2 分子构建与结构优化
在SYBYL-X 2.0软件(Triposinc., U. S.)中进行CoMFA和CoMSIA建模。建立38个化合物分子的计算机模型。采用Tripos标准力场对化合物结构进行优化,电荷计算采用Gasteiger-Hückel电荷类型,能量梯度收敛值RMS设为0.005 kcal/(mol·Å),最大迭代次数设为1 000次,其余均采用默认值。
1.3 CoMFA模型
CoMFA方法主要是通过研究化合物与受体非共价相互作用时静电场(electrostatic, E)和立体场(steric, S)的情况来预测化合物分子的性质。其建模步骤包括:(1)选择化合物分子的活性构象,再将全部被研究化合物进行叠合; (2)按照分子的笛卡尔坐标生成一个可包容所有分子且与最外围原子至少保持40 nm距离的区域,然后按一定的步长将此空间范围均匀划分,生成相应的网格点; (3)采用sp3杂化的c+离子探针和Tripos力场,对叠合分子周围每个网格点上S、E的分布和大小进行计算,S、E作用能分别用Lennard-Jones公式和库仑函数计算; (4)由于网格点数目非常多,远大于校正集样本数,为了避免自变量的多重共线性,需要进行变量降维。因此将计算得到的分子场值作为自变量,色谱保留指数为因变量,用偏最小二乘法建立分子场与被研究化合物性质之间的定量关系。采用留一交叉验证法(leave one out cross validation, LOO)可得到交叉验证系数(q2)和最佳主成分数(N);在最佳主成分数下进行非交叉验证(no-cross validation),得到估计标准偏差(SEE)、非交叉决定系数(R2)和Fisher统计量F,通过以上得到的参数可初步检验模型的稳健性和预测能力。最后通过CoMFA模型获得的三维等势图可直观显示静电场和立体场对化合物活性的贡献[15-17]。
1.4 CoMSIA模型
CoMSIA与CoMFA二者建立模型的原理类似,分子叠合部分完全相同。但CoMSIA需要计算5种分子场,CoMSIA的5种分子场分别是立体场、静电场、疏水场(hydrophobic, H)、氢键供体场(donor, D)和氢键受体场(acceptor, A),可将5种不同场自由组合,形成31种组合方式的CoMSIA模型,选取最佳的CoMSIA模型进行预测。根据LOO交叉验证和非交叉验证得到的模型参数,对模型的稳健性和预测能力进行初步检验。最后还可得到5种不同场的三维等势图[18]。
图1 (a)模板分子及(b)分子叠合图Fig. 1 (a)Template compound and (b) molecular superposition diagram
2 结果与讨论
2.1 CoMFA模型结果分析
分子之间的重叠范围影响CoMFA模型的构建,由于9号分子的叠合程度最大且叠合效果最好,因此选取9号分子(1,3,8-对孟三烯)为模板分子进行叠合。运用Align Database模块选取公共骨架(图1a绿色显示的原子)对38个化合物进行分子叠合,叠合结果见图1b。
以第Ⅰ组化合物为训练集建立CoMFA模型,该模型的潜变数为12,R2为0.991,SEE为21.455,F值为162.026。用所建立的模型预测第Ⅱ组化合物的色谱保留指数,预测结果见表1。第Ⅱ组色谱保留指数的预测RMSRE为7.98, RMSEP为94.40,平均相对误差为6.67%,预测值与实验值之间的回归方程为y=0.600 3x+443.01(y表示预测值,x表示实验值),相关系数为0.780 5。如表1所示,化合物的色谱保留指数预测值和实验值基本一致。用第Ⅰ组完成留一交叉验证,依次预测第Ⅰ组中30个样品的色谱保留指数值。预测结果如表1所示,第Ⅰ组化合物色谱保留指数的预测RMSRE为1.28, RMSECV为16.16,平均相对误差为0.40%,预测值与实验值之间的回归方程为y=0.991 4x+10.45(y表示预测值,x表示实验值),相关系数为0.995 6。两种验证结果说明所建立的CoMFA模型基本合理,具有一定的预测能力,但应当研究能否建立预测准确度更高的模型。
图2 CoMFA模型的三维等势图Fig. 2 Contour maps of CoMFA model
图2为CoMFA模型中模板分子的立体场和静电场的三维等势图,从三维等势图可以直观看出不同基团和结构对化合物RI值的影响。立体场等势图中,绿色区域表示增大取代基体积RI值增大,黄色区域表示增大取代基体积RI值减小;静电场等势图中,红色区域表示增加负电荷RI值增大,蓝色区域表示增加正电荷RI值增大。从立体场等视图可见,在9号分子的环己二烯及侧链异丙烯基的位置附近显示为绿色区域,表示该两个基团使RI值增大,例如4号分子(缺少异丙烯基)与9号分子结构相似,但4号分子(RI=1 003)的RI值明显小于9号分子(RI=1 057),说明引入异丙烯基能够使得RI值增大。从静电场等势图可见,分子的侧链异丙烯基附近为红色区域,表示该区域添加负电荷能够增大化合物的RI值,分子侧链甲基附近显示蓝色,表示该区域添加正电荷能够增加化合物的RI值。
表 1 38个化合物色谱保留指数实验值及预测值
1) Samples of Group Ⅱ. 2) Compounds 5, 21, 26 are from reference [2] and the rest are from reference [14].
2.2 CoMSIA模型的结果分析
CoMSIA模型也是选取9号分子为模板分子进行叠合,分子叠合过程与2.1节中CoMFA建模完全相同。CoMSIA模型中立体场、静电场、疏水场、氢键供体场和氢键受体场自由组合形成31种组合方式,经计算最佳分子场组合为“S、E、H、D、A”,即使用全部的分子场进行建模。以第Ⅰ组化合物为训练集建立CoMSIA模型,该模型的潜变数为12,R2为0.991,估计标准误差SEE为20.488,F值为236.744。用所建立模型预测第Ⅱ组化合物的色谱保留指数,结果见表1。第Ⅱ组色谱保留指数的预测RMSRE为4.02, RMSEP为48.74,平均相对误差为3.76%,预测值与实验值之间的回归方程为y=0.858 4x+153.54(y表示预测值,x表示实验值),相关系数为0.944 4。如表1所示,化合物的色谱保留指数预测值和实验值基本一致。用第Ⅰ组完成留一交叉验证,依次预测第Ⅰ组中30个化合物的色谱保留指数值,结果见表1。第Ⅰ组化合物色谱保留指数的预测RMSRE为1.34, RMSECV为16.85,平均相对误差为0.63%,预测值与实验值之间的回归方程为y=0.990 6x+11.37(y表示预测值,x表示实验值),相关系数为0.995 2。两种验证结果说明所建立的CoMSIA模型合理可靠,具有良好的预测能力。
CoMSIA模型中立体场、静电场的等势图与CoMFA模型基本一致,在此不再分析;疏水场、氢键供体场和氢键受体场的三维等势图见图3。在图3疏水场等势图中,白色代表亲水性基团能够使RI值增大,黄色代表疏水性基团能够使RI值增大;在图3氢键供体场等势图中,蓝色区域代表添加氢键供体能够使RI值增大,紫色区域代表添加氢键供体能够使RI值减小;在图3氢键受体场等势图中,紫色区域代表增加氢键受体能够使RI值增大,红色区域代表添加氢键受体能够使RI值减小。从图3疏水场等势图中可看出,分子中环己二烯和侧链异丙烯基附近区域显示黄色,表示该位置添加亲水性基团能够使RI值增大;分子侧链甲基显示白色,表示该位置添加疏水性基团能够使RI值增大;10号分子(RI=1 080)、13号分子(RI=1 097)的RI值明显高于9号分子,它们都引入了羟基亲水基团,因此说明添加羟基能够使RI值增大。从图3氢键供体场可看出,在分子侧链甲基附近位置显示蓝色,表示该区域氢键供体能够使RI值增大。从图3氢键受体场可看出,在分子侧链甲基附近位置显示紫色,表示该区域氢键受体能够使RI值增大。
图3 CoMSIA模型的三维等势图Fig. 3 Contour maps of CoMSIA model
3 结论
应用CoMFA和CoMSIA两种方法,建立了香水百合香气成分中38种化合物分子结构与色谱保留指数之间的3D-QSAR模型。研究表明CoMFA模型和CoMSIA模型都具有较好的相关性和预测能力,且能够合理解释结构对色谱保留指数值的影响,可应用于对香水百合香气成分的色谱保留指数值的预测。相比于CoMFA模型,CoMSIA模型预测准确度更高,在香水百合香气成分的色谱定量构效关系研究中,显然有更好的应用前景。香水百合香气成分中38种化合物包含烯烃、酮、酯、醇、多环芳烃等不同种类化合物,因此可证明CoMFA和CoMSIA两种方法对不同种类化合物的性质具备较好的预测能力。