异恶唑姜黄素类似物抗结核分枝杆菌活性定量构效关系的研究
2019-01-09王婷田红丽李平
王婷,田红丽,李平
(银川能源学院 石油化工学院,宁夏银川 750105)
结核病是一种慢性传染病,它严重危害着人体健康,全球被感染的人数约20亿人次。我国是22个结核病流行严重的国家之一,也是27个耐多药结核病流行严重的国家之一[1]。目前,结核病的发病率在全球呈现上升的趋势,结核分枝杆菌产生了耐多药性,这种耐多药的MDR2TB菌株明显增多,极大地冲击了常用的治疗结核病的各类西药,正因如此,结核病再次成为难治愈的传染性疾病之一。有研究表明,中药对结核分支杆菌有明显的抑制作用,姜黄素及其类似物,由于具备各种生物活性并且对多种金属离子具有识别作用,近年来成为国内外研究重点。姜黄素取自姜科姜黄属植物姜黄、郁金、莪术等的根茎[2],其分子结构见图1。由于姜黄素作用基团较多,采用的配体和被修饰的基团、结构不同,所以近年来姜黄素的类似物可谓层出不穷。
到目前为止,有很多种合成姜黄素类似物的研究[3-4],定量结构-活性相关(QSAR)提供了一个有价值的基于分子描述符来预测活性值的方法。笔者采用启发式方法(HM)和径向基函数神经网络(RFBNN)预测47个异恶唑姜黄素类似物抗结核分枝杆菌的活性。目的是建立一个稳定的QSAR模型,来预测各种姜黄素类似物的抗结核分枝杆菌的活性。
1 数据和方法
1.1 数据集
47个异恶唑姜黄素类似物抗结核分枝杆菌的活性数据来自文献[5]。在这些化合物中,存在多种不同类型的异恶唑姜黄素类似物。原文献中共有59个异恶唑姜黄素类似物,在计算时,由于其中有7个化合物缺少活性数据,以及另外5个化合物是作为混合物掺和而测得的活性数据,所以选择了其中47个化合物,除去了12个化合物。为了建立良好的非线性的QSAR模型,47个化合物的数据集被随机的分成了训练集和测试集。训练集包括37个化合物,用于构建一个预测模型;测试集包括10个化合物,用于检验模型的泛化能力。化合物对结核分枝杆菌的最低抑菌浓度MIC值均被转换为pMIC(MIC值的负对数)用于QSAR模型的构建。
1.2 方法
1.2.1 描述符的计算
47个异恶唑姜黄素类似物的二维分子结构来自SciFinder数据库。在确认无误后,在HyperChem8.0软件中用分子力学MM+方法优化分子结构,然后在HyperChem软件中使用半经验量子化学PM3方法来进一步进行分子结构的优化,再将结构优化文件输入到MOPAC软件中,使用MOPAC程序中的PM3方法来优化分子结构[6]。最后将优化后的分子结构文件导入CODESSA2.63[7]软件中,计算出分子结构的五类描述符,即组成、拓扑、几何、静电和量子化学。
1.2.2 启发式方法(HM)
本论文中应用的启发式方法(Heuristic Method,HM)是在CODESSA软件下进行的[8-9],启发式方法线性模型选择最优描述符,其优点是不限制活性数据集的大小,并且运算速度很快。同时,该方法还可以快速地计算出该模型相关系数,并对已建立的线性模型做出评价。启发式方法首先对所有计算出的描述符进行预筛选,删除不需要的描述符,然后通过单参数建模,把所建模型相关系数降序排列,再计算出描述符之间的相关关系矩阵,删除相关度高的描述符之后,以逐步回归建立具有最佳统计值的线性模型。模型的质量由相关系数(R2),交互验证系数(Rcv2),F检验值和标准方差(s2)来评价。
1.2.3 径向基函数神经网络(RBFNN)
径向基函数神经网络作为一种常用的神经网络模型,是一种非线性方法,被广泛地应用于QSAR/QSPR模型建立及分类,它的特点是具有最优逼近和全局逼近,这种方法利用生物的局部调节原理,加上生物交叠接受区域的知识,建立局部接受域,然后执行函数映射。其原理结构图见图2。
图2 RBFNN的典型结构
对于RBFNN建立的模型,通常采用均方根误差(RMSE)来评价模型的预测能力。为了便于比较两种方法以得到更精确的模型,以HM选择的相同描述符的值作为RBFNN的输入数据,其中RBFNN是基于MATLAB脚本M-file语言编写的程序来建立非线性模型,进一步讨论异恶唑类姜黄素类似物分子结构与抑菌活性的关系。
1.2.4 QSAR模型的预测能力
QSAR建立模型,还有一个很重要的环节,就是评价QSAR的预测能力。一般情况下,下面的这些参数常常被用来作为评价指标[10]:(1)训练集的预测值和观测值的相关系数R2;(2)测定的相关系数(预测值对实验值R02,以及实验值对预测值R'02;(3)回归方程的斜率(预测值对实验值k,以及实验值对预测值k'。如果得到的模型的参数能满足以下条件,那么这个模型的预测能力就是比较好的:
2 结果与讨论
2.1 线性模型
为了建立最佳的描述符与异恶唑类姜黄素类似物抑菌活性的关系,通过对描述符进行启发式筛选后,分析了包含1至8个描述符的多参数相关性模型。当逐渐增加描述符的个数后对模型的统计性能没有明显的改进时,就说明继续增加描述符的个数已无益于模型的建立,选择当R2的增幅小于0.02时来作为不再增加描述符个数的标准[10],以此来避免模型的“过拟合化”。该模型的预测结果见表1,相关系数R2为0.882 6,拟合效果较好,可用该方法对化合物的抑菌活性进行预测。线性模型建立如下:
pMIC=149.51(±45.25)-0.78(±0.077)×HDSA1-1.128(±0.28)×HDSA2+0.066(±0.015)×PP/SD+0.0058(±0.0013)×XYS+0.064(±0.018)×RNO-4.07(±1.18)×RNSN=47
R2=0.882 6, Rcv2=0.837 1, F=50.10, s2=0.0981
说明:其中编号带*的是测试集,其余是训练集。
2.2 非线性模型
从采用启发式方法建立的线性回归来看,模型的R2=0.882 6,说明选定的描述符与异恶唑姜黄素类似物的抗结核分枝杆菌活性之间存在着一定的线性关系,为了得到更优的模型,使用相同的描述符数值作为输入值建立非线性模型,进一步探讨异恶唑姜黄素类似物的分子结构与抗结核分枝杆菌活性之间是否存在着非线性关系。在进行了RBFNN参数优化后,选择当训练集的相对标准偏差RMSE最小时的半径r作为最佳半径,在RBFNN建立模型的过程中,系统不断地改变半径r来寻求最佳半径,这时对应的可以得到留一法(LOO)的结果,半径r与RMSE的关系图见图3。由图3可以看出当RMSE最小时,最优半径r为2.7。表1中列有RBFNN的非线性模型结果,揭示了化合物的抑菌活性实验值和预测值的关系。该模型得到的统计结果:训练集:RMSE=0.244 6,R2=0.915 2;测试集:RMSE=0.298 3,R2=0.952 3。
2.3 QSAR模型预测能力的检验
通过比较HM和RBFNN,可以发现,在模拟结构参数与化合物抑菌活性之间的关系时,RBFNN模型更精确。同时我们根据评价QSRR模型预测能力的标准,R2>0.6,从统计意义上来说,该模型相对较高预测能力,那么这个模型是可以接受的。根据这些条件,得到化合物的RBFNN模型。该模型测试集的预测能力的相关检验结果如下:
R2=0.9523>0.6 |R20-R'20|=0.0042<0.3
0.85≤k=0.9161≤1.15 or 0.85≤k=1.05≤1.15
从上面几个结果可以看出,采用的第二种建模方法RBFNN所建立的非线性模型在活性的预测性能上表现出更大的优势,从另外一个角度说明它所建立的模型以及该模型的实际预测能力相比HM而言是较稳定的。
图3 RBFNN计算半径r与RMSE的关系
2.4 描述符讨论
从对分子描述符的解释,可以了解到影响该类化合物抗菌活性的结构因素。模型所选取的六个相关描述符中,两个反映分子组成的组成描述符:The relative number of Satoms和The relative number of O atoms。三个涉及化合物电子分布的描述符:HAdependent HDSA-2(Quantum-Chemical PC),HAdependent HDSA-1 (Zefirov's PC) 和 Polarity parameter / Square distance;一个几何拓扑描述符:XY Shadow,这些描述符是通过计算所给原子的三维坐标描述来描述分子形状的。
表1 样本的实验值和预测值
相对氧原子数目和相对硫原子数目都是与分子组成相关的描述符。相对氧原子数目是由氧原子数目除以分子的总原子数目计算得到的,同时影响分子的电子云密度。该描述符出现于含烷氧、羧基和羰基的化合物,并且反映了在形成氢键的过程中拥有足够电子密度的基团的氢键接体能力。描述符与模型呈负相关性表明在水相中增加氢键作用,会降低化合物性质。同样,相对硫原子数目对化合物性质也具有一样的影响。
两个电子描述符描述了氢键供体表面积,分别通过Zefirov和量子化学计算得到。由于氢键供体面积增加,使得形成氢键变得更加容易,致使氢键受体的接受能力也相应增加。所以这些描述符描述了氢键受体的接受能力。当它们在模型中呈现负相关,就表明拥有越强的氢键受体能力的化合物,其性质参数越低。模型中引入的另一个电子描述符,即极性参数/平方距离描述符。它直接通过计算分子分布电荷与最高和最低的局部电荷间距离平方的比值得到,描述了化合物的极性,其值越大极性越小。由于描述符与模型呈正相关性,表明化合物的极性与其性质呈反比。
XY影像反映了分子的大小和几何形状(标准化的影像指数)。它是分子从空间映射到在X轴和Y轴形成平面上投影,并表示该分子在长轴方向上的大小。正相关系数表明在XY平面的影像越大越有利于化合物性质参数的增大。原因可以归结为性质参数取决于分子的表面积。分子表面积是由计算切片的增量dx与封闭圆弧的长度乘积的总和得到的。此描述符与模型呈正相关性,表明增加与土壤中分子的接触表面积可以增大其土壤水分配系数。
从以上的讨论中可以看到,所有参与QSAR模型的描述符都有明确的物理、化学意义。它们对化合物性质的影响可以总结为两个方面,即表面积和氢键受体能力,所得结论与普遍接受的学说[10]相一致。因此,分子描述符能够很好地表示化合物的结构特征,解释结构特征与化合物性质之间的关系。
3 结论
(1)从大量的分子描述符中选择出适合的描述符来建立的有意义的可靠的构效关系模型,使其应用于预测异恶唑姜黄素类似物的抗结核分枝杆菌活性。采用启发式方法(HM)建立了线性模型简单明了的指出了哪些描述符对这类化合物的抑菌活性起作用。通过解释选定描述符得到影响化合物抗菌活性的因素,对合成高性能化合物的实验进行指导。
(2)采用径向基函数神经网络(RBFNN)用同样的分子描述符建立的非线性模型表现了更强的预测能力。训练集的交互验证系数Rcv2及测试集的相关统计指标说明了模型具有较好的预测能力和准确性,该方法可以用来预测各种姜黄素类似物的抗结核分枝杆菌的活性。