APP下载

定量构效关系应用于水中有机污染物降解过程的研究进展

2021-08-19李玉坤炊衣琦杨凯峰

化工环保 2021年4期
关键词:分子结构描述符有机

张 丹,晁 聪,李玉坤,炊衣琦,杨凯峰

(1. 中原工学院 能源与环境学院,河南 郑州 450007;2. 河南省食品安全检测工程技术研究中心,河南 郑州 450000)

随着经济的快速发展,越来越多的有机物被合成、使用,并排放到水体、大气、土壤、沉积物等环境介质中,进入人类赖以生存的生态系统。多数有机污染物具有毒性高、易生物富集等特点,能直接或间接紊乱内分泌系统、干扰免疫系统平衡,对人体健康和生态环境构成威胁[1]。因此,对有机污染物降解过程的研究已引起广泛关注。然而,由于有机污染物种类繁多,要逐一、全面地对其进行降解实验并不现实。因此,基于已有的有机污染物降解过程的研究,建立多种有机污染物分子结构与环境转化性质之间的定量构效关系(quantitative structure-activity relationship,QSAR)十分必要[2-3],不仅可以节省实验所需的人力、物力资源,还能依据建立的模型对未知化合物的反应活性、转化机制进行模拟预测。近年来,越来越多的研究者将QSAR应用于苯系物[4]、多环芳烃[5]、有机磷酸酯[6]、染料[7]等有机污染物的自由基氧化、微生物降解、超临界水氧化、光降解等过程的研究。

本文介绍了QSAR的原理及建模方法,对QSAR应用于水中有机污染物不同降解过程中反应活性模拟预测及机理解释的研究进行了综述,并对该领域的发展趋势进行了展望,以期为相关研究提供参考。

1 QSAR的原理及建模方法

1.1 基本原理

QSAR基于化合物分子结构与理化性质、环境迁移转化行为及生态毒理学效应之间的内在联系,以同系物或多种有机物的结构参数或理化参数为自变量,反应活性、毒理效应等为拟预测变量即因变量,利用数理统计方法建立自变量与因变量之间的定量关系[8]。QSAR模型既可预测未知化合物的目标性质,又能解释分子结构变化导致的性质变化,推测可能的作用机理,还可指导化合物的改性[9]。

QSAR首先由HANSCH等[10-11]在20世纪60年代确立,随着计算机技术、人工智能及机器学习技术的发展,研究化合物分子结构与其反应活性/毒理效应之间定量关系的手段得到了丰富[12]。目前二维QSAR主要有Hansch法、基团贡献法、分子连接性指数法等;近年来三维结构信息的引入开启了三维QSAR,主要有分子形状分析、距离几何法、比较分子相似因子分析等[13]。在三维基础上考虑分子多构象计算的四维QSAR,进而考虑受体对配体诱导契合的五维QSAR,以及考虑受体、配体相互作用时溶剂化作用的六维QSAR,使人们对QSAR理论及技术有了更深入的认识[14]。虽然三维以上的方法考虑因素更多、更接近真实体系,但目前尚处于方法研究阶段,应用较少。

QSAR模型的建立流程如图1所示,收集的数据分为拟预测变量数据和分子结构描述符数据,应确保数据尽可能完整可靠,这是模型有效的前提。数据的来源通常有3种方式:1)实验;2)文献,如学术期刊、报告、网站等;3)在线或离线的计算机程序、数据库。分子结构描述符是化合物理化性质的量化表征,一种有机物包含大量的分子结构描述符,如组分描述符、量子描述符、几何参数、电子参数等,但并不是所有的描述符在QSAR建模中都有用,很多描述符表现出与拟预测变量较差的相关性或与其他描述符的共线性,因此,进行分子结构描述符的筛选十分必要,这有助于降低处理过多描述符的复杂性、降低过度训练的风险[15]。建立化合物结构与反应活性/毒理效应关系模型的方法一般分为线性、非线性两类,线性方法通常有回归分析(多元线性回归(multiple linear regression,MLR)、主成分回归(principal component regression,PCR)等)、聚类分析、因子分析、模式识别等多元统计分析方法,非线性方法主要有支持向量机(support vector machine,SVM)、人工神经网络(artificial neural network,ANN)、遗传算法等[16]。最后,对建立的模型进行验证与评价,多采用内部验证评价模型的稳健性和拟合度,采用外部验证评价模型的预测能力。

图1 QSAR模型的建立流程

1.2 建模方法

在完成数据收集、分子结构描述符的筛选后,需要建立分子结构描述符(自变量)与拟预测变量(因变量)之间的定量关系模型,此时建模方法的合理选择对于构建模型的有效性非常重要。下面将针对常用的QSAR建模方法进行简要阐述。

作为经典建模方法,MLR法被认为是所有回归方法中最具透明度的算法。MLR法基于多个独立自变量,建立与因变量的线性回归关系模型,进而预测因变量的大小。一般要求自变量之间不存在明显的自相关性,即多重共线性不显著。MLR方程中独立自变量与因变量的广义数学表达式如式(1)所示。

式中:y为因变量,即定量构效关系模型的拟预测变量;b0为常数项;b1,b2,…,bn为各独立自变量的回归系数;x1,x2,…,xn为独立自变量,即使用的分子结构描述符。

MLR法除了可得到自变量与因变量的关系,还可获得自变量对因变量的影响程度信息,具有结构简单、计算速度快等优点。ZHANG等[7]通过逐步MLR法建立的QSAR模型研究了偶氮染料分子结构与光降解活性之间的关系,结果表明:pH为9.0时的QSAR模型可对偶氮染料在紫外光照射下的光稳定性做出较为准确的预测;柔软度、碳原子上最正及最负部分的电荷是关键的描述符。MLR法在实际应用中应注意:1)自变量之间应相互独立,可通过方差膨胀因子诊断多重共线性;2)为了避免线性回归过拟合,使用的自变量数量不宜超过样本总数的1/5[16]。

PCR法首先将自变量集通过数据降维处理,排除重叠的部分,转换为少数线性无关的新变量,即主成分,同时尽可能保留自变量的数据结构特征;然后将主成分按贡献率排序,进行MLR。当自变量集维度太高时,降维提取贡献率大的主成分能降低建模复杂性,可较好地解决多重共线性问题。

与PCR法类似,因子分析通过研究自变量集的相关关系矩阵内部结构,寻找起支配作用的主因子[17],用于确定显著影响化合物反应活性的结构因素。模式识别将结构参数作为数量化的模式向量,使结构与活性联系起来[18],在QSAR研究中对于合理选择降解活性化合物具有指导作用。此外,偏最小二乘(partial least squares,PLS)法同样基于成分提取,除了考虑自变量数据集外,还兼顾因变量数据集,是一种多因变量对多自变量的建模方法[16]。PLS法兼顾MLR法和PCR法的优点,适用于分子结构描述符之间存在多重共线性或变量个数大于样本容量的情况。

1.2.2 SVM法

不同于传统统计学的经验风险最小化,SVM法是一类基于结构风险最小化原理的机器学习算法。SVM法结合最大化分类间隔思想和基于核函数的方法,致力于将非线性可分的数据通过核函数映射到高维特征空间,转化成可线性分割的关系。建模过程中,通过对比不同核函数,如线性核函数、径向基核函数、多项式核函数等的性能,选择合适的核函数,建立全局最优模型。徐镜善等[19]采用SVM法对酚类化合物进行QSAR研究,根据均方根误差最小原则,确定径向基核函数为最优核函数,所建立模型的预测精度(0.934)优于MLR法(0.895)及PLS法(0.894),表现了较好的预测能力、泛化能力。SVM法具有鲁棒性、精度高、自适应能力强等特点,在解决样本容量小、非线性、高维等问题方面具有独特优势。

葛根是苏伯维尔的君药,而葛根素则是葛根的有效成分,研究表明其具有解热〔4〕,镇痛〔5〕,抗菌、抗感染〔6〕,降血压〔7〕,降血糖、血脂〔8〕,抗氧化,抗肿瘤,解酒〔9〕等作用,与苏伯维尔的功能主治一致,所以本实验选择葛根素作为苏伯维尔水提工艺的含量测定指标。为考察提取情况,首先对葛根素含量进行考察,其次对浸膏得率进行考察,试验分析得出:葛根素含量比浸膏得率更好地反映药材的提取情况,故设计葛根素含量与浸膏得率的权重系数为8:2。为确保水提工艺的合理性,本实验进行了验证试验,结果表明,正交试验优选出的水提工艺合理可行。

1.2.3 ANN法

作为一种模拟人脑功能及神经网络工作的机器学习方法,ANN法以数学网络拓扑结构为理论基础,包括3层:输入层、输出层和位于它们之间的隐含层,其中隐含层数量至少为两个的神经网络称为深度神经网络。在前向传递中,变量由输入层输入,经过隐含层处理转换后,在输出层得到结果。如果输出层的输出结果达不到期望,通常会转入反向传播算法,对神经元的权值、偏差进行调整更新,从而使建立的模型能更好地描述自变量与因变量的关系[20]。杨静等[21]采用遗传算法结合ANN法构建了27种性质参数与23种酚类化合物臭氧氧化速率的QSAR模型,模型表明,酚类化合物电子云分布、苯环取代基性质、水溶液中溶剂化作用均会显著影响臭氧氧化速率;模型的预测值与实测值相关性显著(R2=0.95),预测能力较强,与PLS算法建立的模型相比,ANN模型稳健性更好。ANN法具有非线性、自适应学习能力强等优点,在解决非线性问题方面具有优势。

2 QSAR在有机污染物降解过程的应用

2.1 反应活性模拟预测

为研究有机污染物的环境归趋、降解转化,需要获得反应动力学参数,如降解速率、半衰期等。由于有机污染物种类繁多,逐一进行实验测定耗费大量人力、物力资源,难以适应环境评价的需要,建立有机污染物降解过程反应活性的QSAR模型具有重要意义。

2.1.1 光降解动力学的模拟预测

有机污染物的光降解分为直接光解和间接光解,是环境降解转化的重要途径[22-23]。作为光降解反应动力学的重要参数,光解速率是评估有机污染物光解过程、在环境中持久性的一项重要指标。研究表明,通过构建QSAR模型,可实现对偶氮染料、多环芳烃、溴化物等有机污染物光解速率的模拟预测,详见表1。

表1 有机污染物光降解反应速率的QSAR预测模型

ZHANG等[27]研究卤代消毒副产物的紫外光直接光解过程时发现,卤代基数目越多,光解速率越大;光解速率还受卤代基类型的影响,碘代>溴代>氯代。采用MLR方法构建的光解速率参数(logk)与分子结构描述符的QSAR模型表明,最高占据分子轨道与最低未占据分子轨道之间的能隙(ELUMOEHOMO)、复合扩展拓扑化学原子指数描述符与logk呈现较高的相关性,Williams图验证该模型具有较好的鲁棒性和可靠性。

CHEN等[28]研究了多氯联苯硫醚的直接光解反应,发现光解过程遵循准一级反应动力学方程,高氯化联苯硫醚的降解速率通常比低氯的同类化合物快;构建的光解速率QSAR模型表明,氯原子的取代模式、偶极矩和ELUMO-EHOMO是主要的描述符。王文清等[29]基于反向传播算法的ANN,以反应物浓度、H2O2投加量、光强度、pH、反应时间5个因素作为输入层,以反应物剩余率的对数作为输出层,利用94组数据构建了UV-H2O2光降解微囊藻毒素过程的QSAR模型,模型可对多因素条件下的光解速率进行仿真预测。

2.1.2 高级氧化过程反应动力学的模拟预测

高级氧化过程是指通过活化化学氧化剂产生的高活性物种(如羟基自由基·OH、硫酸根自由基SO4-·等),与有机污染物发生反应,将有机污染物氧化成小分子物质,甚至降解为H2O、CO2的过程[30]。高级氧化过程具有条件温和、高效、环境友好等优点,在环境有机污染物去除、原位化学修复领域的应用前景广阔[31]。高级氧化过程产生的·OH、SO4-·与有机污染物发生降解反应的速率常数(k)是表征污染物与活性物种反应强度、能力的重要参数,除了实验获取外,QSAR模型也是预测k的一种重要手段[22,32]。目前文献已构建的一些代表性QSAR模型如表2所示。

表2 ·OH、SO4-·与有机污染物反应速率常数的QSAR预测模型

LUO等[33]收集有机物分子与·OH的反应速率常数(k·OH),采用MLR方法构建了具有良好预测能力的QSAR模型,并发现最高占据分子轨道能(EHOMO)对模型的贡献最大,是影响k·OH的最主要因素,EHOMO作为衡量分子给电子能力的参数,其值越大越容易被亲电试剂·OH攻击发生降解反应。此外,考虑到许多有机物含有可电离基团,可以分解为不同种类的阴离子/阳离子,对·OH具有不同的反应活性,LUO等[34]研究了9种氟喹诺酮(fluoroquinolones,FQs)和11种磺胺类(sulfonamides,SAs)抗生素在3种解离形式(FQ±(两性离子)/FQ+/FQ-,SA0(中性)/SA+/SA-)下与·OH的反应速率常数(k·OH)的QSAR模型,发现CH2RX(X为电负性原子,如O、N、S、P、卤素)片段数、C原子上最大正原子净电荷和分子偶极矩是影响反应活性的主要因素,其中CH2RX片段数、分子偶极矩的增加会导致logk·OH值增大,而C原子上最大正原子净电荷的增加则导致logk·OH值的减小。模型预测了环境相关pH条件下不同解离形式FQs、SAs的k·OH,对可电离有机污染物的环境评估具有重要意义。

另外,YE等[41]在构建SO4-·氧化有机污染物过程的反应速率常数预测模型时发现,多元MLR建立的模型对训练集化合物的拟合精度为0.88,对验证集化合物的预测正确率为62%;ANN法建立模型的拟合精度更好(0.99),但对验证集化合物的预测正确率较低(42%),这表明不同的建模方法影响模型的拟合精度和预测能力。CHENG等[42]研究了30种有机物在不同氧化体系(O2、H2O2、O3和·OH)中的降解过程,建立了有机物氧化还原电位(oxidation-reduction potentials,ORP)的QSAR模型,随后基于反应速率常数(k)、氧化剂与有机物的ORP差值之间的线性关系,提出斜率、截距两个新的预测因子用于预测有机物的k值和最小氧化电位,建立了斜率、截距、ORP值的QSAR模型,这表明斜率、截距及相关量子化学参数可用于预测反应活性,为氧化剂的选择提供了新思路。

2.1.3 生物降解性的模拟预测

生物降解是指微生物通过氧化、还原、水解等作用使有机物分子发生矿化,转化成小分子的过程,通常被认为是有机污染物在环境中的一类重要降解转化过程[43]。开展有机污染物生物降解性的研究,有助于评估其在水体、土壤等环境介质中的潜在降解能力[44]。目前获取生物降解性数据的主要途径是实验测定,但难以通过实验测定所有有机物的生物降解性,且实验需要经过微生物菌株培养、筛选等过程。因此,开展生物降解性的QSAR研究十分必要,可通过QSAR模型探寻生物降解性的影响因素,预测其他有机污染物的生物降解性。

ACHARYA等[45]根据分子结构描述符将103种有机物分为3组(第1组,单环芳香类化合物,69种;第2组,多环芳香类化合物,34种;第3组,所有芳香类化合物,103种),采用MLR方法进行QSAR建模。发现与第1组数据集QSAR模型相关的描述符是与疏水性、电子性、立体性、尺寸有关的化学性质,而第2、3组数据集的QSAR模型与相对抽象的描述符相关,如分子几何、立体化学、构象指数、2D指纹等,因此单环芳香类化合物的QSAR模型比其他两组的更容易解释化合物分子结构对生物降解性的影响。CHEN等[46]以825种有机物为大样本,采用C4.5决策树、函数内回归树和逻辑回归方法分别建立生物降解性的预测模型,发现函数内回归树模型在训练集和验证集上的预测准确率分别为81.5%和81.0%,稳健性最好;C4.5决策树和逻辑回归模型形式相对简单,容易理解预测规则。此外,唐晨等[47]基于587种有机物的数据,分别利用MLR法、SVM法建立QSAR模型,根据有机物各碎片基团与生物降解性的相关系数,发现芳香酸、醛、脂肪酸、脂肪醇等对生物降解性有明显的促进作用,而芳香碘、叔胺、芳香硝基、氨基甲酸酯等对生物降解性的消极影响较大。SVM模型的总体预测率(87.9%)和验证集正确率(86%)均高于MLR模型(81.4%和82%),具有较好的预测能力。

QSAR模型不仅在好氧生物降解性的模拟预测领域得到了成功应用,在厌氧生物降解过程也同样适用。马益等[48]基于155种有机物的“血清瓶”厌氧生物降解筛选实验数据,分别采用MLR法、反向传播人工神经网络(BP-ANN)法构建QSAR模型,发现积极影响厌氧生物降解性的碎片基团有16种,其中磷酸酯、溴代脂肪烃、吡啶环等贡献值较大;起到消极影响的碎片基团有20种,叔胺、酰胺、甲基芳香烃等贡献较大。模型评价结果表明,BP-ANN方法预测精度优于MLR方法。

此外,QSAR在多环芳烃[5]、邻苯二甲酸酯[49]、苯酚[50]、芳香类化合物[51-53]等有机污染物生物降解性预测的应用均表明,QSAR模型可为有机污染物活性参数研究提供参考,有助于帮助合理预测结构相似的未知有机污染物的环境转化行为。

2.2 反应机理解释

QSAR除了模拟预测不同降解过程的反应活性外,所反映出的分子结构描述符信息还有助于阐释反应机理[54],为有机污染物的去除提供理论指导。LUO等[4]构建了·OH、SO4-·与76种芳香类有机污染物反应活性的QSAR模型,发现EHOMO是对反应活性影响程度最大的描述符。EHOMO越高的分子越容易受到强亲电体的攻击,有助于电子的转移过程;与·OH相比,高EHOMO分子更易与SO4-·发生反应。最高占据分子轨道分布依赖于官能团类型,因此参考最高占据分子轨道分布可以区分不同官能团有机物分子反应的倾向性差异,QSAR模型反映出的EHOMO描述符可作为衡量自由基氧化反应单电子转移路径的定量指标。

LI等[55]分别以脂肪族、芳香化合物为数据集,采用MLR方法建立了水合电子反应速率常数的QSAR模型,发现均包含最低未占据分子轨道能(ELUMO)、单电子还原电位(ERED)、极化率(α)3个描述符。与经常出现在氧化反应(如·OH反应)速率预测QSAR模型中的描述符EHOMO相比,ELUMO是还原反应重要的预测变量,代表分子对亲核体(如水合电子)攻击的敏感性,对脂肪族和芳香化合物水合电子反应速率常数的方差解释率分别为60.1%和56.4%,低ELUMO分子更倾向于从其他来源获得电子,并被还原。ERED描述了化合物的还原活性,α则与整体反应活性有关,α越高,电子分布越灵活,对亲核体或亲电体的反应性越强。CVETNIC等[56]对17种新兴污染物光氧化降解过程(UV-C/H2O2、UV-C/S2O82-)的系统行为进行研究,采用遗传算法结合MLR建立了QSAR模型,模型表明与新兴污染物副产物降解动力学的经验参数u和s相关的描述符可较好地解释降解机理,即降解过程为·OH、SO4-·氢取代路径和电子转移路径;另外两个描述慢、快矿化副产物比值的经验参数w和q依赖于新兴污染物母体的结构特征,如紧凑/线性结构、分子对称性等,可用描述符和与分子大小、形状相关的权重因子来解释。QSAR模型在将反应动力学、降解机制与简化的反应路径相关联方面提供了较高的准确性。

3 结语与展望

QSAR将有机污染物分子结构与降解活性、机理解释联系起来,适合处理大量数据。QSAR模型能够识别现有数据的趋势,模拟预测未经测试化合物的反应活性,为研究环境中种类繁多的有机污染物的降解过程、环境归趋提供了一种可行的解决方案,但在实际应用中仍需不断探索。未来可对以下主要问题进行深入研究。

a)降解活性数据受实验条件、方法的影响,不同来源的数据可比性有限,直接用于构建QSAR模型会影响模型的准确性,需建立有机污染物降解活性数据筛选流程,确定统一、标准的筛选方法。

b)对于新兴污染物降解过程研究,应补充、扩展QSAR模型降解活性数据集数据。

c)如何将QSAR模型应用于实际环境介质,如水体、土壤、大气等,还有待解决。QSAR模型直接外推到其他条件并不科学,需建立可定量有机物分子中不同官能团诱导效应、共振效应、立体效应的相互作用因子,在QSAR模型中考虑复杂环境介质中共存的有机污染物或介质成分(如溶解性有机物、阴阳离子、酸碱度等)对目标污染物反应活性的影响。

猜你喜欢

分子结构描述符有机
把握分子结构理解物质的性质
有机旱作,倚“特”而立 向“高”而行
基于结构信息的异源遥感图像局部特征描述符研究
九十九分就是不及格——有机农业,“机”在何处?
三步法确定有机物的分子结构
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
解读分子结构考点
外电场中BiH分子结构的研究
有机心不如无机心