分子电性距离矢量用于FCC汽油中硫化物的QSRR研究*
2014-07-24张晓彤王芳姚岳孙兆林宋丽娟孙挺
张晓彤,王芳,姚岳,孙兆林,宋丽娟,孙挺
(1.辽宁石油化工大学,辽宁省石油化工催化科学与技术重点实验室,辽宁抚顺 113001; 2.东北大学理学院,沈阳 110004)
分子电性距离矢量用于FCC汽油中硫化物的QSRR研究*
张晓彤1,2,王芳1,姚岳1,孙兆林1,宋丽娟1,孙挺2
(1.辽宁石油化工大学,辽宁省石油化工催化科学与技术重点实验室,辽宁抚顺 113001; 2.东北大学理学院,沈阳 110004)
采用拓扑结构描述符中的分子电性距离矢量(MEDV),对催化裂化(FCC)汽油中48种硫化物在PONA柱上的气相色谱保留指数值(RI)建立多元线性回归模型和神经网络BP模型,并进行模型对比。结果表明,MEDV能很好分辨FCC汽油中不同硫化物以及同种硫化物异构体,由此建立的定量结构-保留相关关系的多元线性回归(MLR)模型和神经网络BP模型都具有较好的稳定性和良好预测能力,而非线性BP模型优于MLR模型的预测能力。
分子电性距离矢量;定量结构-保留关系;多元线性回归;BP神经网络;硫化物
根据最新报道,2014年1月4日国家首次将雾霾天气纳入2013年的自然灾情进行通报;同时截止到2014年2月20日,全国五分之一的地区遭遇雾霾。雾霾是雾和霾的混合物,其中雾是自然现象,但霾是人为环境污染造成的(空气中的灰尘、硫酸、硝酸、有机碳氢化合物粒子等使大气浑浊)。雾霾气体能直接进入人体呼吸道并且粘附在人体呼吸道和肺叶中,可能会引起急性上呼吸道感染(感冒)、急性气管支气管炎及肺炎、哮喘,诱发或加重慢性支气管炎等。人长时间处于雾天中,可引起气管炎、喉炎、肺炎、哮喘、鼻炎、眼结膜炎及过敏性疾病的发生,这对幼儿、青少年的生长发育和体质均有一定的影响。
石油中非烃组分硫化物对炼油影响很大,并且会严重腐蚀炼油工艺设备,同时燃料油中残留的硫组分是造成城市污染主要原因之一。为了尽量减少机动车发动机尾气中SOx排放,生产和使用环保型低硫汽油已成为我国政府和炼油企业共同瞩目的问题。国内主要使用的是催化裂化(FCC)汽油,催化裂化汽油中硫化物是造成大气污染的主要原因之一,所以分析催化裂化汽油中硫化物能为降低汽油中硫化物提供理论基础,从而达到保护环境的目的。
定量结构-保留相关关系QSRR (Quantitive Structure-Retention Relationship)研究在色谱科学领域是一重要研究分支[1-2],受到国内外学者的广泛关注。为了更准确地对汽油中复杂多样性的硫化物组分进行定性定量,笔者采用QSRR研究方法,用分子电性距离矢量与FCC汽油中一系列硫化物和气相色谱保留指数建立相关关系,预测FCC汽油中硫化物的色谱保留指数,探究FCC汽油中硫化物在色谱柱上的保留机理以及选择FCC汽油中最佳脱硫条件[3-9]。该研究可为汽油中硫化物的分析提供理论基础。
1 基本原理和方法
1.1 多元线性回归(MLR)建模
因变量y的相关变量往往是有几个变量相互作用。在定量结构-色谱保留相关关系(QSRR)研究领域,所建立模型与化合物物理化学结构参数有关。利用软件SPSS21.0建立多元线性回归与化合物分子描述符相关构效模型[10]。
将y记为因变量,若相关关系中有p个自变量x1,x2......xp时,建立多元线性回归模型如下:
其中ε为随机误差,E(ε)=0。在多元线性回归建模中,通常用复相关系数r和均方根误差(RMS)作为模型的判断标准,计算公式如下:
其中k代表k个数据。yke表示期望输出值,ykp表示实际输出值,n表示数集中所有样本数量。r2是指模型的回归平方和占总平方和比例,它反映了回归模型对因变量产生的变异的解释能力所占的百分比。所以r2值越大,说明所建立的模型能够解释的样本比例越大,而且模型的回归性越好。同时RMS能更客观地评价模型的拟合能力。对于预测性好的模型,检验集的RMS值会较小,而且应与训练集的结果接近。
1.2 BP神经网络建模
BP(Back Propagation)神经网络模型在化学领域QSRR模型构建中的应用最为广泛[11]。BP神经网络模型不仅结构简单、自动形成模型,而且逼近任意连续函数,同时具有极强的非线性映射能力,其示意图见图1。
如图1所示,第1区域命名为输入层,第2区域命名为隐含层,第3区域命名为输出层。因为BP神经网络模型能能够模拟生物的神经系统,所以它具有良好的自学能力、适应性和联想记忆的功能,能较好地处理非线性的转换能力。
图1 BP神经网络示意图
建立如图1所示的BP神经网络模型来实现FCC汽油中硫化物在PONA色谱柱上的QSRR模型。在进行建模之前先对所要用的数据按(4)式进行归一化处理,BP神经网络模型的建立在MATLAB R2011b中编译实现。
式中:X——归一化处理后描述符;
Xmin——所计算的分子描述符的最小值;
Xmax——所计算的描述符的最大值。
用式(4)进行分子描述符归一化处理后成为BP神经网络的输入层的参数,并且把Sigmoid型函数作为隐含层的传递函数,同时将S型对数处理函数作为输出层的传递函数。
为了使BP神经网络模型比传统梯度下降法具有更快的收敛度和更高的精度,选择数值优化理论函数Trainlm对模型进行训练。初始化权值和阈值采用函数Newff自重完成。由于Sigmoid函数输出0到1间的连续函数,对于较大值的输入收敛速率非常慢,容易陷入局部极值。所以在进行BP神经网络建模之前,需要对建模样本进行归一化处理。
2 实验部分
2.1 主要仪器与试剂
气相色谱仪:HPGC6890型,美国Agilent 公司;
硫化学发光检测器:355 SCD型,美国Sievers公司;
原子发射光谱检测器(HP G2350A)、自动进样器(HP7683)、化学工作站(HP Chemstation Rev. A Plus Family9.03):美国Agilent 公司;
实验所用硫化物样品均为分析纯。
2.2 数据来源
数据集来自催化裂化(FCC)汽油中48种硫化物在PONA柱上气相色谱保留指数[12]。将此数据随机分成训练集(37)和检测集(11),训练集用于模型的建立,检测集用于评价模型的预测能力。FCC汽油中48种硫化物在PONA气相色谱柱的实验条件见表1。
表1 气相色谱条件
所选的催化裂化汽油中硫化物在PONA色谱柱上保留指数实验值RIexp和预测值RIpre见表2。
2.3 分子电性矩边矢量计算
分子电性距离矢量(MEDV)作为一种新型二维矢量描述子,在分子模拟中以各非氢原子之间相互作用为理论基础。该分子描述符不仅计算简单而且与化合物具有很好的性质相关性,比如应用于多种化合物的正辛醇/水分配系数、色谱保留指数、生物活性等相关研究[13-14]。
根据MEDV原理,各个元素的计算借鉴库仑定理,忽略对分子影响较小的非骨架氢原子的影响,根据C,N,O,F,Cl和Br等非氢原子以及与其相连的氢原子数目,将C,N,O,F,Cl和Br等非氢原子分为4类,这4类非氢原子相互作用组合出以下几种方式:Mkl(其中k=1,2,3,4;k≤l≤4),表示第k类原子和第l类原子的作用项。Mkl可以根据库仑原理由公式(5)计算:
其中k或l是原子类型,原子i和j分别属于第k类原子和第l类原子;qi和qj是原子i和j的相对电性;dij是用原子i和j相对键长计算的的距离(原子i通过一个或多个化学键连接到原子j的所有路径各个相对键长加和的最小值)。得到10个变量,作为MEDV的描述子,分别为M11,M12,M13,M14,
表2 FCC汽油中硫化物在PONA色谱柱上的色谱保留指数实验值和预测值
M22,M23,M24,M33,M34,M44,简称µ矢量,所以其对应元素分别为µ1,µ2,µ3,µ4,µ5,µ6,µ7,µ8,µ9,µ10。计算FCC汽油中硫化物分子中原子属性、电负性、相对电负性、键长、相对键长见表3。
表3 原子属性、电负性、键长、相对电性及相对键长
利用C++6.0计算表2中FCC汽油中各硫化物10个电性矩边矢量M11,M12,M13,M14,M22,M23,M24,M33,M34,M44。
2.4 建模
2.4.1 多元线性回归建模(MLR)
在软件SPSS21.0中将所计算FCC汽油中硫化物的电性距离矢量作为结构参数建立在固定相PONA柱上,与FCC汽油中硫化物的色谱保留指数关联起来,建立多元线性回归(MLR)预测模型。并用留一交互检验法(leave-one-out)验证模型的稳定性和预测能力。
RI=-249.537+315µ1+142.789µ2+46.52µ3+27.268µ4-576.957µ5-1.507µ6-543.24µ7-65.158µ8+8797.238µ9-905.724µ10
建模:N=144,R=0.998 7,RMS=6.770 2
交互检验:N=144,Rcv=0.993 7,RSMcv=13.175 6
N为建模样本数,R为所建模型的相关系数,RSM所建模型标准偏差;Rcv为留一法模型交互检验相关系数,RSMcv为模型留一法模型交互检验的标准偏差。
2.4.2 神经网络BP模型建模
在Matlab2011b中建立FCC汽油中硫化物在PONA柱上与其分子描述子电性距离矢量定量结构相关关系神经网络BP模型。神经网络BP模型设置10-4作为训练集的训练精度,设置10-2作为学习效率,通过试差法对比隐藏层不同神经元的训练和测试结果,使其训练集进行多次网络训练,检测集进行多次网络测试。
3 结果与讨论
FCC汽油中硫化物在PONA柱上基于MLR模型和神经网络BP模型分别如图2、图3。
由图2、图3可知,FCC汽油中硫化物在PONA柱上预测值RIpre和实验值RIexp相符合,两者之间有较好的相关性。FCC汽油中硫化物基于PONA柱上的QSRR模型的预测能力见表4。
图2 在PONA柱上基于MLR模型的预测值和实验值之间的关系
图3 在PONA柱上基于神经网络BP模型的预测值和实验值之间关系
表4 FCC汽油中硫化物基于PONA柱上QSRR模型的预测能力
由表4可知,根据1.1节模型评价标准可以得出以下结论:FCC汽油中硫化物在PONA柱上基于MLR模型和神经网络BP模型训练集和检测集相关系数均大于等于0.993 7,均方根误差均小于等于28.151 4,说明所建立的两种QSRR模型不仅具有良好稳定性,并且能很好地预测FCC汽油中硫化物在PONA柱上的色谱保留指数。神经网络BP模型均方根误差虽然较大一些,但在均方根误差允许范围之内。同时可以看出非线性神经网络BP模型训练集和检测集相关系数分别大于线性模型MLR训练集和检测集相关系数,说明非线性神经网络BP模型优于线性MLR模型的预测性。
4 结论
分子电性距离矢量(MEDV)是用10个元素表达4种不同类型的非氢原子在其分子环境中不同电性和不同链接方式的结构特征,可以分辨出不同分子结构的化合物及同种化合物的异构体。
将MEDV作为描述子,建立多元线性回归模型和非线性神经网络BP模型,其预测结果表明,所建立的两种模型稳定性好,预测能力强,优于其它文献方法,并且神经网络BP模型优于多元线性回归模型。所建立的模型可以为FCC汽油中硫化物的检测提供一定理论参考。
[1]Luc,Abrahan F,Adamowiciz L,et al. QSRR study for gas and liquid chromatographic retention indices of polyhalogenated biphenyls using two 2D descriptors[J]. Chromatographia,2007,66(9-10): 717-724.
[2]张晓彤,李兴朋,代敏,等.GBP网络在改性石蜡质预测中的应用[J].石油化工高等学校学报,2004,21(17): 1-5.
[3]X Xiaohua,Z Liang,L Xia,et al. Ionic liquids as additives in high performance liquid chromatography: Analysis of amines and the interaction mechanism of ionic liquids[J]. Analytica Chimica acta,2004,519(2): 207-211.
[4]王连生,支正良,高松亭.分子结构与色谱保留[M].北京:化学工业出版社,1994: 234-235.
[5]韩海洪.有机醇的结构与色谱保留指数的相关性拓扑指数法研究[J].计算机与应用化学,2003,20(5): 687-689.
[6]Zhang Xiaotong,Ding Ling,Sun Zhaolin. Study on quantitative structure-retention relationships for hydrocarbons in FCC gasoline[J]. Chromatographia,2008,70(3-4): 511-518.
[7]林治华,刘树深,李志良.多氯代二苯并呋喃在不同色谱柱上的气相色谱保留行为—定量结构-色谱保留关系(QSRR)的研究[J].色谱,2001,19(2): 116-123.
[8]马喜波.支持向量机算法在有机物构效关系中的应用[D].北京:北京化工大学,2008.
[9]Roman Kaliszan. Quantitative structure-(chromatographic) retention relationships[J]. Chem Rev,2007,107: 3 212-3 246.
[10]Green S B, Salkind N J. Using SPSS for windows and macintosh:Analyzing and understanding data[M]. NJ,USA.:Prentice Hall Press Upper Saddle River,2010: 27-168.
[11]Angelo Antonio D Archivio,Angela Incani,Fabrizio Ruggieri. Retention modelling of polychlorinated biphenyls in comprehensive two-dimensional gas chromatography[J]. Anal Bioanal Chem,2011,399: 903-913.
[12]杨海鹰. 气相色谱在石油化工中的应用[M].北京:化学工业出版社,2004: 193-194.
[13]邹建卫,蒋勇军,胡桂香,等. 多氯联苯定量结构-性质的关系[J].物理化学学报,2005,21(3): 267-272.
[14]李美萍,张生万,胡永刚,等. 分子电性矩边矢量用于多氯代二苯并呋喃光解半衰期的QSPR研究[J].生态病理学报,2010,5(2): 208-214.
Study on QSRR for Sulfide in FCC Gasoline Using Molecular Electronegativity-Distance Vector
Zhang Xiaotong1.2, Wang Fang1, Yao Yue1, Sun Zhaolin1, Song Lijuan1, Sun Ting2
(1. Liaoning Key Laboratory of Petrochemical Catalytic Science and Technology, Liaoning Shihua University, Fushun 113001, China;2. College of Sciences, Northeastern University, Shengyang 110004, China)
Molecular electronegativity distance vector (MEDV) based on topological structure was used to establish multiple linear regression (MLR) model and back propagation (BP) neural network model about gas chromatographic retention index value of 48 kinds of sulfides in fluid catalytic cracking (FCC) gasoline on the PONA columns. Furthermore,these models were compared. The results showed that MEDV could well distinguish different types of sulfides and sulfide isomers in FCC gasoline,so MLR model and BP neural network model with quantitative structure-retention relationship had strong stability and good predictive ability. But the predictive ability of BP model was superior to MLR’s.
molecular electronegativity-distance vector; quantitative structure-retention relationship; multiple linear regression; back propagation network; sulfide
O656.4
A
1008-6145(2014)04-0006-05
10.3969/j.issn.1008-6145.2014.04.002
*国家自然科学基金项目(20976077);辽宁省教育厅资助项目(2008T110)
联系人:宋丽娟;E-mail: lsong56@263.net
2014-04-03