BP网络用于枣香味成分的定量结构色谱保留关系研究
2013-04-29黄保军
黄保军
摘要:采用误差反传前向人工神经网络(BP-ANN)建立了63种大枣香味成分的结构与色谱保留之间的定量关系模型(QSRR)。以63种大枣香味成分的分子电性距离矢量为输入参数,色谱保留时间为输出参数,采用内外双重验证法分析该模型的稳定性和外部预测能力。所构建网络模型的相关系数为0.998 9,交叉检验相关系数为0.998 9,标准偏差为0.959,残差绝对值低于3.844,应用于外部预测集,外部预测集相关系数为0.998 9;而多元线性回归(MLR)法模型的相关系数为0.981 9,交叉检验相关系数为0.982 0,标准偏差为3.697、残差绝对值低于9.264,外部预测集相关系数为0.986 1。结果表明,ANN模型的拟合效果明显优于MLR模型。
关键词:大枣;香气成分;定量结构色谱保留关系(QSRR);人工神经网络(ANN)
中图分类号:TP29;O657.7 文献标识码:A 文章编号:0439-8114(2013)08-1927-04
大枣营养丰富,是天然的药食同源食品,具有较高保健和药用功效[1]。随着人们对枣营养价值认识的深入,枣的深加工产品种类日益丰富[2-4],其中,具有独特香味的枣油、枣酊逐渐应用于食品、保健品、化妆品、烟草等行业[4]。但目前这些研究工作主要集中于香气成分提取、加工工艺、抗氧化性等方面[1,5],而对香味成分的分子结构与其性质之间的相关关系研究报道较少。目前,用于定量结构色谱保留关系(Quantitative structure-chromatography retention relationship,QSRR)建模的线性方法,主要包括多元线性回归法(Multiple linear regressions,MLR)[6]、偏最小二乘(Partial least squares,PLS)法等[7-9]。但因为分子结构与色谱保留关系之间的复杂性,线性建模方法逐渐显示其不足,而非线性方法在建模当中受到青睐。其中,人工神经网络方法(Artificial neural network,ANN)因其独特的结构与功能,对高度非线性问题具有较好的拟合能力,因此在QSRR研究中颇受关注[10,11]。本试验采用人工神经网络方法构建大枣香味成分的定量结构色谱保留关系模型,对预测大枣香味成分色谱保留值、选择香味成分分离条件等具有重要意义,为进一步了解大枣的香味特征、对大枣进行深加工和开发应用、香气成分分离条件的选择等提供理论依据。
1 材料与方法
1.1 数据来源
网络的训练集和预测集由63种大枣的香味成分与其色谱保留时间组成,数据引自文献[6],输入参数分别是分子电性距离矢量M11、M12、M13、M22、M23、M33(共6个),输出参数为大枣香味成分一定条件下在色谱柱(Ultra2柱,50 m×320 μm×0.17 μm)中的保留指数。
1.2 建模方法
采用3层BP网络对63种大枣香味成分的结构与保留时间进行建模,BP网络来自于MATLAB工具箱。
1.3 BP网络模型的检验
在QSRR研究中,模型的稳健性和实用性的检验非常重要。模型的稳健性检验采用交互检验(Cross validation,CV),而模型的实用性通过外部预测能力衡量。为保障模型的可靠性和外部预测能力,本试验将63种大枣香味成分的保留时间按由小到大排序,每间隔5个样本选择1个,共12个作为外部预测集,其他51个作为训练集。采用ANN和MLR分别进行建模,模型有效性通过R(相关系数——包含训练集和外部预测集)、RCV (LOO法交互检验相关系数)、s(标准偏差)、Rext(外部预测集相关系数)、Sext(外部预测集标准偏差)等判别。
2 结果与讨论
2.1 QSQR模型的建立
采用BP网络构建63种大枣香味成分的定量结构与色谱保留之间的关系。所用3层神经网络结构及参数通过反复数据试验优化,最终确定结构及参数如下:网络拓扑结构为6 × 6 × 1,输入层、隐含层和输出层传递函数均为Logsig函数,学习目标函数为0.000 2,学习速度为0.1,迭代次数10 000次。
网络拓扑结构的输入节点数由分子结构参数决定(通过回归分析统计方法优选6个指数,即节点数为6),隐含层节点数分别设为3、4、5、6,由数据处理试验优选为6,输出为色谱保留时间(维数为1)。Logsig函数为BP-ANN常用的3种传递函数之一,能够将输入、输出限制在0~1之间,比较符合数据处理的需求。学习目标函数分别设定为0.000 000 08、0.000 2、0.000 1,最终选择0.000 2,当实际输出与理论输出的误差达到此数值时,网络停止学习。学习速率快慢也由数据处理试验确定,学习速率过高将引起网络的振荡,导致数据结果不太稳定;而太小则需要更多的学习预测时间。迭代次数由能够达到学习目标函数的学习次数确定,10 000次能够满足要求。
63种大枣香味成分结构与色谱保留的BP-ANN、MLR结果见表1。由表1可见,BP-ANN模型的预测值与试验值的绝对误差分布在-3.844~2.220之间,而MLR预测值与试验值绝对误差分布在-9.264~7.796之间,BP-ANN模型训练集的预测值、外部集的预测值、留一交叉检验的预测值更接近于试验值,其绝对误差(残差)明显小于MLR预测值。由图1可明显看出,BP网络QSRR模型与MLR模型得到的预测值与试验值的残差基本在y轴等于0的直线上下分布,残差绝对值低于3.844,频率分布接近于正态,接近于0的较多,误差大的较少。而MLR法得到的结果离散性更强,残差值高达-9.264。由此可见,用神经网络研究大枣香味成分与色谱保留之间的关系结果更好,拟合能力明显优于多元线性回归法。
2.2 QSQR模型的检验
ANN模型和MLR模型的相关系数(R)、标准偏差(s)、留一交互检验相关系数(RCV)、外部预测集相关系数RTRST分别见表2、图2和图3。BP-ANN模型的预测值与试验值相关系数R为0.998 9、训练集留一交叉检验的相关系数RCV为0.998 9,模型稳健性良好;当将其应用于外部预测集时,外部预测集的预测值与试验值的相关系数Rext为0.998 9,说明模型外推能力很强;统计分析结果Sext为0.985,显著性系数低于0.000 1,结合残差散点图可知,模型无显著性差异。而MLR法的R为0.981 9、Rext为0.986 1、Sext为3.724,显然不及BP-ANN模型。由此可知,BP-ANN模型的稳定性和外推能力都明显优于MLR模型。
3 结论
采用BP-ANN对大枣香味成分与色谱保留之间的定量构效关系进行建模,取得了较好的预测结果,相关系数R为0.998 9、RCV为0.998 9、Rext为0.998 9,模型的稳健性和实用性均较好;残差绝对值分布在-3.844~2.220,频率直方图基本符合正态分布,且统计分析的Sext为0.985,显著性系数小于0.000 1,说明模型无显著性差异。这对预测枣香味成分色谱保留值、选择香味成分分离条件等具有重要意义。并且可为进一步了解大枣香味成分特征、对大枣深加工和开发应用、实现香气成分分离条件的选择等提供一定的理论依据。
参考文献:
[1] 胡 芳,赵智慧,刘孟军.金丝小枣类黄酮提取最佳条件及抗氧化研究[J].中国食品学报,2012,12(4):77-83.
[2] 张军和,师玉忠,杜朝曦.红枣糯米酒的研制[J]. 食品与机械,2012,28(2):210-212.
[3] 李 侠,彭 丹,张春晖,等.红枣酒发酵动力学研究[J].中国酿造,2012,31(1):190-193.
[4] 张峻松,贾春晓,毛多斌,等.生物技术制备天然枣香料的香味化合物分析[J].精细化工,2003,20(2):82-84.
[5] 凌圣宝,向进乐,李志西,等.拐枣醋饮加工工艺及其抗氧化活性分析[J]. 食品工业科技,2012,33(15):254-257,262.
[6] 吴菊花,张生万,张婵娟,等.枣香味成分的结构表征及其色谱保留值的预测[J].山西大学学报(自然科学版),2010,33(3):425-429.
[7] GHAVAMI R, FAHAM S. QSRR Models for Kova‘ts retention indices of a variety of volatile organic compounds on polar and apolar gc stationary phases using molecular connectivity indexes[J]. Chromatographia,2010,72(9-10):893-903.
[8] NOORIZADEH H, FARMANY A. QSRR models to predict retention indices of cyclic compounds of essential oils[J]. Chromatographia, 2010,72(5-6):563-569.
[9] NOORIZADEH H, NOORIZADEH M. QSRR-based estimation of the retention time of opiate and sedative drugs by comprehensive two-dimensional gas chromatography[J]. Medicinal Chemistry Research,2012,21(8):1997-2005.
[10] GARKANI-NEJAD Z. Use of self-training artificial neural networks in a qsrr study of a diverse set of organic compounds[J]. Chromatographia,2009,70(5-6):869-874.
[11] NEMECEK P, MOCAK J, LEHOTAY J, et al. Prediction of HPLC retention factor of potential antituberculotics by QSRR[J]. Journal of Liquid Chromatography & Related Technologies,2011,34(3):168-181.