橄榄油挥发性香气成分的神经网络定量结构-保留相关性(QSRR)研究
2021-01-09堵锡华
堵锡华 宋 明 田 林 徐 艳 陈 艳 李 靖
(徐州工程学院材料与化工学院,徐州 221018)
橄榄油是直接冷榨油橄榄果实所得的食用油,因其富含不饱和脂肪酸及多种抗氧化营养物质[1],除具有护肤作用外[2],对心血管疾病、阿尔茨海默病、糖尿病、甚至乳腺癌等癌症也具有良好的预防、保健作用和功效[3-5],故近年来越来越受到人们的喜爱,科研工作者对其研究也越来越受重视。在这些对橄榄油的研究工作中,相对对橄榄油的营养成分或挥发性成分的检测较为常见,如Antonietta Baiano等[6]采用色谱质谱联用技术对橄榄油挥发性香气成分进行了分析;田维芬等[7]则采用顶空固相微萃取-气质联用技术对不同品牌种类的橄榄油挥发性风味物质进行了检测和分析;龙伟等[8]也利用气相色谱及气质联相色谱技术对初榨橄榄油的营养成分进行了检测并对其油脂特性进行了分析;少量的研究工作则关注于橄榄油的功能性研究方面,如高建平等[9]探讨了橄榄油等3种不同食用油对小鼠的血脂、肥胖以及糖尿病易感性的影响;Rezaei S等[10]则研究了橄榄油在减轻非酒精性脂肪肝方面的优越性,这些研究工作均取得了较好的成效。
近年来,定量结构-保留相关性(QSRR)研究成为热点之一,在色谱定性分析方面发挥了重要作用,它将化合物的色谱保留性质与分子结构特征进行关联,可深入了解色谱分离机理,判断化合物结构及相关性质,评价色谱分析中的固定相性质,预测色谱保留行为[11]。由于目前对橄榄油的这些研究需要通过大量的实验才能获得相关数据,因此费时费力,而利用在农业[12]、环境化学[13,14]、食品科学[15,16]、机械[17]、物理学[18]、建筑学[19]等方面广泛应用的神经网络(Neural Networks)方法建立QSRR模型,对橄榄油挥发性成分进行研究,就成为一种简便有效的手段。为此笔者在前期做了较多的基础研究[20-22]工作,这里采用人工神经网络法中的BP算法,对文献[23]检测橄榄油得到的挥发性香气成分,建立连接性指数、分子形状指数、原子类型电性拓扑状态指数和电性距离矢量四种分子结构参数与橄榄油挥发性成分的色谱保留指数之间的神经网络模型,根据该模型得到的保留指数预测值与实验值较为吻合,故利用神经网络方法对橄榄油挥发性香气成分进行研究,可快速获取挥发性成分的保留指数值,为提高橄榄油品质研究提供参考。
1 数据处理及研究方法
1.1 橄榄油挥发性成分及保留指数来源
橄榄油挥发性成分及其色谱保留指数(RI)来源于文献[23],它们主要包括:烃类、醛类、醇类、酯类、酸类、酮类及其他少量的酚类、醚类等化合物,将这些橄榄油挥发性化合物分子列于表1。
表1 橄榄油挥发性成分的分子结构参数及保留指数
1.2 参数计算和QSRR分析
采用Chem3D Ultra 9.0三维分子结构应用软件,绘出邓泽元等[23]采用GC-MS-O结合电子鼻测定的橄榄油挥发性成分分子的结构图,再用MATLAB计算科学建模软件,根据文献方法[24,25]自编程序,计算了文献[23]检测出的108种挥发性成分中,97个具有保留指数值分子的连接性指数、分子形状指数、原子类型电性拓扑状态指数和电性距离矢量,共四大类分子结构参数,将这四大类结构参数中大部分分子为0值的数组去除,用具有强大功能的MINITAB统计分析软件及具有数据挖掘、预测分析的SPSS软件,对计算得到的结构参数进行分析,优化筛选了分子连接性指数中0X、2X和5X、分子形状指数的K2和K3、原子类型电性拓扑状态指数的E1和E2、电性距离矢量中M2共8种参数,与橄榄油挥发性成分色谱保留指数相关性为最优,可以构建定量结构-保留相关性(QSRR)模型。
1.3 模型稳健性检验
为检验使用8个变量所建模型的稳定性,用Jackknifed法对式(1)进行检验,这里由于样本数相对较多,以每20个分子为一组,每一组中每次剔除一个分子,用余下的分子进行建模,如依次剔除第1、21、41、61、81号分子,用余下分子建模,得到第一个相关系数,依此类推,这样共得到20个Jackknifed相关系数r,见表2。
表2 Jackknifed相关系数r的检验
2 QSRR神经网络模型的构建
为提高多元回归模型(1)预测橄榄油挥发性成分色谱保留指数的能力,这里应用MATLAB软件中的神经网络法进一步进行研究。在神经网络输入层、隐含层、输出层三层网络结构中,主要是隐含层变量(Y)的选择,基于前期工作[26,27]基础,综合许禄[28]及Andrea[29]的建议规则,隐含层变量(Y)计算式为: 2.2>n/M≥1.4(这里n为样本数,M为权重),M的计算又可以根据M=(Si+1)Y+(Y+1)So(Si、Y、So分别为神经网络的输入层变量、隐含层变量和输出层变量)计算得到。
将前面筛选的橄榄油挥发性成分的8个分子结构参数作为输入层变量,这些分子的色谱保留指数作为输出层变量,根据隐含层变量计算公式得到的Y可取5或6,经过计算分析比较,发现Y采用6时,所得结果更好,故对橄榄油挥发性成分色谱保留指数预测的神经网络采用8-6-1的网络结构方式。为防止建模过程中的过拟合现象,将97个橄榄油挥发性成分分子分为3组:第一组为训练集组(以每5个分子为一组,取其中第1、2、4个分子)、第二组为测试集组(每5个分子组中的第5个分子)、第三组为验证集组(每5个分子组中的第3个分子),每组分子为随机选择,用MATLAB中神经网络法进行计算分析。
3 结果与讨论
用8种参数与橄榄油挥发性成分色谱保留指数构建的多元线性回归模型为:
RI=89.3890X+206.8272X-107.0535X+61.196K2-31.096K3-57.013E1-38.427E2-12.915M2+281.690
(1)
从式(1)可以看到,利用选取的8个参数与保留指数的多元回归模型相关系数达到0.91,基本达到建模的要求。对该模型检验的Jackknifed相关系数r的平均值为0.911,与多元回归方程相关系数完全吻合,说明以这8个变量建立模型的稳定性较好。
进一步采用神经网络研究得到了预测橄榄油挥发性成分色谱保留指数模型的总相关系数rt=0.996 7,3个集组的相关系数分别为:训练集组的相关系数r1=0.996 2、测试集组的相关系数r2=0.998 2、验证集组的相关系数r3=0.996 8,这里明显可以看出,模型总相关系数相比多元回归法模型相关系数得到了明显的提升,达到了0.99以上优级相关性,利用该神经网络模型预测的橄榄油挥发性成分的色谱保留指数与实验值的吻合度较为理想,两者的平均相对误差仅为1.56%,误差明显小于多元回归法结果,将橄榄油挥发性成分保留指数的预测值与实验值也列于表1中,预测值与实验值的关系见图1,两者相对误差值见误差控制图2。
图1 橄榄油挥发性成分色谱保留指数实验值与预测值关系
图2 误差控制图
由于不同产地、不同方法生产出的橄榄油含有的挥发性成分各有不同,但其中正是含有少量不同的成分组成,形成了其自身独特的香味特征。橄榄油挥发性香味成分的种类繁多,主要有烃类、醛类、醇类、酯类、酸类、酮类及其他少量的酚类、醚类等众多类型的挥发性有机物,有的成分含量相对较多,有的成分虽然含量极少,但是影响其独特香气的重要成分。而这些挥发性香气化合物分子性质均与其分子结构有密切的联系,从表1中可以看到,橄榄油挥发性成分的分子结构参数和保留指数之间有一定的关系,挥发性化合物分子上连接的取代基种类、取代基的数量、取代基所在位置、连接的方式以及基团之间相互影响的大小等等,均影响着保留指数的大小;挥发性成分分子体积越大,其保留指数也越大。
利用本模型可寻找不同产地、不同方法所得橄榄油含有的挥发性香气成分的区别,发现不同品质橄榄油中起独特风味作用的成分,从而为生产高品质的橄榄油在理论上作出指导。