APP下载

偏最小二乘回归法筛选馥郁香型白酒瓶贮年份特征标记物

2020-12-02李宜聪樊双喜吉鑫李春扬辛鹏谌松强张泽辉刘凤晖钟其顶

食品与发酵工业 2020年22期
关键词:香型酒瓶年份

李宜聪,樊双喜,吉鑫,李春扬,辛鹏,谌松强,张泽辉,刘凤晖,钟其顶*

1(中国食品发酵工业研究院有限公司,北京,100015)2(全国食品发酵标准化中心,北京,100015) 3(酒鬼酒股份有限公司,湖南 吉首,416000)

馥郁香型白酒秉承了湘西传统小曲酒的生产基础,将中国传统大曲酒生产工艺精髓与小曲酒生产工艺巧妙融合,香气优雅,诸香馥郁[1],具有“前浓、中清、后酱”的香味[2]。年份酒一直以来是我国白酒市场的畅销产品,深得消费者喜欢,但检测技术体系尚不健全。因此,通过科学技术手段鉴定年份酒产品标注的真实性,建立白酒年份酒真实性检测体系,成为规范行业和市场的迫切要求。

目前,国内在白酒年份鉴别技术方面研究很多。例如,徐占成通过顶空与气相色谱联用技术测定出年份酒中微量香味成分的挥发系数,并根据挥发系数与贮存时间之间的关系绘制出标准曲线,研究发现年份酒的贮存时间越长,其挥发系数越来越小[3]。庄名[4]利用原子吸收光谱仪测定酒体中的金属元素含量来鉴定年份酒的贮存年份,研究发现酒体中对酒质产生影响的金属元素随着贮存时间的增长,其含量增加,且成正相关。杨涛等[5]采用紫外光谱法测定年份酒中共轭体系化合物含量,并发现白酒的紫外吸收度随贮存时间加长而增强。王国祥[6]采用Raman光谱技术对古井贡系列年份酒进行鉴别分析,建立基于支持向量机回归的白酒年份与年份指数对应关系,实现了白酒年份识别及预测。徐瑞煜[7]采用荧光光谱技术测得浓香型白酒样品的三维荧光光谱,结合非负矩阵分解-支持向量机算法,可以实现浓香型白酒年份的分类预测。李彪[8]通过近红外光谱技术检测白云边年份酒样品(兼香型),可以建立稀疏主成分-支持向量机白云边年份酒酒龄分类鉴别模型,模型正确率为96%。

目前,已开发的关于白酒的年份真实性鉴定技术研究,主要集中在探索浓香型、清香型等典型香型白酒基酒的年份预测方面,对馥郁香型白酒尤其是瓶贮年份(瓶贮年份指的是白酒在原包装瓶中实际贮存的年数)预测、瓶贮年份与其香气成分之间关系的研究未见报道,同时也未见报道研究明确馥郁香型瓶贮年份白酒特征标记物。

常规的多元线性回归模型不能有效解决变量间的多重共线性问题。偏最小二乘回归(partial least squares regression, PLSR)集成了主成分分析、典型相关分析、线性回归分析的优点[9],可以清晰、灵活地阐述自变量与因变量之间的关系,有效避免了自由度过小造成的影响,解决了样本量少、自由度低、变量间相关性强等问题,可以充分提取样本有效信息[10]。留一交叉验证法(leave one out cross validation, LOOCV)是将N个样本单独作为验证集,其余的N-1个样本作为训练集进行验证[11]。由于LOOCV的训练集最接近原始样本的分布,用该方法建立的模型可信度高、不容易受随机因素的影响,在处理小样本数据上有较大优势。本研究以馥郁香型白酒为研究对象,采用气相色谱直接进样内标测定馥郁香型白酒样品中48 种主要风味组分的含量,建立PLSR模型,预测馥郁香型白酒的甁贮年份,用LOOCV验证PLSR模型,筛选瓶贮年份特征标记物,解决当下瓶贮年份白酒产业高质量健康发展缺乏有效市场监管的技术难题。

1 材料与方法

1.1 材料与设备

37个馥郁香型白酒样本,包括8个52%vol内参酒样本、7个42%vol酒鬼酒样本、7个52%vol酒鬼酒样本、6个42%vol湘泉酒样本、9个54%vol湘泉酒样本。

GC-2010气相色谱仪,配备FID检测器,日本Shimadzu公司;色谱柱:CP-Wax 57 CB Acidic石英毛细管柱(50 m×0.25 mm×0.2 μm),美国安捷伦J&W公司。

1.2 试验方法

1.2.1 白酒风味特征组分含量测定

采用气相色谱直接进样内标[12]测定馥郁香型白酒样品中主要风味组分的含量。

1.2.2 数据预处理

建模前对数据进行标准化处理(中心化和无量纲化),具体处理如公式(1)、公式(2)所示:

(1)

(2)

1.2.3 偏最小二乘回归法

将通过气相色谱直接进样内标测定馥郁香型白酒样品中48 种主要风味组分的含量(mg/L)(已进行数据预处理)作为自变量X矩阵,将相应馥郁香型白酒样品瓶贮年份/年作为因变量Y矩阵。对自变量X矩阵和因变量Y矩阵进行矩阵分解,如公式(3)、公式(4)所示:

X=TP+E

(3)

Y=UQ+F

(4)

式中:T、X矩阵的得分矩阵;P,相应的载荷矩阵;E、残差矩阵;U、Y矩阵的得分矩阵;Q,相应的载荷矩阵;F,残差矩阵。T与U满足关系如公式(5)所示:

U=TB+G

(5)

式中:B为回归系数矩阵,G为误差矩阵。

结合公式(3)、公式(4)可得公式(6)、公式(7):

Y=TBQ

(6)

Y=XBQP-1

(7)

1.2.4 偏最小二乘回归模型评价

采用LOOCV验证PLSR模型。模型预测的质量通常需要通过建立预测值与实际值之间的关系进行评价,常用的模型评价参数为相关系数(R2)、预测标准偏差(root mean square error of prediction,RMSEP)、校正标准偏差(root mean square error of calibration, RMSEC)和相对分析误差(residual predictive deviation, RPD)[14],相关计算如公式(8)~公式(11)所示:

(8)

(9)

(10)

(11)

1.2.5 回归系数显著性检验原理

偏最小二乘法不同于一般最小二乘法,其回归系数方差无法得到准确的无偏估计,本实验采用jack-knife方法进行方差估计[15],如公式(12)所示:

(12)

2 结果与分析

2.1 风味组分含量分析

直接进样气相色谱内标法测定37 个馥郁香型白酒样品的风味特征指纹图谱,共定量出易挥发风味组分48 种,其中包括酯类物质13种、醇类物质15 种、有机酸9 种、羰基化合物(醛、酮)8 种、缩醛类化合物3 种,其描述性统计结果如表1所示。由表1中48 种馥郁香型白酒风味组分含量的均值、中位数、标准差、偏度系数等描述性统计量可知,馥郁香型白酒中风味组分含量不同且差别较大,存在量纲的影响,因此,在建模之前需要对数据进行标准化和中心化预处理,消除量纲对所建模型的不良影响。

表1 风味组分含量描述性统计 单位:mg/L

2.2 相关性分析及多重共线性诊断

采用Pearson相关系数法[16]计算48 种风味组分的相关系数。其中,乙醛、甲酸乙酯、乙缩醛等24种风味组分相关性极强,其相关系数R表现为0.90

(13)

式中:Ri,第i个变量Xi与其余变量Xj(i=1,2,…,k;i≠j)的复相关系数。

24种馥郁香型白酒风味组分的VIF值如表2所示。一般情况下,当VIF>10时,认为模型中自变量存在较强的共线性问题。由表2可知,17 种馥郁香型白酒风味组分VIF均大于10,其余7 种风味组分的VIF值在2.47~9.73,最大值为49.52(丁酸乙酯),说明24 种风味组分的共线性问题仍较严重。这可能是由于白酒在长期发酵、蒸馏、勾调过程中,同一前体物质接连发生一系列化学反应,生成众多风味成分,这些风味成分间存在严重的共线性问题。例如乙醇氧化生成乙醛、乙醛缩合生成乙缩醛等物质[17]。多元线性回归模型中,若变量共线性问题严重,会破坏模型的稳定性,增大误差,不适宜直接建立回归模型。

表2 24种风味组分多重共线性诊断结果Table 2 Diagnosis results of multicollinearity of 24 flavor components

逐步回归是避免多重共线性的一种有效方法,它将向前选择和向后选择的2种变量选择方法结合起来筛选自变量。对上述24 种馥郁香型白酒风味组分进行逐步回归,最终选择出10 种风味组分,并建立馥郁香型白酒甁贮年份多元线性回归模型。

筛选出的10种风味组分VIF值在1.62~9.56,如表3所示。

表3 10种风味组分多重共线性诊断结果Table 3 Diagnosis results of multicollinearity of 10 flavor components

建立的馥郁香型白酒甁贮年份多元线性回归表达式为Y=-1.744 2+0.377 8X1+0.004 6X2-0.007 6X3-0.002 5X4-0.153 5X5+0.047X6+0.509 1X7-0.339 3X8+0.002 4X9+0.744 2X10;Y表示馥郁香型白酒瓶贮年份,年;X1,……,X10表示气相色谱测得的各风味组分含量(具体组分名称参考表3),mg/L。

(14)

式中:R2,多元线性回归的多重决定系数;n,样本量;k,变量个数。

2.3 PLSR模型的建立

2.3.1 模型参数的选择

主成分数的选择是PLSR建模的关键,选取成分个数过多,会将冗余信息带入模型,导致过拟合,预测准确性降低;选取成分个数过少,不能充分反映样品的变量信息,导致欠拟合,预测准确性降低[18]。

本实验根据各成分建模时的累计贡献率和RMSEP综合选取参与建模的主成分数。选取1到累计贡献率为100%的35个主成分分别进行PLSR建模,观察不同主成分数参与建模的RMSEP值变化趋势(图1、图2),各个主成分对变量的贡献率变化趋势(图3),不同主成分数对变量的贡献率变化趋势(图4)。

图1 不同主成分数参与建模的RMSEP值Fig.1 RMSEP values in models with different principal component numbers

图2 不同主成分数参与建模的RMSEP值(局部放大图)Fig.2 RMSEP values in models with different principal component numbers (partial enlarged)

图3 各个主成分对变量的贡献率Fig.3 The contribution of each principal component to the variable

综合图1、图2可知,当参与建模主成分数增加至3时,RMSEP值下降至0.844 3,继而在其周围上下波动,待主成分数为9时,RMSEP值达到最低0.830 5,随后,RMSEP值随主成分数增加而迅速增大。由图3可知,第一主成分、第二主成分、第三主成分对变量(自变量和因变量)的贡献率较大,贡献率均超过10%。然而,观察图4不难发现,前3个主成分对变量的累计贡献率较低(对自变量的累计贡献率为71.95%,对因变量的累计贡献率为55.07%),均小于75%。

图4 不同主成分数对变量的贡献率Fig.4 The contribution of different principal components to the variable

综合考虑,选择RMSEP相对较小且对变量(自变量和因变量)累计贡献率大于85%的主成分数建立PLSR模型。当提取9个主成分建立PLSR模型时,RMSEP值取得最小值0.830 5,对自变量的累计贡献率为89.17%,对因变量的累计贡献率为95.34%,样本信息得到了充分的提取。因此,综合RMSEP值与主成分对变量的累计贡献率,选取前9个主成分建立PLSR模型。

2.3.2 模型建立与评价

综上,本研究从馥郁香型白酒样品中48种风味组分含量数据中抽提出9个主成分参与建立PLSR模型,得出馥郁香型白酒瓶贮年份与风味组分含量的回归方程,进行馥郁香型白酒瓶贮年份的预测。回归方程为Y=-0.475 4X1+0.048 4X2+0.290 7X3+……+0.279 1X46+0.229 1X47+0.312 3X48;Y表示馥郁香型白酒瓶贮年份,年;X1,……,X48表示气相色谱测得的各风味组分含量,mg/L。

以馥郁香型白酒瓶贮年份实际值为横坐标,馥郁香型白酒瓶贮年份PLSR模型预测值为纵坐标,做馥郁香型白酒瓶贮年份预测图。如图5所示,瓶贮年份实际值与PLSR模型预测值数据点总体呈对角线分布,同时通过成对T检验,瓶贮年份预测值与实际值间无明显差异(P>0.95)。

图5 馥郁香型白酒瓶贮年份预测图Fig.5 Prediction graph of storage year of bottle storage year of fragrant Baijiu

采用馥郁香型白酒瓶贮年份预测值与实际值间相关系数R2、RPD和RMSEC值作为评价PLSR模型拟合效果的重要指标。R2越接近1,表明PLSR模型预测值与实际值间的误差越小[19]。若RMSEC<1,RMSEP <1,RPD > 3,表明模型预测精度较高[20]。

本实验所建PLSR模型的R2为0.953 4,RMSEC值为0.215 9,RMSEP值为0.838 4,RPD值为4.631 3,表明馥郁香型白酒瓶贮年份实际值与预测值间线性关系良好,该模型拟合性较好,预测精度较高。

2.4 馥郁香型白酒瓶贮年份特征标记物的筛选

馥郁香型白酒瓶贮年份预测模型的回归系数如图6、图7所示。23个风味组分的含量与馥郁香型白酒瓶贮年份呈正相关,25个风味组分的含量与馥郁香型白酒瓶贮年份呈负相关。采用jack-knife方法[12]对各风味物质的回归系数进行显著性 检验,结果发现,己酸乙酯(P<0.001)、乙醛(P<0.01)、辛酸乙酯(P<0.05)、正丁醇(P<0.05)在预测馥郁香型白酒瓶贮年份上影响显著。

图6 馥郁香型白酒瓶贮年份预测模型回归系数图Fig.6 Regression coefficient graph of prediction model of bottle storage year of fragrant Baijiu

辛酸乙酯对馥郁香酒风味贡献很大,是馥郁香型白酒特有的风味物质。醇是酯和酸的前驱物质,可增加白酒的甜味,并让香气浓郁且持久,部分高级醇还具有特殊的风味。研究表明,正丁醇是馥郁香型白酒区别于其他香型白酒的主要醇类组分[21]。

程娇娇[22]发现,不同年份的赊店酒(浓香型)中,己酸和乙酸的含量随贮藏年份的增加呈现先降低后平缓的趋势,己酸乙酯的含量随贮藏年份的增加而增加。白酒的pH值为4~5,在酸性条件下,己酸和白酒的主体物质乙醇发生酯化反应,生成己酸乙酯,最终达到动态平衡。研究发现,馥郁香型白酒中己酸乙酯含量明显高于酱香型白酒、浓香型白酒和清香型白酒[21]。

图7 馥郁香型白酒瓶贮年份预测模型回归系数图Fig.7 Regression coefficient graph of prediction model of bottle storage year of fragrant Baijiu

乙醛是白酒中主要呈味物质,浓度低时有水果香,浓度高时会产生辛辣的刺激性气味[23]。研究发现,老酒中的乙醛和乙缩醛的含量都比新酒多。新酒贮存一段时间后,酒中检测出的乙醛和乙缩醛含量均显著升高[24]。白酒的陈酿是一系列的氧化过程,乙醇是白酒中的重要组成成分,在白酒老熟的过程中,乙醇在酸性条件下不断被氧化为乙醛,乙醛与醇类缩合生产乙缩醛,随着老熟的推进,白酒中乙醛和乙缩醛的含量不断增加,上下波动,最终达到稳定地动态平衡[14]。

综上,通过对馥郁香型白酒瓶贮年份预测模型回归系数进行显著性检验,结合白酒自然老熟机制,寻找出4个馥郁香型白酒瓶贮年份预测的特征标记物:己酸乙酯、乙醛、辛酸乙酯、正丁醇。其中,辛酸乙酯、正丁醇预测馥郁香型白酒瓶贮年份的机制尚不清晰,有待后续深入研究。

3 结论

本文通过气相色谱直接进样内标测定馥郁香型白酒样品中48 种主要风味组分的含量,建立PLSR模型,预测馥郁香型白酒的甁储年份,并用LOOCV法验证PLSR模型。通过累计贡献率和RMSEP综合选取出9个主成分参与建立偏最小二乘回归模型,所建立的模型R2为0.953 4,RMSEC为0.215 9,RMSEP为0.838 4,RPD为4.631 3,回归拟合效果好,预测精度高。此外,本文还用jack-knife方法对所建模型的回归系数显著性进行检验,结合白酒自然老熟机制,寻找出4个对馥郁香型白酒瓶贮年份预测有显著影响的特征标记物:己酸乙酯、乙醛、辛酸乙酯和正丁醇,为馥郁香型白酒瓶贮年份鉴定提供了新思路,为馥郁香型白酒贮存机理的研究奠定基础。

猜你喜欢

香型酒瓶年份
本期卷首
中国白酒香型概念的提出及演化发展
特殊的一年
你打碎了多少个“酒瓶”
旧酒瓶变身小盆栽
虚惊一场
什么是闰年?
Quercus酒瓶灯
一样的年份
更正