APP下载

主成分分析研究白酒基酒香气成分

2020-08-06杜晋叶马立娟1杜丽平1

中国酿造 2020年7期
关键词:基酒己酸丙酸

杜晋叶,史 畅,马立娟1,,杜丽平1,*

(1.天津科技大学省部共建食品营养与安全国家重点实验室,天津 300457;2.天津科技大学生物工程学院,天津 300457;3.中央财经大学绿色金融国际研究院,北京 071001)

白酒是我国传统蒸馏酒,主要成分乙醇和水约占总质量的98%左右,风味物质占2%左右,但风味物质对白酒品质却有巨大的影响[1]。成品酒的质量和等级与基酒的品质和等级关系密切。不同等级的基酒勾调出的成品酒具有不同风味和口感,价格也差别较大[2]。

传统固态白酒生产采用微生物自然接种制曲,开放式生产作业,固态发酵酿造,甑桶蒸馏的方式[3]。酿造过程在微生物作用下会产生醇类、醛类、酯类、酸类、酚类等香气物质[4-5],微生物生长、发酵的环境条件不同,产生的香气成分浓度也会不同[6],蒸馏过程条件控制的细微差别,也会使白酒中香气物质的相对比例不同,白酒中香气成分浓度不合理或者比例失调都会造成白酒基酒的质量差异[7]。

主成分分析(principal components analysis,PCA)法是将原始变量重新组成一组新的互相无关的几个综合变量,进而代替原始变量的一种统计方法[8-9]。在酒类、茶叶、烟草等的分析中得到了广泛应用。安会敏等[10]采用主成分分析(PCA)法,构建出临沧工夫红茶化学成分含量的质量评价模型。姚瑶等[11-12]采用主成分分析法分析了成熟期四个产地赤霞珠果实品质差异及各产地的最适采收期。钱冲等[13]运用聚类分析和主成分对不同香型的白酒进行了分析,结果表明:主成分分析的分类效果不如聚类分析,但能反映白酒风味组分与香型之间的关系。

本文以白酒厂评定基酒等级的16种主要香气为基础,对248个优质基酒和237个普通基酒,分别进行4次随机取样,每次取样60个,进行主成分分析,对优质基酒和普通基酒4次取样的主成分分析结果进行比较,探讨样本数据对主成分分析的影响,为将主成分分析应用于白酒风味数据挖掘提供依据。

1 材料与方法

1.1 数据来源

490个基酒酒样的色谱分析数据(每个酒样包含己酸乙酯、乙酸乙酯、丁酸乙酯、乳酸乙酯、庚酸乙酯、戊酸乙酯、丙酸乙酯、乙酸、丙酸、丁酸、己酸、乳酸、正丙醇、异丁醇、异戊醇、甲醇共计16个指标的含量),某白酒厂提供。

1.2 方法

1.2.1 样本选取

剔除异常样本后,剩余普通基酒样本237个,优质基酒样本248个,使用R软件分别在1~237和1~248范围内生成四组随机数,每组60个。从普通和优质基酒样本中各自抽取对应序号的样本,得到4组优质基酒和4组普通基酒样本。

1.2.2 数据预处理

通过数据预处理可以消除PCA分析过程中因各指标量纲、量级差异造成的误差。采用Microsoft Excel和R软件进行基酒酒样的色谱分析数据标准化,得到标准化矩阵Zij

式中:xij为第i个样本对应的第j项指标数值,为第j项指标的平均值,sj为第j项指标的标准差。

数据标准化后,相关系数矩阵即为样本协方差矩阵如下:

式中:rij代表第i个和第j个指标之间相关系数,zki和zkj分别为第k个样本的第i个和第j个指标的对应值。

1.2.3 主成分分析[14-16]

主成分分析的基本思想是将原来众多的具有一定相关性的指标X1,X2,…,Xp(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。综合指标既能最大程度的反映原指标X1,X2,…,Xp所代表的信息,又能保证新指标之间保持信息不重叠。将白酒基酒16个香气成分进行线性组合,转换成几个信息互不重叠的综合指标Fm来代替原来指标。

具体步骤如下:

(1)计算特征值确定主成分

特征值和贡献率是选择主成分的依据,根据线性方程组理论,相关系数矩阵R的行列式为0,则特征方程(|R-λIp|=0),式中λ为特征向量,Ip为单位矩阵。按照的标准确定主成分个数,使得信息利用率达到85%以上。

(2)建立载荷矩阵

载荷系数是主成分Fi与原始指标Xm的相关系数,可以反映原始指标与主成分之间的相关性,载荷系数绝对值越接近1,则相关性越强。利用R软件输入相关系数矩阵和计算命令,计算载荷矩阵Aij=[aij]m×p,aij为第i个主成分和第j个指标的相关关系。

(3)主成分F值的计算

将因子载荷Aij矩阵变换为主成分系数矩阵后Qij=[αij]m×p带入多项式,得到各主成分关于原始指标的表达式如下:

式中:α1p为第1个主成分中第p个指标的因子得分,α2p为第2个主成分中第p个指标的因子得分,αmp为第m个主成分中第p个指标的因子得分,X1……XP为样本原始指标名称,F1、F2…Fm分别代表第一,第二,…,第m个主成分。

计算白酒基酒香气成分的综得分F如下:

式中:βi,i=1,2,…,m为第i个主成分所对应的贡献率。

2 结果与分析

2.1 优质基酒主成分分析

主成分分析能够降低数据的维数,减少建模、预测的计算时间,同时又能保留数据的大部分信息。将从248个优质基酒中抽取的4组样本中的己酸乙酯、乙酸乙酯、丁酸乙酯、乳酸乙酯、庚酸乙酯、戊酸乙酯、丙酸乙酯、乙酸、丙酸、丁酸、己酸、乳酸、正丙醇、异丁醇、异戊醇、甲醇等16个指标的含量数据分别按照1.2.3步骤进行标准化,将原来具有一定相关性的16个指标重新组合成互不相关的综合指标(即主成分)。数据处理采用R语言软件,结果见表1~5。

2.1.1 主成分数目确定

确定主成分数目的方法有累计贡献率法和特征值平均数法,本研究采用累计贡献率法,取主成分的累计贡献率达到85%以上时主成分的数目。由表1 可知,本研究在优质基酒抽取的4组样本,前6个主成分的累积贡献率都>85%,保证了综合变量能包括原始变量的绝大多数信息。

2.1.2 主成分载荷与优质基酒成分关系分析

主成分载荷是主成分Fi与原始指标Xi的相关系数,可以反应原始指标与主成分之间的相关性,载荷系数绝对值越接近1,则相关性越强。

由表1、表2 可知,从优质基酒中抽取的第1组样本的第一主成分贡献率达到37.33%,其中丁酸(0.900)、己酸乙酯(0.873)、丁酸乙酯(0.804)、乙酸(0.780)、乙酸乙酯(0.725)的载荷系数为正且都>0.50,说明这些成分是第一主成分的主要评价指标,乳酸乙酯、丙酸、异丁醇载荷系数为负,呈负相关;第二主成分贡献率为18.27%,其中载荷系数绝对值大于0.50的有:异丁醇(0.670)、异戊醇(0.618)、己酸(0.538)载荷系数为正,呈顺序正相关,丙酸(-0.647)、戊酸乙酯(-0.532)等载荷系数为负,呈负相关。第三主成分贡献率10.16%,与异戊醇(0.592)、异丁醇(0.512)载荷系数>0.50,呈正相关;第四、五、六主成分贡献率分别为:8.60%,7.29%和5.29%,其中第四主成分与丙酸(-0.627)呈现较强的负相关;第五主成分与乳酸乙酯(0.742)有很强正相关性,与乙酸乙酯(0.3892)正相关;第六主成分与甲醇(0.553)有较强正相关性,与乙酸(-0.3044)、乳酸(-0.447)负相关。

表1 优质基酒样本主成分分析的特征值及累积贡献率Table 1 Characteristic value and cumulative contribution rate of PCA for high-quality base liquor

表2 第1组优质基酒样本主成分载荷Table 2 Principal component load of high-quality base liquor in group 1

由表1、表3可知,优质基酒第2组样本的第一主成分贡献率38.95%,与丁酸(0.889)、己酸乙酯(0.809)、丁酸乙酯(0.807)、庚酸乙酯(0.745)、乙酸(0.742)呈正相关,与乳酸乙酯(-0.509)等呈负相关。第二主成分贡献率18.98%,与异戊醇(0.599)、异丁醇(0.559)、己酸(0.558)呈顺序正相关,与丙酸(-0.701)、正丙醇(-0.600)、戊酸乙酯(-0.516)呈负相关。第三主成分贡献率10.25%,与异戊醇(-0.609)、异丁醇(-0.571)呈负相关。第四、五、六主成分贡献率分别为:7.40%,6.84%和4.33%,其中第四主成分与丙酸(-0.467)呈现较强的负相关。第五主成分与乳酸乙酯(0.602)、乙酸乙酯(0.442)有较强正相关性。第六主成分与甲醇(0.463)有较强正相关性。

表3 第2组优质基酒样本主成分载荷Table 3 Principal component load of high-quality base liquor in group 2

由表1、表4可知,优质基酒第3组样本的第一主成分贡献率为36.98%,与丁酸(0.886)、己酸乙酯(0.840)、丁酸乙酯(0.837)、乙酸(0.765)、呈顺序正相关,与乳酸乙酯(-0.435)、异丁醇(-0.403)、异戊醇(-0.168)、丙酸(-0.165)呈负相关;第二主成分贡献率18.41%,与异戊醇(0.694)、己酸(0.625)、异丁醇(0.545)呈顺序正相关,与丙酸(-0.574)、丙酸乙酯(-0.562)呈负相关;第三主成分贡献率为9.95%与异丁醇(0.660)、异戊醇(0.530)、丙酸(0.505)正相关;第四主成分贡献率为8.68%,与乳酸(0.462)、丙酸乙酯(0.451),甲醇(0.426)正相关。第五主成分与乳酸乙酯(0.784)、乙酸乙酯(0.589)有很强正相关性,贡献率为8.25%;第六主成分与甲醇(-0.614)有很强负相关性,贡献率为4.23%。

表4 第3组优质基酒样本主成分载荷Table 4 Principal component load of high-quality base liquor in group 3

表5 第4组优质基酒样本主成分载荷Table 5 Principal component load of high-quality base liquor in group 4

表1、表5显示出,优质基酒第4组样本的第一主成分贡献率33.25%,与丁酸(0886)、丁酸乙酯(0.880)、己酸乙酯(0.794)、戊酸乙酯(0.776)、乙酸(0.726)、呈顺序正相关。与乳酸乙酯(-0.363)、异丁醇(-0.337)、异戊醇(-0.133)呈负相关。第二主成分贡献率23.86%,与己酸(0.782)、异戊醇(0.680)、异丁醇(0.680)呈顺序正相关,与丙酸(-0.589)、丙酸乙酯(-0.561)呈负相关。第三主成分与甲醇(0.515)、乙酸乙酯(0.506)呈正相关,与丙酸(-0.517)呈负相关,贡献率为9.72%。第四主成分贡献率为8.77%与异丁醇(0.522)、异戊醇(0.571)、丙酸(0.519)、甲醇(0.383)正相关。第五主成分贡献率为8.00%,与乳酸乙酯(0.692)、乙酸乙酯(0.431)有很强正相关性。第六主成分与甲醇(0.496)有很强正相关性,贡献率为4.60%。

2.1.3 小结

综合上述结果得出:优质基酒4组样本的前6个主成分累积贡献率均达到85%以上;4组样本的第一、第二主成分相关物质都比较稳定,且第一、第二主成分的累计贡献率达到55%以上,包含了样品的主要信息。第一主成分中丁酸、己酸乙酯、丁酸乙酯在4组样本中载荷系数均大于0.8,稳定地排在前3位,为第一主成分的主要评价指标,这也说明优质基酒中丁酸、己酸乙酯、丁酸乙酯等成分的含量稳定,另外除了丙酸、异丁醇、异戊醇的载荷系数绝对值相对较小以外,其他成分的相对载荷系数都比较大说明第一主成分囊括了基酒的绝大部分信息;第二主成分中己酸、异戊醇、异丁醇载荷系数在四组样本中均在前3位为主要评价指标,戊酸乙酯、丙酸、正丙醇、丙酸乙酯在四组样本中的载荷系数的绝对值也比较大但呈现负相关,也是第二主成分所包含的重要信息;第三主成分中异丁醇、异戊醇在第1、第3组样本中载荷系数最大呈正相关,但在第2组样本中载荷系数绝对值最大,但呈负相关,这可能是由于高级醇及其相关的其他物质含量在各组样本的含量不稳定造成的;其他几个主成分在4组样本中,略有差异,但共同点比较明显如:第四主成分中的丙酸乙酯,第五主成分与乳酸乙酯、乙酸乙酯;第六主成分中的甲醇,可作为对应主成分的评价指标。

2.2 普通基酒主成分分析

从237个普通基酒中抽取的4组样本,分别将每组样本的60个样品中的己酸乙酯、乙酸乙酯、丁酸乙酯、乳酸乙酯、庚酸乙酯、戊酸乙酯、丙酸乙酯、乙酸、丙酸、丁酸、己酸、乳酸、正丙醇、异丁醇、异戊醇、甲醇等16个指标的含量数据按照1.2.3步骤进行标准化,将原来具有一定相关性的16个指标重新组合成互不相关的综合指标。数据处理采用R语言软件,计算结果见表6~10。

2.2.1 主成分数目确定

由表6可知,普通基酒4组组样本中,前6个主成分的累积贡献率都>85%,综合变量能包括原始变量的绝大多数信息。

2.2.2 主成分载荷与普通基酒成分关系分析

由表6、表7可知,从普通基酒中抽取的第1组样本的第一主成分贡献率为30.39%,与丁酸(0.896)、己酸乙酯(0.803)、戊酸乙酯(0.745)、丁酸乙酯(0.694)等呈顺序正相关,与乳酸乙酯(-0.288)、异丁醇(-0.538)呈负相关;第二主成分贡献率为16.01%,与己酸(0.577)、己酸乙酯(0.459)、庚酸乙酯(0.425)呈顺序正相关与正丙醇(-0.808)、丙酸乙酯(-0.559)、丁酸乙酯(-0.495)呈负相关;第三主成分与丙酸(-0.764)呈现负相关贡献率为15.86%;第四、五、六主成分贡献率分别为:10.58%、7.34%、5.69%,其中第四主成分与异戊醇(0.820)、异丁醇(0.672)有很强正相关性。第五主成分与乳酸乙酯(0.754)正相关。第六主成分与甲醇(-0.565)有很强负相关性。

表6 普通基酒各组样本主成分分析特征值及累积贡献率Table 6 Characteristic value and cumulative contribution rate of PCA for ordinary base liquor

表7 第1组普通基酒样本主成分载荷Table 7 Principal component load of ordinary base liquor in group 1

由表6、表8可知,普通基酒第2组样本的第一主成分贡献率30.03%,与丁酸(0.896)、己酸乙酯(0.878)、戊酸乙酯(0.801)、庚酸乙酯(0.792)呈正相关,与乳酸乙酯(-0.321)、异丁醇(-0.391)、异戊醇(-0.351)呈负相关;第二主成分贡献率17.90%,与正丙醇(0.832)、丙酸乙酯(0.794)、丁酸乙酯(0.557)、戊酸乙酯(0.359)呈顺序正相关,己酸(-0.650)、庚酸乙酯(-0.391)、丁酸(-0.308)呈负相关。第三主成分贡献率为13.32%,与丙酸(-0.541)负相关。第四主成分与异戊醇(-0.605)、异丁醇(-0.660)、丙酸(-0.586)有很强负相关性,贡献率11.19%;第五、六主成分贡献率分别为:7.85%和5.31%,其中,第五主成分与乳酸乙酯(0.786)有很强正相关性,第六主成分与甲醇(-0.718)有很强负相关性。

表8 第2组普通基酒样本主成分载荷Table 8 Principal component load of ordinary base liquor in group 2

由表6、表9可知,普通基酒第3组样本的第一主成分贡献率为32.57%,与戊酸乙酯(0.843)、乙酸(0.802)、丁酸(0.788)、丁酸乙酯(0.767)、己酸乙酯(0.758)呈顺序正相关与异戊醇(-0.478)、异丁醇(-0.617)、乳酸乙酯(-0.288)呈负相关。第二主成分贡献率20.06%,与己酸(0.689)、己酸乙酯(0.508)、丁酸(0.473)、庚酸乙酯(0.425)呈顺序正相关与正丙醇(-0.786)、丙酸乙酯(-0.697)、丙酸(-0.548)呈负相关。第三主成分贡献率为13.90%,与丙酸(-0.646)负相关。第四主成分与异戊醇(0.805)、异丁醇(0.684)正相关,贡献率为9.82%;第五主成分贡献率为6.84%,与乳酸乙酯(0.584)有很强正相关性。第六主成分与甲醇(-0.804)有很强负相关性,贡献率为5.99%。

表9 第3组普通基酒样本主成分载荷Table 9 Principal component load of ordinary base liquor in group 3

表10 第4组普通基酒样本主成分载荷Table 10 Principal component load of ordinary base liquor in group 4

由表6、表10可知,普通基酒第4组样本的第一主成分贡献率为30.00%,与丁酸(0.840)、己酸乙酯(0.795)、乳酸(0.690)、丁酸乙酯(0.662)呈顺序正相关。与异戊醇(-0.681)、异丁醇(-0.518)、乳酸乙酯(-0.416)呈负相关。第二主成分贡献率17.69%,与正丙醇(0.626)、丙酸乙酯(0.595)、庚酸乙酯(0.547)呈顺序正相关与乳酸乙酯(-0.416)呈负相关。第三主成分与丙酸(-0.814)负相关,贡献率为13.62%。第四主成分贡献率为9.30%,与异丁醇(0.527)、异戊醇(0.700)正相关。第五主成分与乳酸乙酯(0.730)有很强正相关性,贡献率为7.85%。第六主成分与甲醇(-0.607)有很强负相关性,贡献率为6.25%。

2.2.3 小结

综合上述结果可以得出:普通基酒4组样本的前6个主成分累积贡献率均达到85%以上,前2个主成分的累积贡献率略低于优质基酒;4组样本的6个主成分均不太稳定,4组样本中第一主成分中载荷系数≥0.8的有:丁酸、己酸乙酯、丁酸乙酯、戊酸乙酯、乙酸,其中丁酸在四组样本中的载荷系数都大于0.8,己酸乙酯在第1、第2组中>0.8,在第4组中接近0.8,戊酸乙酯在第2组和第3组中>0.8,乙酸仅在第3组中>0.8,4组样本的第一主成分评价指标不同,共同的仅为丁酸,说明普通基酒不同组样本中己酸乙酯、丁酸乙酯、戊酸乙酯、乙酸成分含量差异较大,稳定性差;第二主成分中己酸在第1、第3组样品中载荷因子最大,为正相关,而在第2、第4组中载荷因子绝对值最大,但是负相关,正丙醇则相反,在第1、第3组样品中载荷系数绝对值大,为负相关,而在第2、第4组中载荷因子为最大,为正相关,己酸和正丙醇可以作为该主成分的主要评价指标,但规律相反;第三主成分载荷系数较大的成分在4组样本中均为:乙酸乙酯、乳酸和甲醇可以作为第三主成分的评价指标,第四主成分异丁醇和异戊醇在四组样本中载荷因子的绝对值均表较大,可以作为第四主成分的评价指标,但也存在有的组正相关,有的组负相关的问题;乳酸乙酯则可认为是4组样本第五主成分的评价指标;第六主成分甲醇的载荷系数绝对值最大,均为负相关可作为4组样本中第六主成分的评价指标。

2.3 优质基酒和普通基酒的比较

2.3.1 碎石图的直观检验

碎石图是根据原始数据相关矩阵特征值的大小即主成分方差大小的顺序,画出主成分方差随主成分个数变化的散点图。根据碎石图的形状也可以对主成分分析的适用性进行判断。碎石图的形状理论上应该像个山崖,从第一个主成分开始,曲线迅速下降,然后下降变得平缓,最后变成为近似一条直线,近似直线上的散点就像山脚下的碎石,因此得名。显然,碎石图的弯曲的程度越明显,越像个山崖,越适合进行主成分分析;相反,则不适合进行主成分分析[17-18]。使用R软件绘制优质基酒和普通基酒的碎石图,其结果见图1。由图1可以看出,优质基酒主成分分析效果好于普通基酒。优质白酒的碎石图在第一主成分后下降迅速,尤其是第一、二、三主成分后断崖更为明显,这就解释了优质基酒随机抽取的4组样本中,组成第一、二主成分各因子中载荷系数大于0.8的成分比较稳定。普通白酒的碎石图在第一主成分后下降平缓,没有明显断崖,故4组样本中,主成分组成的各因子载荷系数较大的成分不稳定。

图1 优质基酒及普通基酒的主成分碎石图Fig.1 Gravel diagram of principal components of high-quality base liquor and ordinary base liquor

2.3.2 基酒主成分得分

计算优质基酒和普通基酒的综合评分,绘制直方图后使用高斯核密度估计得到概率密度结果见图2。由图2可知,优质白酒主成分综合得分(F值)更为集中,密度分布图出现明显的尖峰厚尾现象[19-20],F值的方差为0.560较小,说明样本之间的差异较小,这说明优质基酒样品成分稳定,香气成分含量范围比较集中;普通基酒的分布与之相比则较为分散,计算F值的方差为0.925较大,说明样本间差异较大,香气成分含量范围没有优质基酒集中,但可进行进一步挖掘,提高优质酒率。

图2 优质基酒与普通基酒的概率密度图Fig.2 Probability density diagram of high-quality base liquor and ordinary base liquor

3 结论

本研究以白酒厂基酒中酸、酯、醇等16种香气成分数据为基础,对优质基酒和普通基酒,分别进行4次随机抽样,进行主成分分析,结果表明:优质基酒样4次抽样主成分分析结果比较稳定,普通基酒4次抽样其主成分分析结果差异较大。在利用主成分进行白酒风味数据分析时,对数据的分布进行分析,以保证结果的准确性和可靠性,进而通过挖掘数据信息,找出影响产品质量的关键点,控制酿造过程提高产品质量。

猜你喜欢

基酒己酸丙酸
丙酸氟替卡松、孟鲁司特、地氯雷他定治疗咳嗽变异性哮喘的临床研究
己酸的生产应用研究进展
正丁醇/丙酸与腐殖酸相互作用的NMR研究
饲料中丙酸、丙酸盐的测定方法改进研究*
那些外购基酒的白酒企业
2021年茅台酒基酒生产目标发布
窖泥高产己酸菌的分离筛选及发酵性能测试
食醋固态发酵中丙酸含量变化及生成机理研究
浓香型窖泥功能菌的培养工艺改进试验
窖泥中己酸菌的筛选及其运用