葡萄酒的质量评价及影响因素分析
2014-09-02袁少州阚黎
袁少州+阚黎
【摘 要】本文首先计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,从而确定葡萄酒的分级。再利用主成分分析法、系统聚类分析法完成对酿酒葡萄的分级。最后用逐步回归法建立模型,说明了可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
【关键词】主成分分析法;系统聚类分析法;逐步回归法
【Abstract】In order to evaluate the accuracy of the wine tasters, we first calculate the quadratic sum of difference between the mean score and the score given by that wine taster, then classify the grape wine. Using principal components analysis and systematical clustering method, we classify the grape. At last, we apply the stepwise regression method to build a model, indicating that the quality of the grape wine can be evaluated by the physical and chemical indexes of the grape and the wine.
【Key words】Principal components analysis;Systematical clustering method;Stepwise regression method
0 引言
葡萄酒的质量一般利用对评酒员对其各项指标的打分求和进行评价,而酿酒葡萄的好坏与葡萄酒的质量有很大的关系[1]。本文利用所给数据,采用多元统计分析的方法,完成了对酿酒葡萄的分级,并建立了酿酒葡萄与葡萄酒的理化指标的联系模型和葡萄和葡萄酒的理化指标对葡萄酒质量的影响模型。
1 数据来源与模型假设
本文数据来源于2012年全国大学生数学建模竞赛A题[2],根据所给数据,做出以下假设:(1)假设葡萄酒的生产加工流程相同且固定,即葡萄酒的质量只与葡萄有关;(2)假设评酒员均有一定资历,打分情况可以反映葡萄酒质量的真实水平;(3)假设评酒员打分相互独立,且各组评酒员的打分服从正态分布。
2 符号系统
N1——红葡萄酒的样品总数;N2——白葡萄酒的样品总数;N——各组评酒员的人数;x1ij——第m组评酒员号i对红葡萄酒样品j的评分;ti——葡萄样本n个一级理化指标中的第i个指标。
3 酿酒葡萄分级模型
3.1 数据处理
为了对葡萄进行分级,首先对各理化指标进行归一化处理,再确定其所对应的葡萄酒的质量,而质量是由评酒员对其分类指标打分求和而确定的,故评酒员的打分直接关系到对葡萄酒的分级,由于存在个人喜好导致的偏差,通过计算各评酒员在所有葡萄酒样品打分与均值差的平方和来确定该评酒员的准确度,结果见表1。本文选取平方和最小的前十位评酒员的评分作为分级的依据,分别为:第一组的评酒员1、5、10,以及第二组的评酒员1、2、3、4、5、7、9。
表1 评酒员的准确度测评表
3.2 酿酒葡萄理化指标的主成分分析模型
酿酒葡萄的理化指标在不同程度上反映了研究对象的某些信息,但不同理化指标之间会有一些相关性,而且由于变量过多,在某种程度上使问题的研究变得复杂,因此,本文用主成分分析法对所研究问题进行简化处理[4]。
对于27个红葡萄样本的30个一级理化指标组成的向量依次设为t1,t2,…,tn,取它们的线性组合指标为F1,F2,…,Fs(s≤m),即
F1=z11t1+z12t2+…+z1ntn,F2=z21t1+z22t2+…+z2ntn, ……Fs=zs1t1+zs2t2+…+zsntn.(1)
式(1)中的Fi,Fj(i≠j,j=1,2,…,s)相互无关,且Fs是与F1,F2,…,Fs-1都不相关的t1,t2,…,tn的所有线性组合中方差最大者。Fs称为t1,t2,…,tn的第s主成分。设t1,t2,…,tn各向量的数据为tij(i,j=1,2,…,n),计算出相关系数矩阵:R=(rij)n×n,求其特征值λi(i=1,2,…,n),并由大到小排序,并分别求出对应的单位特征向量ei=(ei1,ei2,…,ein)(i=1,2,…,n),继而求出主成分Fi的贡献率hi和累计贡献率Hi,取累计贡献率为85%~95%的s(s≤n)所对应的前s个主成分。计算主成分载荷zij=ρ(Fi,tj)=■(i=1,2,…,s;j=1,2,…,n),继而的相互各主成分的得分矩阵Z=(zij)n×n,部分结果见表2。白葡萄样品的理化指标的处理方法同上。通过累计贡献率表知,红葡萄样品和白葡萄样品的前三个主成分累计贡献率已经超过95%,因此均取s=3;将得分矩阵中的各数据值带入式(1),即可得到红葡萄样品和白葡萄样品的主成分。
表2 红葡萄样品协方差矩阵特征值,特征贡献率和累计贡献率表(部分)
3.3 酿酒葡萄理化指标的聚类分析模型
对于上一节得到的两种葡萄样品的主成分,本文采用系统聚类法对其进行分类[3]。
假定类G中有m个元素,用列向量vi(i=1,2,…,m)表示,dij表示vi与vj的距离,定义类GK与类GL的距离DKL=min{dij∶vi∈GK;vj∈GL},如果类GK与类GL聚成一个新类GM,其与已有类GJ的距离DMJ=min{DKJ,DLJ},J≠K,L,重复进行两个最近类的合并,直至所有的样品合并为一类,最后形成一个亲疏关系图谱,从中得出分类数量及每一类包含的样品。两种葡萄酒的聚类图如图1和图2所示。